Mam kilka plików csv
, które czytam do R i w tym w folderze pakiet/dane w formacie .rdata
. Niestety, znaki spoza ASCII w danych nie sprawdzają. Pakiet tools
ma dwie funkcje sprawdzania znaków spoza ASCII (showNonASCII
i showNonASCIIfile
), ale nie mogę zlokalizować jednego, aby je usunąć/wyczyścić.Usuwanie znaków spoza ASCII z plików danych
Zanim przejdę do innych narzędzi UNIX, byłoby wspaniale zrobić to wszystko w R, więc mogę utrzymać pełny przepływ pracy od surowych danych do końcowego produktu. Czy istnieją jakieś pakiety/funkcje, które pomogą mi pozbyć się znaków spoza ASCII?
Wypróbuj za pomocą wyrażeń regularnych, na przykład funkcji gsub. Sprawdź? Regexp – aatrujillob
Masz świadomość, że 'read.csv()' pobiera argument "kodowania", więc możesz obsłużyć te, przynajmniej w R? Jakiego specyficznego sprawdzenia nie udają się znaki spoza zestawu ASCII, czy jest to w R (jeśli tak, to tutaj), czy na zewnątrz? – smci