Mam wektor znaków, który jest plikiem skrobania PDF za pomocą pdftotext
(narzędzie wiersza poleceń).Gdzie ukrywa się ta biała spacja?
Wszystko jest (błogo) ładnie wyrównane. Jednak wektor jest usiane rodzaju białych znaków, które wymyka moich regularnych wyrażeń:
> test
[1] "Address:" "Clinic Information:" "Store " "351 South Washburn" "Aurora Quick Care"
[6] "Info" "St. Oshkosh, WI 54904" "Phone: 920‐232‐0718" "Pewaukee"
> grepl("[0-9]+ [A-Za-z ]+",test)
[1] FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE
> dput(test)
c("Address:", "Clinic Information:", "Store ", "351 South Washburn",
"Aurora Quick Care", "Info", "St. Oshkosh, WI 54904", "Phone: 920‐232‐0718",
"Pewaukee")
> test.pasted <- c("Address:", "Clinic Information:", "Store ", "351 South Washburn",
+ "Aurora Quick Care", "Info", "St. Oshkosh, WI 54904", "Phone: 920‐232‐0718",
+ "Pewaukee")
> grepl("[0-9]+ [A-Za-z ]+",test.pasted)
[1] FALSE FALSE FALSE TRUE FALSE FALSE FALSE FALSE FALSE
> Encoding(test)
[1] "unknown" "unknown" "unknown" "unknown" "unknown" "unknown" "unknown" "unknown" "unknown"
> Encoding(test.pasted)
[1] "unknown" "unknown" "unknown" "unknown" "unknown" "unknown" "unknown" "UTF-8" "unknown"
Oczywiście istnieje jakiś znak, który nie jest uzyskiwanie przypisane w dput
, jak w poniższym pytaniu:
How to properly dput internationalized text?
Nie mogę skopiować/wkleić całego wektora .... W jaki sposób mogę wyszukać i zniszczyć białe spacje?
Edit
Oczywiście nie byłem nawet blisko, aby wyczyścić, ponieważ odpowiedzi są wszędzie. Tutaj jest jeszcze prostszy przypadek testowy:
> grepl("Clinic Information:", test[2])
[1] FALSE
> grepl("Clinic Information:", "Clinic Information:") # Where the second phrase is copy/pasted from the screen
[1] TRUE
Istnieje jedna przestrzeń między słowem „Klinika” i „Informacji” wydrukowane na ekranie i na wyjściu dput
, ale to, co jest w ciągu nie jest standardową przestrzeń . Moim celem jest wyeliminowanie tego, dzięki czemu mogę poprawnie odsunąć ten element.
To spacje nie jest w samym wektorem, to tylko w sposób, w jaki są wyświetlane. –
Spójrz na 'lapply (test [4], utf8ToInt)' i sprawdź, czy są tam duże liczby. –
@AlanCurry '> lapply (test [4], utf8ToInt) [1] 51 53 49 160 83 111 117 116 104 160 87 97 115 104 98 117 114 110' –