2013-08-26 15 views

Odpowiedz

31

stopwords zapewnia tylko wektor słów, po prostu ombine własnych do tego.

tm_map(abs, removeWords, c(stopwords("english"),"my","custom","words")) 
+0

Zamiast to zrobić dla każdej operacji, czy istnieje plik lub dict gdzie mogę dodać te dodatkowe stopu słowa takie jak procent, procent, miliony itp? – Pradeep

1

Można utworzyć wektor swoim zwyczajem stopwords & użyć instrukcji tak:

tm_map(abs, removeWords, c(stopwords("english"), myStopWords)) 
+0

Czy myStopWords ma być listą lub postacią? czy możesz podać polecenie tworzenia myStopWords? Czy to działa myStopWords <- read.csv ('mystop.csv') – harsha

1

Możliwe jest dodawanie własnych stopwords do domyślnej listy stopwords dostarczonym wraz z tm zainstalować . Pakiet "tm" zawiera wiele plików danych, w tym stopwords i należy pamiętać, że pliki stopwords są dostępne dla wielu języków. Możesz dodać, usunąć lub zaktualizować plik english.dat w katalogu stopwords.
Najprostszym sposobem znalezienia katalogu stopwords jest wyszukanie katalogu "stopwords" w systemie za pomocą przeglądarki plików. Powinieneś znaleźć english.dat wraz z wieloma innymi plikami językowymi. Otwórz plik english.dat z RStudio, który powinien umożliwić edycję pliku - możesz dodawać własne słowa lub w razie potrzeby upuszczać istniejące. To jest ten sam proces, jeśli chcesz edytować stopwords w jakimkolwiek innym języku.

2

Zapisz swój niestandardowy stop words w pliku csv (np: word.csv).

library(tm) 
stopwords <- read.csv("word.csv", header = FALSE) 
stopwords <- as.character(stopwords$V1) 
stopwords <- c(stopwords, stopwords()) 

Następnie można zastosować custom words do pliku tekstowego.

text <- VectorSource(text) 
text <- VCorpus(text) 
text <- tm_map(text, content_transformer(tolower)) 
text <- tm_map(text, removeWords, stopwords) 
text <- tm_map(text, stripWhitespace) 

text[[1]]$content 
+0

użyj wcięcia 4-spacji dla bloków kodu (zamiast ich cofania) – YakovL

Powiązane problemy