Dodawanie niestandardowych stopwords w R tm

Mam Corpus w R za pomocą pakietu tm. Ja stosowania funkcja removeWords usunąć stopwordsDodawanie niestandardowych stopwords w R tm

tm_map(abs, removeWords, stopwords("english"))

Czy istnieje sposób, aby dodać własne zwyczaj zatrzymywania słów do tej listy?

Źródło

2013-08-26 Brian Vanover

stopwords zapewnia tylko wektor słów, po prostu ombine własnych do tego.

tm_map(abs, removeWords, c(stopwords("english"),"my","custom","words"))

Źródło

2013-08-26 14:33:27 James

Zamiast to zrobić dla każdej operacji, czy istnieje plik lub dict gdzie mogę dodać te dodatkowe stopu słowa takie jak procent, procent, miliony itp? – Pradeep

Można utworzyć wektor swoim zwyczajem stopwords & użyć instrukcji tak:

tm_map(abs, removeWords, c(stopwords("english"), myStopWords))

Źródło

2016-11-04 16:47:54

Czy myStopWords ma być listą lub postacią? czy możesz podać polecenie tworzenia myStopWords? Czy to działa myStopWords <- read.csv ('mystop.csv') – harsha

Możliwe jest dodawanie własnych stopwords do domyślnej listy stopwords dostarczonym wraz z tm zainstalować . Pakiet "tm" zawiera wiele plików danych, w tym stopwords i należy pamiętać, że pliki stopwords są dostępne dla wielu języków. Możesz dodać, usunąć lub zaktualizować plik english.dat w katalogu stopwords.
Najprostszym sposobem znalezienia katalogu stopwords jest wyszukanie katalogu "stopwords" w systemie za pomocą przeglądarki plików. Powinieneś znaleźć english.dat wraz z wieloma innymi plikami językowymi. Otwórz plik english.dat z RStudio, który powinien umożliwić edycję pliku - możesz dodawać własne słowa lub w razie potrzeby upuszczać istniejące. To jest ten sam proces, jeśli chcesz edytować stopwords w jakimkolwiek innym języku.

Źródło

2017-01-09 00:41:56 BMALURU

Zapisz swój niestandardowy stop words w pliku csv (np: word.csv).

library(tm) 
stopwords <- read.csv("word.csv", header = FALSE) 
stopwords <- as.character(stopwords$V1) 
stopwords <- c(stopwords, stopwords())

Następnie można zastosować custom words do pliku tekstowego.

text <- VectorSource(text) 
text <- VCorpus(text) 
text <- tm_map(text, content_transformer(tolower)) 
text <- tm_map(text, removeWords, stopwords) 
text <- tm_map(text, stripWhitespace) 

text[[1]]$content

Źródło

2017-05-15 14:05:14

użyj wcięcia 4-spacji dla bloków kodu (zamiast ich cofania) – YakovL

Dodawanie niestandardowych stopwords w R tm

Odpowiedz

Powiązane problemy