Próbuję oczyścić korpus i Użyłem typowych czynności, takich jak poniższy kod:Cytaty i myślniki nie usunięte przez funkcje pakietu tm podczas czyszczenia korpusu
docs<-Corpus(DirSource(path))
docs<-tm_map(docs,content_transformer(tolower))
docs<-tm_map(docs,content_transformer(removeNumbers))
docs<-tm_map(docs,content_transformer(removePunctuation))
docs<-tm_map(docs,removeWords,stopwords('en'))
docs<-tm_map(docs,stripWhitespace)
docs<-tm_map(docs,stemDocument)
dtm<-DocumentTermMatrix(docs)
Jednak kiedy sprawdzić matrycę istnieje kilka słów, które pochodzą z cytatami, takie jak: „my” „spółka” „kod wytycznych” -known -accelerated
wydaje się, że same słowa są wewnątrz cudzysłowów, ale gdy próbuję uruchomić, usunąć Kod interpunkcji ponownie nie działa. Poza tym istnieje kilka słów z kulami, których również nie mogę usunąć.
Każda pomoc zostanie bardzo doceniona.
Czy możesz podać odtwarzalny przykład? –
Przykro mi, nie rozumiem "odtwarzalnego przykładu"? – anonymous
http://stackoverflow.com/help/mcve – RHertel