Używam pakietu tm do uruchomienia analizy tekstu. Mój problem jest z tworzenia listy ze słowami i ich częstotliwości związane z tym samymlista częstotliwości słów przy użyciu R
library(tm)
library(RWeka)
txt <- read.csv("HW.csv",header=T)
df <- do.call("rbind", lapply(txt, as.data.frame))
names(df) <- "text"
myCorpus <- Corpus(VectorSource(df$text))
myStopwords <- c(stopwords('english'),"originally", "posted")
myCorpus <- tm_map(myCorpus, removeWords, myStopwords)
#building the TDM
btm <- function(x) NGramTokenizer(x, Weka_control(min = 3, max = 3))
myTdm <- TermDocumentMatrix(myCorpus, control = list(tokenize = btm))
I zazwyczaj użyć następującego kodu do generowania listy słów w zakresie częstotliwości
frq1 <- findFreqTerms(myTdm, lowfreq=50)
Czy istnieje jakiś sposób, zautomatyzować to tak, że otrzymujemy ramkę danych ze wszystkimi słowami i ich częstotliwością?
Innym problemem, z którym borykam się, jest konwersja terminu macierz dokumentu na ramkę danych. Ponieważ pracuję nad dużymi próbkami danych, uruchamiam błędy pamięci. Czy jest to proste rozwiązanie?
Powyższe nie pomoże mi wymyślić n gramów i skojarzeń słów. Interesuje mnie ocena częstotliwości n gramów, które zostały wygenerowane. – ProcRJ