Wygląda na to, że to pytanie mogło zostać zadane kilka razy wcześniej (hereand here), ale nie zostało jeszcze udzielone. Mam nadzieję, że wynika to z wcześniejszej dwuznaczności zadawanych pytań, o czym świadczą komentarze. Przepraszam, jeśli łamie protokół, ponownie zadając proste pytanie, po prostu założyłem, że te pytania nie będą zawierały żadnych nowych odpowiedzi.Przewidywanie tematów LDA dla nowych danych
W każdym razie jestem nowy w Algorycie Latent Dirichlet i badam jego użycie jako środka do redukcji wymiarów danych tekstowych. Ostatecznie chciałbym wydobyć mniejszy zestaw tematów z bardzo dużego worka słów i zbudować model klasyfikacyjny wykorzystujący te tematy jako kilka zmiennych w modelu. Odniosłem sukces w prowadzeniu LDA na planie treningowym, ale problem, który mam, jest w stanie przewidzieć, które z tych samych tematów pojawiają się w innym zestawie danych testowych. Korzystam teraz z pakietu tematów R, ale jeśli jest inny sposób na to, używając innego pakietu, również jestem do tego otwarty.
Oto przykład tego, co próbuję zrobić:
library(topicmodels)
data(AssociatedPress)
train <- AssociatedPress[1:100]
test <- AssociatedPress[101:150]
train.lda <- LDA(train,5)
topics(train.lda)
#how can I predict the most likely topic(s) from "train.lda" for each document in "test"?
Co stanie się, gdy użyjesz argumentu 'newdata' w pakiecie' topicmodels'? Wydaje się odpowiednie .. http://cran.r-project.org/web/packages/topicmodels/topicmodels.pdf – Ben
Ugh, nie wiem, jak to przegapiłem w dokumentacji. Na pierwszy rzut oka wygląda to tak: posterior (train.lda, test). – David
@Ben Czy chcesz przesłać z tym rozwiązanie, abym mógł je zaakceptować? – David