2013-07-02 11 views
7

Jestem studentem pierwszego roku w LDA i chcę go wykorzystać w mojej pracy. Pojawiają się jednak pewne problemy.Jak ustalić liczbę tematów dla LDA?

Aby uzyskać najlepszą wydajność, chcę oszacować najlepszy numer tematu. Po przeczytaniu "Znajdowanie tematów naukowych" wiem, że najpierw mogę obliczyć logP (w | z), a następnie użyć średniej harmonicznej szeregu P (w | z) do oszacowania P (w | T).

Moje pytanie brzmi: co oznacza "seria"?

Przepraszamy za mój angielski i dzięki za uwagę.

Odpowiedz

6

Niestety, nie ma twardej nauki dostarczając poprawną odpowiedź na twoje pytanie. Zgodnie z moją wiedzą, hierarchical dirichlet process (HDP) jest prawdopodobnie najlepszym sposobem na uzyskanie optymalnej liczby tematów.

Jeśli szukasz głębszych analiz, this paper on HDP zgłasza zalety HDP w określaniu liczby grup.

2

Najpierw niektórzy używają średniej harmonicznej do znalezienia optymalnej liczby tematów i próbowałem, ale wyniki są niezadowalające. Tak jak na moją sugestię, jeśli używasz R, wtedy pakiet "ldatuning" będzie przydatny. Ma cztery metryki do obliczania optymalnego nr parametrów. Znowu sprawdzanie poprawności krzyżowej z fałszem w kształcie litery "V" i logarytmicznym jest również bardzo dobrą opcją dla najlepszego modelowania tematu. Sprawdzanie krzyżowe z krotnym wstawianiem jest czasochłonne dla dużego zbioru danych. Możesz zobaczyć "heurystyczne podejście do określania odpowiednich tematów". w modelowaniu tematycznym ". Ważne linki: https://cran.r-project.org/web/packages/ldatuning/vignettes/topics.html https://www.ncbi.nlm.nih.gov/pmc/articles/PMC4597325/

Powiązane problemy