Używam Algorytmów Latent Dirichlet z corpus wiadomości danych z sześciu różnych źródeł. Interesuje mnie ewolucja tematu, pojawienie się i chcę porównać, jak źródła są podobne i różne od siebie w czasie. Wiem, że istnieje wiele zmodyfikowanych algorytmów LDA, takich jak model Autor-Temat, Tematy w czasie i tak dalej.Implementowanie alternatywnych formularzy LDA
Mój problem polega na tym, że bardzo niewiele z tych alternatywnych specyfikacji modeli jest implementowanych w dowolnym standardowym formacie. Niektóre są dostępne w Javie, ale większość istnieje tylko jako dokumenty konferencyjne. Jaki jest najlepszy sposób na samodzielne wdrożenie niektórych z tych algorytmów? Jestem dość biegły w R i jags i mogę potknąć się w Pythonie, gdy otrzymam wystarczająco długo. Jestem gotów napisać kod, ale tak naprawdę nie wiem od czego zacząć i nie znam C ani Javy. Czy mogę zbudować model w JAGS lub Pythonie, po prostu mając formuły z manuskryptu? Jeśli tak, czy ktoś może wskazać mi przykład takiego działania? Dzięki.
Mam przyjaciela, który dosłownie musiał to zrobić około tydzień temu. Ostatecznie zaimplementował własną wersję zwiniętego samplera Gibbs w Pythonie i C. W zależności od wielkości danych, możesz nie mieć innego wyboru, niż używać szybszych języków. W każdym razie sprawdzę, czy mogę poprosić tego znajomego o opublikowanie informacji o tym, jak rozwiązał ten problem. – ely
Czy obejrzałeś pakiety 'R'' topicmodels' oraz 'lda'? Jest też trochę pogadanek na ten temat na http://stats.stackexchange.com/ – Ben
@Ben Tak - użyłem obu pakietów, ale rzeczywista część algorytmiczna jest już skompilowana w obu przypadkach, które nie nadają się do rozbudowa. Pakiet lda jest doskonały i szybki, ale szukam także pewnej elastyczności bez konieczności uczenia się C lub Java podczas pisania mojej rozprawy. – Trey