Obecnie próbuję wdrożyć mechanizm tagowania w języku Java i szukałem rozwiązań do wyodrębniania słów kluczowych/znaczników z tekstów (artykułów). Znalazłem kilka rozwiązań dotyczących stackoverflow sugerujących użycie Pointwise Mutual Information.Jak wyodrębnić słowa kluczowe (znaczniki) z tekstu
nie mogę używać pyton i NLTK więc muszę wdrożyć go samodzielnie. Ale nie wiem, jak obliczyć prawdopodobieństwa. Równanie wygląda następująco:
PMI(term, doc) = log [ P(term, doc)/(P(term)*P(doc)) ]
co chcę wiedzieć, jak obliczyć P (termin, doc)
Mam już korpus Lange i zbiór artykułów. Artykuły nie są częścią korpusu. Korpus jest indeksowany lucenem.
Proszę mi pomóc. Pozdrawiamy.
Chcesz wyodrębnić tagów lub obliczyć prawdopodobieństwo? Twój tytuł sugeruje znaczniki ekstrakcji, ale twoje pytanie mówi, że nie wiesz, jak obliczyć prawdopodobieństwo - dlaczego zależy Ci na prawdopodobieństwie? – Bohemian
Chcę wyodrębnić tagi i dlatego muszę obliczyć P (termin, dokument), ale nie wiem jak to zrobić – BauerMitFackel
Dlaczego musisz obliczyć coś? Zdefiniuj również "znaczniki wyodrębniania". – Bohemian