2013-01-15 18 views
5

Obecnie próbuję wdrożyć mechanizm tagowania w języku Java i szukałem rozwiązań do wyodrębniania słów kluczowych/znaczników z tekstów (artykułów). Znalazłem kilka rozwiązań dotyczących stackoverflow sugerujących użycie Pointwise Mutual Information.Jak wyodrębnić słowa kluczowe (znaczniki) z tekstu

Solution 1

Solution 2

nie mogę używać pyton i NLTK więc muszę wdrożyć go samodzielnie. Ale nie wiem, jak obliczyć prawdopodobieństwa. Równanie wygląda następująco:

PMI(term, doc) = log [ P(term, doc)/(P(term)*P(doc)) ] 

co chcę wiedzieć, jak obliczyć P (termin, doc)

Mam już korpus Lange i zbiór artykułów. Artykuły nie są częścią korpusu. Korpus jest indeksowany lucenem.

Proszę mi pomóc. Pozdrawiamy.

+0

Chcesz wyodrębnić tagów lub obliczyć prawdopodobieństwo? Twój tytuł sugeruje znaczniki ekstrakcji, ale twoje pytanie mówi, że nie wiesz, jak obliczyć prawdopodobieństwo - dlaczego zależy Ci na prawdopodobieństwie? – Bohemian

+0

Chcę wyodrębnić tagi i dlatego muszę obliczyć P (termin, dokument), ale nie wiem jak to zrobić – BauerMitFackel

+0

Dlaczego musisz obliczyć coś? Zdefiniuj również "znaczniki wyodrębniania". – Bohemian

Odpowiedz

0

Istnieje wiele algorytmów ten sposób:

otwartych narzędzi źródło:

Kea podejście (http://www.nzdl.org/Kea/) nadzorowane wykorzystuje dane treningowe i kontrolowane słownictwo

Maui podziałowe (http://code.google.com/p/maui-indexer/) jest zasadniczo rozszerzenie kea, które zapewnia możliwość korzystania z encyklopedii do ekstrakcji fraz kluczowych.

carrot2 (http://project.carrot2.org/) nienadzorowana metoda ekstrakcji fraz kluczowych. obsługuje wiele odmian wejściowego, wyjściowego formatu i parametrów dla ekstrakcji fraz kluczowych.

młotek moduł modelowania temat (http://mallet.cs.umass.edu/topics.php)

Stanford narzędzie modelowania temat (http://nlp.stanford.edu/software/tmt/tmt-0.3/)

Kornak algorytmy klasteryzacji (http://mahout.apache.org/)

api komercyjne:

Alchemy API (http://www.alchemyapi.com/api/keyword-extraction/)

Zemanta API (http://www.zemanta.com/developer/)

yahoo ekstrakcja termin API (http://developer.yahoo.com/contentanalysis/)

+1

ta odpowiedź jest kopiowana z https: //www.quora.com/What-is-good-tools-to-extract-key-words-and-or-topics-tags-from-a-random-paragraph-of-text/answer/Vineet-Yadav? srid = kKqE – MFARID

Powiązane problemy