2012-06-07 24 views
5

Posiadam listę książek, w których każda książka należy do kategorii.Kategoryzacja rekordów w języku Java

  • latanie samolotem - Aviation
  • malowanie obrazu - Art
  • 1001 Recipes - Gotowanie

Mam ogromny wystarczająco przykładowy zestaw danych. Muszę skategoryzować moje nowsze książki za pomocą jakiegoś algorytmu. Wiem, że nigdy nie będzie to w 100% dokładne, ale dobre przypuszczenie jest dobre dla mnie.

Co powinienem użyć, aby zaimplementować coś takiego? Czy powinienem iść z Classifier4J i to jest Vector Classifier?

Czy są jeszcze inne narzędzia, na które powinienem patrzeć jak Weka? Byłoby wspaniale, gdyby ktoś mógł wskazać mi jakieś artykuły/przykłady, aby zacząć.

Dzięki

+0

Można spojrzeć na szybkim górnika. – toniedzwiedz

+1

Spójrz na to: [problem z klasyfikacją tekstu java] (http://stackoverflow.com/questions/2821575/java-text-classification-problem), robicie prawie dokładnie to samo. – 16dots

Odpowiedz

1

Jest to kurs na https://www.coursera.org/course/ml zwany Machine Learning. Jeśli spojrzysz na swój problem jako klasyfikację, powinieneś wyszkolić N klasyfikatorów One-vs-All, gdzie N to liczba twoich klas (= kategorie). Aby wyćwiczyć użycie klasyfikatora na algorytmach opisanych w klasie Natural Language Processing https://www.coursera.org/course/nlp, zwykle będzie to podobieństwo do istniejących klas http://nlp.stanford.edu/IR-book/html/htmledition/text-classification-and-naive-bayes-1.html. Wszystko to można zrobić w Apache Mahout z https://cwiki.apache.org/confluence/display/MAHOUT/Bayesian.