NLTK: Klasyfikacja dokumentu z wynikiem numerycznej zamiast etykiet

W świetle projektu Grałem z Pythona NLTK i klasyfikacji dokumentów i naiwny klasyfikator bayesowski. Jak rozumiem z dokumentacji, działa to bardzo dobrze, jeśli twoje różne dokumenty są oznaczone tagami POS lub neg jako etykiety (lub więcej niż 2 etykiety)NLTK: Klasyfikacja dokumentu z wynikiem numerycznej zamiast etykiet

Dokumenty, z którymi pracuję, są już sklasyfikowane. mają etykiety, ale mają partyturę, zmiennoprzecinkowy z zakresu od 0 do 5.

Chciałbym zbudować klasyfikator, jak przykładowy film w dokumentacji, ale by przewidzieć wynik fragmentu tekst, a nie etykieta. Wydaje mi się, że jest to wspomniane w dokumentach, ale nie jest ono dalej badane jako "prawdopodobieństwa cech numerycznych"

Nie jestem ekspertem od języków ani statystykiem, więc jeśli ktoś ma na to przykład, byłbym bardzo wdzięczny, gdybyś podziel się tym ze mną. Dzięki!

Źródło

2012-10-22 user1765949

Nie bardzo znane z NLTK, ale etykieta w naiwny klasyfikator bayesowski jest bezpośrednio związana z prawdopodobieństwem. Tak więc, gdzieś w kodzie NLTK obliczane jest prawdopodobieństwo i na podstawie tego, czy to prawdopodobieństwo jest powyżej lub poniżej wartości progowej, stosowana jest etykieta. –

Co szukasz jest regresja liniowa, a scikit-learn jest znacznie lepsza niż NLTK do tego, patrz http://scikit-learn.org/stable/modules/linear_model.html

Źródło

2012-10-24 00:05:54 Jacob

To bardzo późno odpowiedź, ale być może to pomoże komuś.

Co pytasz o to regresja. Jeśli chodzi o odpowiedź Jakuba, regresja liniowa jest tylko jednym ze sposobów, aby to zrobić. Jednak zgadzam się z jego rekomendacją naukowego scikita.

Źródło

2013-03-26 00:52:44 herdrick

NLTK: Klasyfikacja dokumentu z wynikiem numerycznej zamiast etykiet

Odpowiedz

Powiązane problemy