2008-09-23 14 views
13

Potrzebuję twojej pomocy w określeniu najlepszego podejścia do analizy zdań branżowych (tj. Przeglądów filmów) dla "pozytywnych" kontra "negatywnych". Widziałem wcześniej biblioteki takie jak OpenNLP, ale jest to zbyt niski poziom - po prostu daje mi podstawowy skład zdania; potrzebuję struktury na wyższym poziomie: - mam nadzieję, że z listami słów - mam nadzieję, że można je trenować na moim zbiorze danychNLP: Zdanie jakościowe "pozytywne" kontra "negatywne"

Dzięki!

Odpowiedz

23

To, czego szukasz, jest powszechnie nazywane Sentiment Analysis. Zazwyczaj analiza sentymentów nie jest w stanie poradzić sobie z subtelnymi subtelnościami, takimi jak sarkazm czy ironia, ale wygląda całkiem nieźle, jeśli rzuci się na nią duży zestaw danych.

Analiza nastrojów zwykle wymaga sporo przetwarzania wstępnego. Co najmniej tokenizacja, wykrywanie granic zdań i tagowanie części mowy. Czasami analizowanie składni może być ważne. Prawidłowe wykonanie tego jest całą gałęzią badań w dziedzinie lingwistyki komputerowej i nie radziłbym ci wymyślać własnego rozwiązania, chyba że poświęcisz czas na studiowanie tej dziedziny.

OpenNLP ma kilka narzędzi pomocnych w analizie nastrojów, ale jeśli chcesz czegoś poważniejszego, powinieneś zajrzeć do zestawu narzędzi LingPipe. Ma wbudowaną funkcjonalność SA i ładny tutorial. Możesz trenować go na swoim własnym zbiorze danych, ale nie myśl, że jest to całkowicie banalne :-).

Googling dla tej kadencji zapewne również da ci trochę zasobów do pracy. Jeśli masz jakieś bardziej szczegółowe pytanie, po prostu zapytaj, uważnie oglądam tag nlp ;-)

+0

Niezwykle przydatna - dziękuję, Aleksandar! –

6

Niektóre podejścia do strategii analizy sentymentów wykorzystują strategie popularne w innych zadaniach klasyfikacji tekstu. Najczęstszym jest przekształcanie przeglądu filmu w wektor słów i podawanie go do algorytmu klasyfikatora jako danych treningowych. Najbardziej popularne pakiety eksploracji danych mogą ci w tym pomóc. Możesz spojrzeć na to tutorial on sentiment classification ilustrujące, jak zrobić eksperyment za pomocą open source RapidMiner toolkit.

Udostępnione do celów badawczych w celu wykrycia opinii na temat recenzji filmów, udostępniono good data set. Opiera się na recenzjach użytkowników IMDB i możesz sprawdzić wiele informacji na temat obszaru related research work oraz sposobu korzystania z zestawu danych.

Warto pamiętać, że skuteczność tych metod można oceniać wyłącznie z punktu widzenia statystycznego, więc można założyć, że będą występować błędy klasyfikacji i przypadki, w których opinia jest trudna do wykrycia. Jak już zauważono w tym wątku, wykrywanie rzeczy takich jak ironia i sarkazm może być naprawdę trudne.