Moim celem jest przeanalizowanie jakiegoś korpusu (twittera na teraz) pod kątem zawartości emocjonalnej. Właśnie dziś zdałem sobie sprawę, że wyszukiwanie sensu słów byłoby sensowne, w przeciwieństwie do wyczerpującej listy wywodzących się z emocji. I tak odkrywam nltk.stem tylko po to, aby zdać sobie sprawę, że istnieją 4 różne stemplery. Chciałbym zapytać lingwistów stackoverflow, czy LancasterStemmer, PorterStemmer, RegexpStemmer, RSLPStemmer, czy WordNetStemmer najlepiej jest z pewnym uzasadnieniem.Które słowo stemmer powinienem użyć w Nltk?
Odpowiedz
RSLP jest dla portugalskiego. Zgaduję, że chcesz angielski. Regexp wymagałby rozwinięcia własnych wyrażeń pomocniczych, więc myślę, że można to również zignorować. WordnetStemmer wymaga, abyś znał część mowy dla słowa, więc musisz najpierw zrobić tagowanie POS, aby go użyć. Użyłem algorytmu wywoływania portera i jest on całkiem niezły, ale algorytm lancaster jest nowszy, więc może być lepszy. Możesz spróbować użyć kombinacji łodyg, w której wybierzesz najkrótsze łodygi z każdego łodygi. W każdym razie najważniejsze jest to, że PorterStemmer jest dobrym wyborem domyślnym.
Może to być nieco inne, niż pytasz, ale biblioteka Nodebox Lingustics zawiera funkcję is_emotive(), która wydaje się sprawdzać słowa, aby sprawdzić, czy są rekurencyjnymi hiponimami niektórych emocjonalnych słów. Od commonsense.py
ekman = ["anger", "disgust", "fear", "joy", "sadness", "surprise"]
other = ["emotion", "feeling", "expression"]
Nie łodygi, ale ciekawe podejście do wymeldowania.
- 1. Snowball Stemmer wywodzi tylko ostatnie słowo
- 2. Użytkowanie Snowball Stemmer
- 3. Które artefakty Maven powinienem użyć do importowania PowerMocka?
- 4. Wyodrębnij słowo z Synsetu za pomocą Wordnet w NLTK 3.0
- 5. Próbujesz użyć MEGAM jako NLTK ClassifierBasedPOSTagger?
- 6. C# Rejestrowanie. Co powinienem użyć?
- 7. Czy MutationRecord.oldValue coś powinienem użyć?
- 8. Co powinienem użyć zamiast printf w Perlu?
- 9. Jakie ustawienia powinienem użyć w Minidumpach?
- 10. Którą strukturę danych powinienem tu użyć?
- 11. , którego z == i =: = powinienem użyć?
- 12. Co powinienem użyć zamiast sscanf?
- 13. Co powinienem użyć zamiast com.google.appengine.repackaged *?
- 14. (Kiedy) powinienem użyć podpowiedzi typu w PHP?
- 15. Jakiego typu powinienem użyć w dwuwymiarowej tablicy?
- 16. Jak powinienem użyć each_with_object w hashe?
- 17. W Jira Agile, kiedy powinienem użyć "Historii" i kiedy powinienem użyć "Ulepszenia"
- 18. Znajdź rymowanie za pomocą NLTK w Pythonie
- 19. Tabela lub lista: czego powinienem tu użyć?
- 20. Jakiego słoika na molo powinienem użyć?
- 21. Którego adaptera CouchDB dla Ruby powinienem użyć?
- 22. Którą bibliotekę wykresów .net powinienem użyć?
- 23. widok Androida lub surfaceView, którego powinienem użyć?
- 24. Podświetl bieżące słowo, które mówi silnik TTS
- 25. Co powinienem użyć uśpienia lub czasomierza
- 26. Które użyć, XMP lub RDF?
- 27. Zamki Mutex kontra Gwintowanie zamków. Które użyć?
- 28. Które użyć, concat, concat_ws? w mysql
- 29. semantyczna parsowania z NLTK
- 30. Trwałe vs nietrwałe - Którą powinienem użyć?