Niedawno podjąłem próbę użycia NLP i próbowałem użyć NLTK i TextBlob do analizy tekstów. Chciałbym stworzyć aplikację, która analizuje recenzje zrobione przez podróżników, więc muszę zarządzać wieloma tekstami napisanymi w różnych językach. Muszę wykonać dwie główne operacje: POS Tagging i lematyzację. Widziałem, że w NLTK istnieje możliwość wyboru odpowiedniego języka dla zdań tokeny tak:Wielojęzyczne narzędzie NLTK do tagowania POS i Lemmatizer
tokenizer = nltk.data.load('tokenizers/punkt/PY3/italian.pickle')
ja nie znalazłem właściwą drogę, aby ustawić język dla POS Tagging i Lemmatizer w różnych językach jeszcze. Jak ustawić poprawne corpora/słownik dla tekstów nieangielskich, takich jak włoski, francuski, hiszpański lub niemiecki? Widzę również, że istnieje możliwość importu modułów "TreeBank" lub "WordNet", ale nie rozumiem, jak mogę z nich korzystać. W przeciwnym razie, gdzie mogę znaleźć odpowiednie korporacje?
Czy możesz podać mi jakieś sugestie lub referencje? Uważaj, że nie jestem ekspertem od NLTK.
Wielkie dzięki.
Próbowałem tego taggera dla Tajlandii, ale to nie działa. Daje mi cały długi ciąg jako NCNM. Czy zamiast tego musi przyjąć ciąg żetonów? – aceminer
Tak, przed użyciem taggera musisz wykonać segmentację słów tajskich. – NQD