Próbuję więc klasyfikować teksty za pomocą Weka SVM. Do tej pory moje wektory cech używane do szkolenia SVM składają się ze statystyk TF-IDF dla unigramów i bigramów, które pojawiają się w tekstach szkoleniowych. Ale wyniki, jakie otrzymałem z testowania wyszkolonego modelu SVM, nie były dokładne, więc czy ktoś może przekazać mi opinię na temat mojej procedury? Mam następujące kroki, aby klasyfikować teksty:Przetwarzanie języka naturalnego - cechy dotyczące klasyfikacji tekstu
- Construct słownik składający się z wyodrębnionych unigrams i bigrams z tekstów szkoleniowych
- policzyć, ile razy pojawia się każdego unigram/BIGRAM w każdym tekście szkolenia, a także w jaki sposób wiele szkoleń tekstach unigram/BIGRAM pojawia się
- Użyj danych z kroku 2 do calcuate się tfidf dla każdego unigram/BIGRAM
- dla każdego dokumentu, skonstruować wektor cech, który jest długość słownika, i sklep odpowiednią statystykę TF-IDF w każdym elemencie wektora (na przykład pierwszy element w wektorze właściwości dla Dokument można by odpowiadać tfidf dla pierwszego wyrazu w słowniku stosunku do jednego dokumentu)
- Dołącz etykietę klasy dla każdego wektora cech odróżnić, który tekst należący do którego autor
- Pociąg SVM użyciu tych wektorów cech
- wektorów cech tekstów badań są skonstruowane w taki sam sposób jak teksty szkoleniowych i są klasyfikowane przez SVM
Ponadto, może być, że muszę trenować SVM więcej funkcji? Jeśli tak, jakie funkcje są najbardziej skuteczne w tym przypadku? Każda pomoc będzie bardzo ceniona, dzięki.