2011-10-10 12 views
5

Mam korpus dokumentów i chcę reprezentować każdy dokument jako wektor. Zasadniczo, wektor miałby 1 dla słów, które są obecne w dokumencie i dla innych słów (które są obecne w innych dokumentach w korpusie, a nie w tym konkretnym dokumencie) miałby on 0. Jak utworzyć ten wektor dla wszystkich dokumenty w Weka?Jak stworzyć worek słów za pomocą Weka?

Czy można to szybko zrobić za pomocą Weka? Chciałbym również, aby Weka usunęła stopwords, a więc trochę wstępnego przetworzenia, jeśli to możliwe, zanim utworzy ten wektor.

Dzięki Abhishek S

Odpowiedz

7

Chcesz filtr StringToWordVector.

Posiada opcje występowania binarnego i zatrzymywania się, między innymi, takie jak: obcinanie, obcinanie listy słów, odrzucanie rzadkich terminów, składanie spraw.

Powiązane problemy