2011-05-28 24 views
9

Próbuję zrobić zestaw recenzji i przekonwertować je do formatu ARFF do użytku z WEKA. Niestety albo zupełnie nie rozumiem, jak działa format, albo będę musiał mieć atrybut WSZYSTKICH możliwych słów, a następnie wskaźnik obecności. Czy ktoś wie lepszy sposób, lub najlepiej mieć przykładowy plik ARFF?ARFF do przetwarzania języka naturalnego

Odpowiedz

3

Zajęło to trochę czasu, aby wypracować, ale z tego input.arff:

@relation text_files 

@attribute review string 
@attribute sentiment {0, 1} 

@data 
"this is some text", 1 
"this is some more text", 1 
"different stuff", 0 

i to poleceniem:

java -classpath "C:\\Program Files\\Weka-3-6\\weka.jar" weka.filters.unsupervised.attribute.StringToWordVector -i input.arff -o output.arff 

produkowany jest następujący:

@relation 'text_files-weka.filters.unsupervised.attribute.StringToWordVector-R1-W1000-prune-rate-1.0-N0-stemmerweka.core.stemmers.NullStemmer-M1-tokenizerweka.core.tokenizers.WordTokenizer -delimiters \" \\r\\n\\t.,;:\\\'\\\"()?!\"' 

@attribute sentiment {0,1} 
@attribute different numeric 
@attribute is numeric 
@attribute more numeric 
@attribute some numeric 
@attribute stuff numeric 
@attribute text numeric 
@attribute this numeric 

@data 

{0 1,2 1,4 1,6 1,7 1} 
{0 1,2 1,3 1,4 1,6 1,7 1} 
{1 1,5 1} 
+0

Czy wiesz, jakie krotki jak '0 1', oddzielone przecinkami w' {0 1,2 1,4 1,6 1,7 1} "reprezentują? Myślę, że to różni się od konwencjonalnego formatu .arff. Czy udało Ci się uzyskać sensowne wyniki z WEKA? – Rhubarb

+2

To całkiem stary post, ale z tego, co pamiętam, pierwsza cyfra w krotce to numer atrybutu @, a druga liczba to liczba wystąpień w ciągu. Myślę, że w pewnym stopniu może to oznaczać to, czego pragniesz, o ile zrozumiesz, co oznaczają wyniki. –

4

Jeśli przechowuj recenzje w plikach tekstowych i różnych folderach (w twoim przypadku pozytywne i negatywne) możesz użyć TextDirectoryLoader.

Znajdziesz to w aplikacji KnowledgeFlow w Weka lub z wiersza poleceń. Więcej informacji: http://weka.wikispaces.com/ARFF+files+from+Text+Collections

+0

Czy format plików to jedno wystąpienie, np. Recenzja, na wiersz w plikach tekstowych? –

+0

Nie, możesz mieć kilka linii na txt – zdepablo

Powiązane problemy