Próbuję zrobić zestaw recenzji i przekonwertować je do formatu ARFF do użytku z WEKA. Niestety albo zupełnie nie rozumiem, jak działa format, albo będę musiał mieć atrybut WSZYSTKICH możliwych słów, a następnie wskaźnik obecności. Czy ktoś wie lepszy sposób, lub najlepiej mieć przykładowy plik ARFF?ARFF do przetwarzania języka naturalnego
Odpowiedz
Zajęło to trochę czasu, aby wypracować, ale z tego input.arff:
@relation text_files
@attribute review string
@attribute sentiment {0, 1}
@data
"this is some text", 1
"this is some more text", 1
"different stuff", 0
i to poleceniem:
java -classpath "C:\\Program Files\\Weka-3-6\\weka.jar" weka.filters.unsupervised.attribute.StringToWordVector -i input.arff -o output.arff
produkowany jest następujący:
@relation 'text_files-weka.filters.unsupervised.attribute.StringToWordVector-R1-W1000-prune-rate-1.0-N0-stemmerweka.core.stemmers.NullStemmer-M1-tokenizerweka.core.tokenizers.WordTokenizer -delimiters \" \\r\\n\\t.,;:\\\'\\\"()?!\"'
@attribute sentiment {0,1}
@attribute different numeric
@attribute is numeric
@attribute more numeric
@attribute some numeric
@attribute stuff numeric
@attribute text numeric
@attribute this numeric
@data
{0 1,2 1,4 1,6 1,7 1}
{0 1,2 1,3 1,4 1,6 1,7 1}
{1 1,5 1}
Jeśli przechowuj recenzje w plikach tekstowych i różnych folderach (w twoim przypadku pozytywne i negatywne) możesz użyć TextDirectoryLoader.
Znajdziesz to w aplikacji KnowledgeFlow w Weka lub z wiersza poleceń. Więcej informacji: http://weka.wikispaces.com/ARFF+files+from+Text+Collections
Czy format plików to jedno wystąpienie, np. Recenzja, na wiersz w plikach tekstowych? –
Nie, możesz mieć kilka linii na txt – zdepablo
- 1. Interfejs API do przetwarzania języka naturalnego w systemie Android
- 2. Generowanie języka naturalnego w PHP
- 3. Korzystanie z node.js i przetwarzania języka naturalnego do obsługi wielu wyrażeń wyrazów
- 4. Przetwarzanie języka naturalnego - cechy dotyczące klasyfikacji tekstu
- 5. Analiza składni języka naturalnego podczas spotkania?
- 6. Przetwarzanie języka naturalnego w systemie Windows 8
- 7. NET DLL dla języka naturalnego do SQL/SPARQL
- 8. Analizator języka naturalnego do analizowania danych play-by-play
- 9. Czy interfejs języka naturalnego do bazy danych to ślepy zaułek
- 10. Jakie są dobre narzędzia do analizowania języka naturalnego dla Perla?
- 11. Przetwarzanie języka naturalnego - Konwersja funkcji tekstowych na wektory funkcji
- 12. IComparer do sortowania naturalnego
- 13. Biblioteka przetwarzania wideo dla języka Java
- 14. W przetwarzaniu języka naturalnego (NLP), jak skutecznie zmniejszyć wymiary?
- 15. mysql - fulltext index - co to jest tryb języka naturalnego
- 16. W przetwarzaniu języka naturalnego, jaki jest cel porcjowania?
- 17. . Pliki .arff z scikit-learn?
- 18. jak załadować plik w formacie .arff do matlab
- 19. Jaki jest maksymalny możliwy zakres wartości MATCH ("..." W TRYBIE NATURALNEGO JĘZYKA) w MySQL?
- 20. Jak odczytać plik .arff z R?
- 21. Spłaszczanie wyjątków AggregateException do przetwarzania
- 22. Biblioteka C++ do przetwarzania sygnałów
- 23. tokenizer języka koreańskiego
- 24. Konto logowania zewnętrznego a Konto logowania naturalnego
- 25. Jak mogę zacząć budować wordnet dla języka tureckiego do wykorzystania w analizie nastrojów
- 26. Wiele wyświetlaczy Xvfb do przetwarzania równoległego?
- 27. Pakiet w języku Python do przetwarzania sygnałów
- 28. JavaScript biblioteki do przetwarzania geometrii kompleksu 2D
- 29. Bardzo szybkie memcpy do przetwarzania obrazu?
- 30. spacer vs mapa do przetwarzania seq
Czy wiesz, jakie krotki jak '0 1', oddzielone przecinkami w' {0 1,2 1,4 1,6 1,7 1} "reprezentują? Myślę, że to różni się od konwencjonalnego formatu .arff. Czy udało Ci się uzyskać sensowne wyniki z WEKA? – Rhubarb
To całkiem stary post, ale z tego, co pamiętam, pierwsza cyfra w krotce to numer atrybutu @, a druga liczba to liczba wystąpień w ciągu. Myślę, że w pewnym stopniu może to oznaczać to, czego pragniesz, o ile zrozumiesz, co oznaczają wyniki. –