Zastanawiam się, czy można wyodrębnić rzeczowniki, czasowniki osobno w pakiecie R openNLP? Używam funkcji tagPOS, która oznacza zdanie, ale co zrobić, gdy chcę wyodrębnić czasowniki, rzeczowniki osobno.Wyodrębnianie rzeczowników i czasowników z tekstu
6
A
Odpowiedz
9
Korzystanie przykład: (jest to, aby wyodrębnić słowa oznaczone jako/VBX, gdzie X oznacza dowolny pojedynczy znak)
library("openNLP")
acq <- "Gulf Applied Technologies Inc said it sold its subsidiaries engaged in pipeline and terminal operations for 12.2 mln dlrs. The company said the sale is subject to certain post closing adjustments, which it did not explain. Reuter."
acqTag <- tagPOS(acq)
sapply(strsplit(acqTag,"[[:punct:]]*/VB.?"),function(x) sub("(^.*\\s)(\\w+$)", "\\2", x))
[,1]
[1,] "said"
[2,] "sold"
[3,] "engaged"
[4,] "said"
[5,] "is"
[6,] "did"
[7,] " not/RB explain./NN Reuter./."
Ok, mój wyrażenie regularne wymaga poprawy, aby pozbyć się ostatniej linii w wyniku.
EDIT
Alternatywą może być ignorowanie wierszy zawierających space
bohater
sapply(strsplit(acqTag,"[[:punct:]]*/VB.?"),function(x) {res = sub("(^.*\\s)(\\w+$)", "\\2", x); res[!grepl("\\s",res)]})
Powiązane problemy
- 1. Oddzielne listy słów dla rzeczowników, czasowników, przymiotników itp.
- 2. Wyodrębnianie narodowości i krajów z tekstu
- 3. Jsoup - wyodrębnianie tekstu
- 4. wyodrębnianie tekstu z przetwarzania wyników Drzewo
- 5. php wyodrębnianie tekstu/zwykły z ciała pocztowego
- 6. Wyodrębnianie tekstu z pliku PDF za pomocą PDFMiner w python?
- 7. Wyodrębnianie słów przy użyciu nltk z niemieckiego tekstu
- 8. Używanie czasowników HTTP LINK i UNLINK w interfejsie API REST
- 9. Wyodrębnianie informacji z zwykłego tekstu i pisanie do XML przy użyciu DOM
- 10. Wyodrębnianie tekstu w formacie PDF w Objective C
- 11. Algorytm deklinacji rzeczowników języka polskiego/słowiańskiego
- 12. Strategie rozpoznawania rzeczowników właściwych w NLP
- 13. nltk: Jak zapobiec powstawaniu odpowiednich rzeczowników
- 14. Wyodrębnianie informacji z krotki (Python)
- 15. Wyodrębnianie danych z Wikipedii API
- 16. Wyodrębnianie dni z wartości numpy.timedelta64
- 17. Wyodrębnianie klatek z MP4/FLV?
- 18. Ruby: Wyodrębnianie słów z łańcucha
- 19. Wyodrębnianie tytułów z plików PDF?
- 20. Wyodrębnianie podzbiór atrybutów z JSONPath
- 21. Wyodrębnianie uprawnień z funkcji Xcode
- 22. C# wyodrębnianie danych z XML
- 23. Wyodrębnianie klastrów z selorn clustermap
- 24. Wyodrębnianie ciąg z ramki danych
- 25. Wyodrębnianie liczb dziesiętnych z łańcucha
- 26. Wyodrębnianie href z Beautiful Soup
- 27. Wyodrębnianie ciągów statycznych z wyrażenia regularnego
- 28. Wyodrębnianie i weryfikacja adresów obiektów Java
- 29. Wyodrębnianie i usuwanie elementów przy użyciu xmlstarlet
- 30. Wyodrębnianie terminów o znaczeniu kontekstowym (wyrażenia rzeczownikowe) z tekstu w projekcie .NET
Dzięki! gd047 :) działa ... Byłem prawie na granicy użycia sapply do wydobywania, ale nie mogłem uzyskać sposobu, jak to zrobić. Dzięki. –