Wyodrębnianie rzeczowników i czasowników z tekstu

Zastanawiam się, czy można wyodrębnić rzeczowniki, czasowniki osobno w pakiecie R openNLP? Używam funkcji tagPOS, która oznacza zdanie, ale co zrobić, gdy chcę wyodrębnić czasowniki, rzeczowniki osobno.Wyodrębnianie rzeczowników i czasowników z tekstu

Źródło

2010-06-04 Shreyas Karnik

Korzystanie przykład: (jest to, aby wyodrębnić słowa oznaczone jako/VBX, gdzie X oznacza dowolny pojedynczy znak)

library("openNLP") 

acq <- "Gulf Applied Technologies Inc said it sold its subsidiaries engaged in pipeline and terminal operations for 12.2 mln dlrs. The company said the sale is subject to certain post closing adjustments, which it did not explain. Reuter." 

acqTag <- tagPOS(acq) 

sapply(strsplit(acqTag,"[[:punct:]]*/VB.?"),function(x) sub("(^.*\\s)(\\w+$)", "\\2", x)) 

    [,1]       
[1,] "said"       
[2,] "sold"       
[3,] "engaged"      
[4,] "said"       
[5,] "is"       
[6,] "did"       
[7,] " not/RB explain./NN Reuter./."

Ok, mój wyrażenie regularne wymaga poprawy, aby pozbyć się ostatniej linii w wyniku.

EDIT

Alternatywą może być ignorowanie wierszy zawierających space bohater

sapply(strsplit(acqTag,"[[:punct:]]*/VB.?"),function(x) {res = sub("(^.*\\s)(\\w+$)", "\\2", x); res[!grepl("\\s",res)]})

Źródło

2010-06-04 09:21:57

Dzięki! gd047 :) działa ... Byłem prawie na granicy użycia sapply do wydobywania, ale nie mogłem uzyskać sposobu, jak to zrobić. Dzięki. –

Wyodrębnianie rzeczowników i czasowników z tekstu

Odpowiedz

Powiązane problemy