To jest follow-up of my question. Używam nltk do analizowania osób, organizacji i ich relacji. Korzystając z this example, udało mi się stworzyć fragmenty osób i organizacji; Jestem jednak otrzymuję błąd w poleceniu nltk.sem.extract_rel:Wyodrębnij relacje za pomocą NLTK
AttributeError: 'Tree' object has no attribute 'text'
Oto kompletny kod:
import nltk
import re
#billgatesbio from http://www.reuters.com/finance/stocks/officerProfile?symbol=MSFT.O&officerId=28066
with open('billgatesbio.txt', 'r') as f:
sample = f.read()
sentences = nltk.sent_tokenize(sample)
tokenized_sentences = [nltk.word_tokenize(sentence) for sentence in sentences]
tagged_sentences = [nltk.pos_tag(sentence) for sentence in tokenized_sentences]
chunked_sentences = nltk.batch_ne_chunk(tagged_sentences)
# tried plain ne_chunk instead of batch_ne_chunk as given in the book
#chunked_sentences = [nltk.ne_chunk(sentence) for sentence in tagged_sentences]
# pattern to find <person> served as <title> in <org>
IN = re.compile(r'.+\s+as\s+')
for doc in chunked_sentences:
for rel in nltk.sem.extract_rels('ORG', 'PERSON', doc,corpus='ieer', pattern=IN):
print nltk.sem.show_raw_rtuple(rel)
Przykład ten jest bardzo podobny do tego given in the book, ale przykład zastosowania przygotowałem "parsowane dokumenty", które pojawiają się znikąd i nie wiem, gdzie znaleźć typ obiektu. Przeszukałem także biblioteki git. Każda pomoc jest doceniana.
Moim ostatecznym celem jest pozyskanie osób, organizacji, tytułów (dat) dla niektórych firm; następnie twórz sieciowe mapy osób i organizacji.
czy kiedykolwiek tego dowiedzieć? mogę zobaczyć, co wymyśliłeś, ponieważ otrzymuję dokładnie ten sam problem. – user3314418