2015-03-29 10 views
11

kiedy fragment tekstu, otrzymuję wiele kodów na wyjściu, takich jak NN, VBD, IN, DT, NNS, RB. Czy istnieje gdzieś lista, która mówi mi o znaczeniu tych? Próbowałem googling nltk chunk codenltk chunk grammarnltk chunk tokens.Co NN VBD IN DT NNS RB oznacza w NLTK?

Ale nie jestem w stanie znaleźć żadnej dokumentacji wyjaśniającej znaczenie tych kodów.

Odpowiedz

9

Wyświetlane znaczniki nie są wynikiem porcji, ale znaczników POS, które mają miejsce przed porcją. To tagset Penn bank drzew, patrz https://www.ling.upenn.edu/courses/Fall_2003/ling001/penn_treebank_pos.html

>>> from nltk import word_tokenize, pos_tag, ne_chunk 
>>> sent = "This is a Foo Bar sentence." 
# POS tag. 
>>> nltk.pos_tag(word_tokenize(sent)) 
[('This', 'DT'), ('is', 'VBZ'), ('a', 'DT'), ('Foo', 'NNP'), ('Bar', 'NNP'), ('sentence', 'NN'), ('.', '.')] 
>>> tagged_sent = nltk.pos_tag(word_tokenize(sent)) 
# Chunk. 
>>> ne_chunk(tagged_sent) 
Tree('S', [('This', 'DT'), ('is', 'VBZ'), ('a', 'DT'), Tree('ORGANIZATION', [('Foo', 'NNP'), ('Bar', 'NNP')]), ('sentence', 'NN'), ('.', '.')]) 

Aby uzyskać kawałki szukać poddrzew obrębie podzielonych na kawałki wyjść. Z powyższego wyniku, Tree('ORGANIZATION', [('Foo', 'NNP'), ('Bar', 'NNP')]) wskazuje porcję.

Ta tutorialna strona jest bardzo pomocna w wyjaśnieniu procesu dzielenia w NLTK, http://www.eecis.udel.edu/~trnka/CISC889-11S/lectures/dongqing-chunking.pdf.

Do oficjalnej dokumentacji, patrz http://www.nltk.org/howto/chunk.html

0

Jak powiedział Alvas powyżej, te znaczniki są częścią-of-speech, który mówi, czy słowo/wyrażenie jest wyrażenie rzeczownik, przysłówek, określający, czasownik itp ...

Oto szczegóły, które można znaleźć pod adresem POS Tag.

Chunking recovers the phrased from the Part of speech tags 

Można odwołać się do czytania tej link około wyrwy.