Jaki jest domyślny fragment pakietu narzędzi NLTK w Pythonie?

Używam domyślnego tagowania POS i domyślnej tokenizacji ... i wydaje się wystarczająca. Chciałbym też ich domyślny fragment.Jaki jest domyślny fragment pakietu narzędzi NLTK w Pythonie?

Czytam książkę narzędziową NLTK, ale nie wygląda na to, że mają domyślną porcję?

Źródło

2009-11-06 TIMEX

Możesz wydostać się z pudełka o nazwie entity chunking za pomocą metody nltk.ne_chunk(). Zajmuje się lista POS oznaczonych krotki:

nltk.ne_chunk([('Barack', 'NNP'), ('Obama', 'NNP'), ('lives', 'NNS'), ('in', 'IN'), ('Washington', 'NNP')])

wyniki w:

Tree('S', [Tree('PERSON', [('Barack', 'NNP')]), Tree('ORGANIZATION', [('Obama', 'NNP')]), ('lives', 'NNS'), ('in', 'IN'), Tree('GPE', [('Washington', 'NNP')])])

identyfikuje Barack jako osoby, ale Obama jako organizacja. Więc nie jest doskonały.

Źródło

2009-11-06 13:49:23 ealdent

Co, jeśli nie jestem bardzo zaniepokojony named_entities, ale ogólnie w ogóle. Na przykład "żółty pies" to porcja, a "działa" to porcja. – TIMEX

Tak, nie ma domyślnie mojej wiedzy (choć nie wiem wszystkiego o nltk, na pewno). Możesz użyć RegexpChunkParser, ale będziesz musiał sam opracować zasady. Oto przykład: http://gnosis.cx/publish/programming/charming_python_b18.txt – ealdent

Nie można znaleźć domyślnego fragmentu/płytkiego parsera. Chociaż książka opisuje, jak zbudować i wyszkolić jedną z przykładowych funkcji. Wymyślanie dodatkowych funkcji w celu uzyskania dobrej wydajności nie powinno być zbyt trudne.

Zobacz rozdział 7 na temat Training Classifier-based Chunkers.

Źródło

2009-11-07 04:10:04

Jaki jest domyślny fragment pakietu narzędzi NLTK w Pythonie?

Odpowiedz

Powiązane problemy