2015-05-26 12 views
5

Próbuję znaleźć poprawne części mowy dla każdego słowa w akapicie. Używam Stanford POS Tagger. Jednak utknąłem w pewnym momencie.Identyfikacja prepositons i indywidualnych POS

Chcę zidentyfikować przyimki z akapitu.

Penn bank drzew tagset mówi, że:

IN Preposition or subordinating conjunction 

jak mogę być pewien, czy słowo jest obecny być przyimek lub podporządkowując koniunkcja. Jak mogę w tym przypadku wyodrębnić tylko przyimki z akapitu?

Odpowiedz

2

Dokonałem przełomu, aby zrozumieć, czy słowo jest w rzeczywistości przyimkiem, czy też podporządkowaniem koniunkcyjnym.

mam analizowane następujące zdanie:

Wyszła wcześnie, bo Mike przyjechał ze swoją nową dziewczyną.

(koniunkcja tutaj, ponieważ jest podporządkowanie)

Po POS tagowanie

She_PRP left_VBD early_RB because_IN Mike_NNP arrived_VBD with_IN his_PRP $ new_JJ girlfriend_NN ._.

tutaj, aby upewnić się, ponieważ jest przyimek lub nie mam analizowany zdanie.

Parse Tree for Sentence 1

tutaj ponieważ ma bezpośredni wyjściowego po IN jako SBAR (podrzędne) jako pierwiastka.

z również podlega IN, ale jego bezpośrednim rodzicem będzie PP więc jest to przyimek.

Przykład 2:

Trzymaj rękę na ranie aż pielęgniarka prosi, aby ją zdjąć. (koniunkcja tutaj aż koordynuje)

POS tagowanie jest:

Keep_VB your_PRP $ hand_NN on_IN the_DT wound_NN until_IN the_DT nurse_NN asks_VBZ you_PRP to_TO take_VB it_PRP off_RP ._.

Tak, do i na są oznaczone jako IN.

Jednak zdjęcie staje się jaśniejsze, gdy faktycznie analizujemy zdanie.

W końcu konkluduję, ponieważ podporządkowuje koniunkcję i jest przyimkiem.

Próbowałem wielu odmianach zdaniach .. pracował dla prawie wszystkich z wyjątkiem niektórych przypadkach dla przed i po. Example 2

+0

To z pewnością kosztowne, ale skomplikowane rozwiązanie. – lenz

+0

Możemy użyć Tregex lub Tsurgeon, aby jeszcze bardziej zredukować czas obliczeń. – swapyonubuntu

+0

Mam na myśli, że samo parsowanie (nie przeszukiwanie drzewa) jest drogie. Nie ma w tym nic złego, to naprawdę zależy od scenariusza. Jeśli potrzebujesz ciągłego przetwarzania ogromnych ilości tekstu, tagowanie PoS powinno być nadal możliwe, ale analiza może nie być możliwa. – lenz

2

Nie możesz być tego pewien. Powodem tego nieco dziwnego PoS jest to, że naprawdę trudno jest automatycznie określić, czy na przykład dla jest przyimek lub podporządkowana koniunkcja. Aby automatyczne taggery miały większą precyzję, rozróżnienie to jest po prostu ignorowane. Zauważ, że istnieje również tag TO, który jest podany do dowolnego wystąpienia od do, niezależnie od jego funkcji jako przyimka, nieskończonej cząstki czy czegoś podobnego (myślę, że są inni).

Jeśli chcesz poprawnie zidentyfikować przyimki, musisz przeszkolić taggera za pomocą zmodyfikowanego zestawu znaczników, lub może wyszkolić klasyfikatora, który przyjmuje tekst z tagami PoS i dokonuje ostatecznego ujednoznacznienia.