Dokonałem przełomu, aby zrozumieć, czy słowo jest w rzeczywistości przyimkiem, czy też podporządkowaniem koniunkcyjnym.
mam analizowane następujące zdanie:
Wyszła wcześnie, bo Mike przyjechał ze swoją nową dziewczyną.
(koniunkcja tutaj, ponieważ jest podporządkowanie)
Po POS tagowanie
She_PRP left_VBD early_RB because_IN Mike_NNP arrived_VBD with_IN his_PRP $ new_JJ girlfriend_NN ._.
tutaj, aby upewnić się, ponieważ jest przyimek lub nie mam analizowany zdanie.
tutaj ponieważ ma bezpośredni wyjściowego po IN jako SBAR (podrzędne) jako pierwiastka.
z również podlega IN, ale jego bezpośrednim rodzicem będzie PP więc jest to przyimek.
Przykład 2:
Trzymaj rękę na ranie aż pielęgniarka prosi, aby ją zdjąć. (koniunkcja tutaj aż koordynuje)
POS tagowanie jest:
Keep_VB your_PRP $ hand_NN on_IN the_DT wound_NN until_IN the_DT nurse_NN asks_VBZ you_PRP to_TO take_VB it_PRP off_RP ._.
Tak, do i na są oznaczone jako IN.
Jednak zdjęcie staje się jaśniejsze, gdy faktycznie analizujemy zdanie.
W końcu konkluduję, ponieważ podporządkowuje koniunkcję i jest przyimkiem.
Próbowałem wielu odmianach zdaniach .. pracował dla prawie wszystkich z wyjątkiem niektórych przypadkach dla przed i po.
To z pewnością kosztowne, ale skomplikowane rozwiązanie. – lenz
Możemy użyć Tregex lub Tsurgeon, aby jeszcze bardziej zredukować czas obliczeń. – swapyonubuntu
Mam na myśli, że samo parsowanie (nie przeszukiwanie drzewa) jest drogie. Nie ma w tym nic złego, to naprawdę zależy od scenariusza. Jeśli potrzebujesz ciągłego przetwarzania ogromnych ilości tekstu, tagowanie PoS powinno być nadal możliwe, ale analiza może nie być możliwa. – lenz