2014-06-24 14 views
5

Próbowałem użyć drzewka zależności zależności generowanych przez CMU's TurboParser. Działa bezbłędnie. Problem polega jednak na tym, że istnieje bardzo mało dokumentacji. Muszę dokładnie zrozumieć wynik ich parsera. Na przykład zdanie „I rozwiązać problem ze statystyką.” Generuje następujący wynik:Co oznacza dane wyjściowe analizatora zależności TurboParser?

1 I   _ PRP PRP _ 2 SUB 
2 solved  _ VBD VBD _ 0 ROOT 
3 the   _ DT DT _ 4 NMOD 
4 problem  _ NN NN _ 2 OBJ 
5 with  _ IN IN _ 2 VMOD 
6 statistics _ NNS NNS _ 5 PMOD 
7 .   _ . . _ 2 P 

nie znalazłem żadnej dokumentacji, która może pomóc zrozumieć, co poszczególne kolumny oznaczają i jak indeksy w drugiej ostatniej kolumnie (2, 0, 4, 2, ...) są tworzone. Ponadto nie mam pojęcia, dlaczego są dwie kolumny poświęcone znacznikom części mowy. Każda pomoc (lub link do zewnętrznej dokumentacji) będzie bardzo pomocna.

P.S. Jeśli chcesz wypróbować ich parser, here is their online demo.

P.P.S. Proszę nie sugerować używania wyników analizy zależności Stanforda. Interesują mnie algorytmy programowania liniowego, co nie jest tym, co robi system NLP Stanforda.

Odpowiedz

0

Nie wiem, TurboParser, ale domyślam się, że pierwsza liczba wskazuje identyfikator tokena i że druga liczba wskazuje id jego gubernatora. Oznacza to, że dla przykładu:

solved(
I, 
problem(the), 
with(statistics), 
. 
) 

Właściwie, to Format CoNLL-X. Możesz uzyskać więcej informacji tutaj: http://ilk.uvt.nl/conll/#dataformat

6

Oto sens każdej z kolumn TurboParser Wyjścia:

  1. ID tokena, czyli jego jedną opartą indeks w zdaniu
  2. oryginalny token jak to było w oryginalnym tekście
  3. lemma, lematyzowana forma tokena (tutaj pusta, ponieważ nie ustawiono lematyzatora)
  4. znacznik (gruboziarnisty częściowo na mowę tag)
  5. znacznik (drobnoziarnisty częściowo na mowę znacznik, który jest taki sam jak 4. z TurboParser)
  6. cechy morfologiczne (pusto)
  7. głowica token, reprezentowana przez wskaźnik (token główny ma wartość nagłówkową 0)
  8. związek bieżącego znacznika z głową

wygenerowany wyjście daliście może być reprezentowana jako dependency-based parse tree:

representation of the dependency-based parse tree

W celu uzyskania dalszych informacji na temat formatu CoNLL-X: