2012-10-14 16 views
6

Muszę zaimplementować poziomą markowizację (koncepcja NLP) i mam małe problemy ze zrozumieniem, jak będą wyglądać drzewa. Czytałem Klein and Manning paper, ale nie wyjaśniają one, jak będą wyglądać drzewa z poziomą markowizacją rzędu 2 lub rzędu 3. Czy ktoś mógłby rzucić trochę światła na algorytm i jak wyglądają drzewa? Jestem względnie nowy w NLP.Markowizacja pozioma

Odpowiedz

10

Więc powiedzmy, że masz kilka płaskich zasad, takich jak:

NP 
    NNP 
    NNP 
    NNP 
    NNP 

lub

VP 
    V 
    Det 
    NP 

Kiedy binarize nich chcesz zachować kontekst (czyli nie jest to tylko Det, ale konkretnie Det po czasowniku jako część VP). Aby to zrobić normalnie użyć adnotacji tak:

NP 
    NNP 
    NP->NNP 
     NNP 
     NP->NNP->NNP 
      NNP 
      NP->NNP->NNP->NNP 
       NNP 

lub

VP 
    V 
    VP->V 
     Det 
     VP->V->Det 
      NP 

Ty potrzeba do binarize drzewo, ale te adnotacje nie zawsze są bardzo znaczące. Mogą one być nieco znaczące dla przykładu frazy czasownika, ale wszystko, na co naprawdę zależy dla drugiego, jest takie, że wyrażenie rzeczownikowe może być dość długim ciągiem właściwych rzeczowników (np. "Peter B. Lewis Building" lub "Hope Memorial Bridge Project" Rocznica"). Tak więc w przypadku Markoholizacji poziomej nieco zwiniesz niektóre adnotacje, odrzucając część kontekstu. Kolejność markowizacji jest ilością kontekstu, który zamierzamy zachować. Tak więc przy normalnych adnotacjach jesteś w zasadzie w nieskończonej kolejności: decydujesz się zachować cały kontekst i nic nie zwinąć.

Zamówienie 0 oznacza, idziesz do spadku cały kontekst i masz drzewo bez fantazyjnych adnotacji, tak:

NP 
    NNP 
    NNP 
     NNP 
     NNP 
      NNP 
      NNP 
       NNP 

Zamówienie 1 oznacza, że ​​można zachować tylko jedno określenie kontekstu i masz drzewo tak:

NP 
    NNP 
    NP->...NNP **one term: NP->** 
     NNP 
     NP->...NNP **one term: NP->** 
      NNP 
      NP->...NNP **one term: NP->** 
       NNP 

Zamówienie 2 oznacza, że ​​można zachować dwie kadencje z kontekstu i masz drzewo takiego:

NP 
    NNP 
    NP->NNP **two terms: NP->NNP** 
     NNP 
     NP->NNP->...NNP **two terms: NP->NNP->** 
      NNP 
      NP->NNP->...NNP **two terms: NP->NNP->** 
       NNP 
+1

Twoja h = 0 jest niepoprawna. – user3639557

+0

Możesz podać inną odpowiedź. – FoolishSeth

0

Uważam, że chodzi o uwzględnienie węzłów macierzystych dla pionowych elementów markowizacji i rodzeństwa dla poziomów podczas szacowania prawdopodobieństw reguł, a kolejność wskazuje, ile z nich jest uwzględnionych. Dla adnotacji nadrzędnej jest ładny obraz here.

także cytat z http://www.timothytliu.com/files/NLPAssignment5.pdf:

Aby zbliżyć leksykalizacji, więcej informacji jest dodawana na dominujących węzłach każdego drzewa. To poprawnie odróżnia różne załączniki od i od tego, czy ma być odgałęzieniem w lewo, czy w odgałęzieniu. Pozioma markowizacja odbywa się poprzez śledzenie rodzeństwa , gdy drzewo jest binaryzowane. Markowizacja pionowa jest realizowana przez śledzenie rodziców węzła w drzewie. Tworzą one nowe zależności, ponieważ teraz reguły są kombinacją szerokości i szerokości .

Powiązane problemy