2013-06-14 13 views
21

Tytuł prawie podsumowuje pytanie. Zauważyłem, że w niektórych artykułach ludzie odwoływali się do schematu kodowania BILOU dla NER w przeciwieństwie do typowego schematu znakowania BIO (takiego jak ten dokument autorstwa Ratinova i Rotha w 2009 roku http://cogcomp.cs.illinois.edu/page/publication_view/199)Co oznaczają znaczniki BILOU w Rozpoznawaniu nazwanego?

Od pracy z danymi CoNLL z 2003 roku wiem, że

B stands for 'beginning' (signifies beginning of an NE) 
I stands for 'inside' (signifies that the word is inside an NE) 
O stands for 'outside' (signifies that the word is just a regular word outside of an NE) 

Chociaż powiedziano mi, że słowa Bilou oznaczają

B - 'beginning' 
I - 'inside' 
L - 'last' 
O - 'outside' 
U - 'unit' 

ja również widziałem ludzi odwołać kolejny tag

E - 'end' 

i używać go jednocześnie z "ostatnim" tagiem.

Jestem całkiem nowy w literaturze NER, ale nie byłem w stanie znaleźć czegoś wyraźnie wyjaśniającego te znaczniki. Moje pytania dotyczą w szczególności różnicy między tagami "ostatni" i "końcowy" oraz oznaczeniem "jednostka".

+0

można umieścić referencje na „Ja również widziałem ludzi odwołaj się do innego tagu "? – Daniel

Odpowiedz

15

podstawie issue i patch w Clear TK wydaje się, że stoi Bilou dla „Beginning, wewnątrz i na Ostatnio żetony multi-tokenów kawałkami, Jednostka długości kawałki i na zewnątrz” (podkreślenie dodane). Na przykład dzielenia na porcje w nawiasach kwadratowych

(foo foo foo) (bar) no no no (bar bar) 

mogą być kodowane z Bilou jak

B-foo, I-foo, L-foo, U-bar, O, O, O, B-bar, L-bar 
+3

Miałem przeczucie, że tak było. Wydaje się to dziwną zmianą, ponieważ dokładnie te same informacje mogą być przekazywane za pomocą tylko znaczników BIO. Domyślam się, że przejście na BILOU zostało zrobione bardziej, aby poprawić wydajność algorytmu ML .. – GrantD71

+0

prawda, ale granice BILOU byłyby wtedy niejawne. Można również argumentować, że używanie tylko jednego tagu będzie działać tak samo. Zwykle dodatkowe znaczniki dostarczają bardziej przydatnych informacji po klasyfikacji w celu interpretowania problematycznych przypadków brzegowych. –

9

będzie dodam doświadczenie porównanie schematów BIO i Bilou. Mój eksperyment dotyczył tylko jednego zestawu danych i może nie być reprezentatywny.

Mój zbiór danych zawiera około 35 tysięcy krótkich wypowiedzi (2-10 tokenów) i jest opatrzony przypisami 11 różnych znaczników. Innymi słowy, istnieje 11 nazwanych bytów.

Stosowane funkcje obejmują słowo, lewy i prawy 2-gramowy, 1-5-znakowe ngramy (z wyjątkiem środkowych), funkcje kształtu i tak dalej. Niewiele bytów jest również wspieranych przez gazetera.

Przetasowałem zestaw danych i podzielono go na 80/20 części: trening i testowanie. Ten proces powtórzono 5 razy i dla każdej jednostki zarejestrowałem pomiar Precision, Recall i F1. Wyniki zostały wycenione na poziomie jednostki, a nie na poziomie tokena, jak w dokumencie Ratinov & Roth, 2009.

Oprogramowanie używane do szkolenia modelu to CRFSuite. Użyłem solwera L-BFGS z c1 = 0 i c2 = 1.

Przede wszystkim wyniki testu porównane w przypadku 5-krotności są bardzo podobne. Oznacza to, że od uruchomienia do uruchomienia jest niewielka zmienność, co jest dobre. Po drugie, schemat BIO działał bardzo podobnie do schematu BILOU. Jeśli jest jakaś istotna różnica, być może jest to trzecia lub czwarta cyfra po okresie w pomiarach dokładności, wycofania i F1.

Wniosek: W moim eksperymencie schemat BILOU nie jest lepszy (ale także nie gorszy) niż schemat BIO.