2010-07-01 24 views
15

Mam do analizy nieformalny tekst w języku angielskim z dużą ilością krótkich rąk i lokalnego języka. Dlatego zastanawiałem się nad stworzeniem modelu dla tagforda.Jak utworzyć własny korpus treningowy dla tagfordów?

Jak utworzyć własny zestaw etykietowanych korpusów do trenowania?

Jaka jest składnia korpusu i jak długo powinien wyglądać mój korpus, aby uzyskać pożądaną wydajność?

+0

Który komponent: Stanford PoS tagger, Stanford NER lub Stanford Parser? –

+0

Kochanie, mam to samo pytanie, czy mógłbyś rozwiązać swój problem? w jaki sposób? – Paniz

Odpowiedz

7

Aby trenować tagger POS, zobacz this mailing list post który jest również zawarty w JavaDocs dla klasy MaxentTagger.

W Javadocs dla edu.stanford.nlp.tagger.maxent.Train class określa format szkolenia:

The training file should be in the following format: one word and one tag per line separated by a space or a tab. Each sentence should end in an EOS word-tag pair. (Actually, I'm not entirely sure that is still the case, but it probably won't hurt. -wmorgan)

+0

Sprawdziłem wszędzie, ale nie określono w jaki sposób ułożyć plik szkoleniowy? Jak długo powinienem być mój model szkoleniowy? – goh

+0

@goh: Odpowiedziałem zmianą. –

+0

dzięki za pomoc. – goh

1

W przypadku analizatora składni Stanford należy użyć Penn treebank format i zobacz Stanford's FAQ dotyczące dokładnych poleceń do użycia. W Javadocs dla LexicalizedParser class również dać odpowiednie polecenia, w szczególności:

java -mx1500m edu.stanford.nlp.parser.lexparser.LexicalizedParser [-v] \ 
    -train trainFilesPath fileRange 
    -saveToSerializedFile serializedGrammarFilename 
6

Zasadniczo, teksty, że format dla procesu szkolenia powinien mieć jeden znak na każdej linii, a następnie kartę, a następnie identyfikator. Identyfikator może być podobny do "LOC" dla lokalizacji, "COR" dla korporacji lub "0" dla tokenów nie-podmiotowych. Na przykład.

I  0 
left  0 
my  0 
heart  0 
in  0 
Kansas  LOC 
City  LOC 
.  0 

Gdy nasz zespół wyszkolonych serię klasyfikatorów, karmione każdy plik szkolenie sformatowany tak z około 180,000 żetonów, i widzieliśmy poprawę netto precyzją, ale zmniejszenie stanu odwołania. (Zauważa, że ​​wzrost precyzji nie był istotny statystycznie.) W przypadku, gdy może to być użyteczne dla innych, opisałem proces, którego używaliśmy do szkolenia klasyfikatora, a także wartości p, r i f1 zarówno wykształconych, jak i domyślnych klasyfikatory here.

0

Próbowałem: java -mx1500m edu.stanford.nlp.parser.lexparser.LexicalizedParser [v] \ -train trainFilesPath fileRange -saveToSerializedFile serializedGrammarFilename

ale miałem błąd:

Błąd: Nie można znaleźć lub wczytać głównej klasy edu.stanford.nlp.parser.lexparser.LexicalizedParser

Powiązane problemy