Zasadniczo, teksty, że format dla procesu szkolenia powinien mieć jeden znak na każdej linii, a następnie kartę, a następnie identyfikator. Identyfikator może być podobny do "LOC" dla lokalizacji, "COR" dla korporacji lub "0" dla tokenów nie-podmiotowych. Na przykład.
I 0
left 0
my 0
heart 0
in 0
Kansas LOC
City LOC
. 0
Gdy nasz zespół wyszkolonych serię klasyfikatorów, karmione każdy plik szkolenie sformatowany tak z około 180,000 żetonów, i widzieliśmy poprawę netto precyzją, ale zmniejszenie stanu odwołania. (Zauważa, że wzrost precyzji nie był istotny statystycznie.) W przypadku, gdy może to być użyteczne dla innych, opisałem proces, którego używaliśmy do szkolenia klasyfikatora, a także wartości p, r i f1 zarówno wykształconych, jak i domyślnych klasyfikatory here.
Który komponent: Stanford PoS tagger, Stanford NER lub Stanford Parser? –
Kochanie, mam to samo pytanie, czy mógłbyś rozwiązać swój problem? w jaki sposób? – Paniz