Niedawno starałem się trenować n-gramowe jednostki z Stanford Core NLP. Skorzystałem z następujących samouczków - http://nlp.stanford.edu/software/crf-faq.shtml#bSzkolenie n-gram NER ze Stanford NLP
Dzięki temu jestem w stanie określić tylko tokeny typu unigram oraz klasę, do której należą. Czy ktokolwiek może mnie poprowadzić, abym mógł go rozszerzyć na n-gramy. Próbuję wyodrębnić znane elementy, takie jak nazwy filmów z zestawu danych czatu.
Proszę, poprowadzę mnie przez przypadek, w którym źle interpretowałem samouczki Stanforda i to samo można wykorzystać w szkoleniu n-gramowym.
Co siedzę ze ma następującą właściwość
#structure of your training file; this tells the classifier
#that the word is in column 0 and the correct answer is in
#column 1
map = word=0,answer=1
Oto pierwsza kolumna jest słowo (unigram), a druga kolumna jest podmiotem, na przykład
CHAPTER O
I O
Emma PERS
Woodhouse PERS
Teraz, kiedy trzeba pociągu znanych podmiotów (np. nazwy filmów), takich jak Hulk, Titanic itp., jak filmy, byłoby to łatwe z tego podejścia. Ale na wypadek, gdy muszę trenować Wiem, co zrobiłeś ostatniego lata lub Dzień dziecka na, jakie jest najlepsze podejście?
Drogi @Arun czy udało ci się wyszkolić NER na n-gramy? Chcę kształcić się na takich kierunkach jak: Master in Science: EDUCATION, PhD in Electronics: EDUCATION. Czy możesz mnie prowadzić? Dzięki –
@ KhalidUsman, Dzięki za skontaktowanie się z Tobą. Użyłem LingPipe jak w poniższej odpowiedzi, aby to osiągnąć. Pracował bardzo dobrze z całkiem przyzwoitą ilością danych treningowych. Każdy model będzie działał dobrze tylko w zależności od tego, jak dobry zestaw danych zapewni go do nauki. –