Stanford Tag Tagger nie tagowanie chińskiego tekstu

Używam Stanford POS Tagger (po raz pierwszy) i podczas gdy poprawnie oznacza angielski, nie wydaje się rozpoznawać (Uproszczony) chiński nawet przy zmianie parametru modelu. Czy coś przeoczyłem?Stanford Tag Tagger nie tagowanie chińskiego tekstu

Pobrałem i rozpakowałem najnowszą pełną wersję stąd: http://nlp.stanford.edu/software/tagger.shtml

Potem już inputed przykładowy tekst do "sample-input.txt".

这是一个测试的句子. 这是另一个句子.

Potem wystarczy uruchomić

modele ./stanford-postagger.sh/próbkę chinese-distsim.tagger -input.txt

Oczekiwanym wynikiem jest oznaczenie każdego słowa częścią mowy, ale zamiast tego rozpoznaje cały ciąg tekstu jako jedno słowo :

właściwości domyślne Ładowanie z modeli Taggera/Chinese-distsim.tagger

Reading POS modelu tagger z modeli/chinese-distsim.tagger ... zrobić [3,5 sek].

這是一個測試的句子. 這是另一個句子. # NR

Tagged 1 słowa na 30.30 słów na sekundę.

Doceniam każdą pomoc.

Źródło

2013-04-18 Ryan Rapp

Ponadto już sprawdziłem, czy plik i ustawienia są w UTF-8. Próbowałem również z różnymi przykładowymi tekstami. –

W końcu zrozumiałem, że tokenizacja/segmentacja nie jest zawarta w tym tagu POS. Wydaje się, że słowa muszą być rozdzielone spacjami przed podaniem ich do taggera. Dla zainteresowanych maksymalnej entropii słowo segmentacji chińskim, istnieje oddzielny pakiet dostępny tutaj:

http://nlp.stanford.edu/software/segmenter.shtml

Dzięki wszystkim.

Źródło

2013-04-18 21:14:31

tak, musisz przejść do segmentatora przed przejściem do tagger POS. – alvas

Stanford Tag Tagger nie tagowanie chińskiego tekstu

Odpowiedz

Powiązane problemy