2013-04-18 12 views
5

Używam Stanford POS Tagger (po raz pierwszy) i podczas gdy poprawnie oznacza angielski, nie wydaje się rozpoznawać (Uproszczony) chiński nawet przy zmianie parametru modelu. Czy coś przeoczyłem?Stanford Tag Tagger nie tagowanie chińskiego tekstu

Pobrałem i rozpakowałem najnowszą pełną wersję stąd: http://nlp.stanford.edu/software/tagger.shtml

Potem już inputed przykładowy tekst do "sample-input.txt".

这 是 一个 测试 的 句子. 这 是 另一个 句子.

Potem wystarczy uruchomić

modele ./stanford-postagger.sh/próbkę chinese-distsim.tagger -input.txt

Oczekiwanym wynikiem jest oznaczenie każdego słowa częścią mowy, ale zamiast tego rozpoznaje cały ciąg tekstu jako jedno słowo :

właściwości domyślne Ładowanie z modeli Taggera/Chinese-distsim.tagger

Reading POS modelu tagger z modeli/chinese-distsim.tagger ... zrobić [3,5 sek].

這 是 一個 測試 的 句子. 這 是 另一個 句子. # NR

Tagged 1 słowa na 30.30 słów na sekundę.

Doceniam każdą pomoc.

+0

Ponadto już sprawdziłem, czy plik i ustawienia są w UTF-8. Próbowałem również z różnymi przykładowymi tekstami. –

Odpowiedz

6

W końcu zrozumiałem, że tokenizacja/segmentacja nie jest zawarta w tym tagu POS. Wydaje się, że słowa muszą być rozdzielone spacjami przed podaniem ich do taggera. Dla zainteresowanych maksymalnej entropii słowo segmentacji chińskim, istnieje oddzielny pakiet dostępny tutaj:

http://nlp.stanford.edu/software/segmenter.shtml

Dzięki wszystkim.

+2

tak, musisz przejść do segmentatora przed przejściem do tagger POS. – alvas

Powiązane problemy