Jak korzystać z funkcji NLTK dla języka perskiego?NLTK dla języka perskiego
Na przykład: "zgodność". Kiedy używam "konkordancji", odpowiedź brzmi "nie pasuje", jednak w tekście jest parametr zgodności.
dane wejściowe są bardzo proste .it zawiera słowo "hello سلام", gdy parametr "zgodności" to "cześć", odpowiedź jest prawidłowa, ale jeśli "سلام" odpowiedź brzmi "nie pasuje". dla mnie wynik to "Wyświetlanie 1 z 1 dopasowań".
import nltk
from urllib import urlopen
url = "file:///home/.../1.html"
raw = urlopen(url).read()
raw = nltk.clean_html(raw)
tokens = nltk.word_tokenize(raw)
tokens = tokens[:12]
text = nltk.Text(tokens)
print text.concordance('سلام')
Czy możesz podać przykład minimalnego kodu i minimalny przykład wprowadzania tego, co próbowałeś i co spodziewałeś się? – jogojapan