from __future__ import division
import nltk, re, pprint
f = open('/home/a/Desktop/Projects/FinnegansWake/JamesJoyce-FinnegansWake.txt')
raw = f.read()
tokens = nltk.wordpunct_tokenize(raw)
text = nltk.Text(tokens)
words = [w.lower() for w in text]
f2 = open('/home/a/Desktop/Projects/FinnegansWake/catted-several-long-Russian-novels-and-the-NYT.txt')
englishraw = f2.read()
englishtokens = nltk.wordpunct_tokenize(englishraw)
englishtext = nltk.Text(englishtokens)
englishwords = [w.lower() for w in englishwords]
która jest prosto z podręcznika NLTK. To, co chcę teraz zrobić, to porównać vocab
do wyczerpującego zestawu angielskich słów, takich jak OED, i wyodrębnić różnicę - zestaw słów Wake, które nie miały i prawdopodobnie nigdy nie będą w OED. Jestem raczej osobą werbalną niż osobą zorientowaną na matematykę, więc nie mam pojęcia, jak to zrobić, a podręcznik zbyt wiele szczegółów na temat rzeczy, których naprawdę nie chcę robić. Zakładam, że to tylko jedna lub dwie linijki kodu.
Nawiasem mówiąc, w jaki sposób sformatować pytona w pytaniu z podświetleniem, tak jak w edytorze tekstu? – magnetar
Wcięcie to wszystko. Zrobione automatycznie, jeśli zaznaczysz je i klikniesz przycisk z zerami i owadami nad edytorem. – katrielalex
Aha, a twój kod nie jest najskuteczniejszy ... możesz rozsądnie używać iteratorów, aby zapisać wielokrotne podania. – katrielalex