Muszę wyodrębnić wszystkie nazwy miast ze strony internetowej. Używałem beautifulSoup z RE w poprzednich projektach, ale na tej stronie nazwy miast są częścią zwykłego tekstu i nie mają określonego formatu. Znalazłem pakiet geograpy (https://pypi.python.org/pypi/geograpy/0.3.7), który spełnia moje wymagania."NotImplementedError: Użyj etykiety(), aby uzyskać dostęp do etykiety węzła"
Geograpy używa pakietu nltk. Zainstalowałem wszystkie modele i pakiety dla NLTK ale zachowuje rzuca ten błąd:
>>> import geograpy
>>> places = geograpy.get_place_context(url="http://www.state.gov/misc/list/")
Traceback (most recent call last):
File "<stdin>", line 1, in <module>
File "C:\Python27\lib\site-packages\geograpy\__init__.py", line 6, in get_place_context
e.find_entities()
File "C:\Python27\lib\site-packages\geograpy\extraction.py", line 31, in find_entities
if (ne.node == 'GPE' or ne.node == 'PERSON') and ne[0][1] == 'NNP':
File "C:\Python27\lib\site-packages\nltk\tree.py", line 198, in _get_node
raise NotImplementedError("Use label() to access a nod label.")
NotImplementedError: Use label() to access a node label.
Każda pomoc będzie mile widziane
Dzięki za odpowiedź. Sam to wymyśliłem. Miałem nadzieję, że ktoś pomoże mi "naprawić" ten pakiet. Może być kimś, kto ma doświadczenie z nltk. Jeśli chodzi o używanie innego pakietu, szukałem podobnego pakietu przez kilka dni, ale jeszcze niczego nie znalazłem. – Faisal