2009-07-29 18 views
8

Jakiego rodzaju praca została wykonana w celu ustalenia, czy określony ciąg odnosi się do położenia geograficznego? Na przykład:Identyfikacja lokalizacji geograficznych w tekście

'troy, ny' 
'austin, texas' 
'hotels in las vegas, nv' 

Podejrzewam, że oczekuję statystycznego podejścia, które daje pewność, że pierwsze dwa to lokalizacje. Ten ostatni prawdopodobnie wymagałby heurystyki, która chwyta "% s,% s", a następnie używa tej samej techniki. W szczególności szukam rozwiązań, które nie opierają się zbytnio na propozycji "w", ponieważ nie jest to całkowicie jednoznaczny lub stale dostępny wskaźnik lokalizacji.

Czy ktoś może wskazać mi podejścia, papiery lub istniejące narzędzia? Dzięki!

Odpowiedz

7

opisać problem jest często nazywany analizowanie zapytań geograficznych lub, bardziej ogólnie, pobieranie informacji geograficznych.

Ostatnio wykonano to podczas CLEF 2007 (http://www.uni-hildesheim.de/geoclef/2007/Query-Parsing.htm). Zwycięska drużyna użyła gramatyki opartej na regułach, która jest podobna do tego, czego prawdopodobnie nie chcesz. Inny artykuł na stronie www2009 mówi o GeoParser: http://www2009.eprints.org/239/.

Są też jakieś papiery na Geographic wyszukiwania informacji w CIKM 2007: http://www.geo.unizh.ch/~rsp/gir07/accepted.html

ja nie znam żadnego oprogramowania open source, który to robi, ale może być dołączony do wyszukiwarki jak Lemur.

4

Jest bardzo interesujące podejście Everyblock.com, które koncentruje się na sposobie wyrażania lokalizacji w języku angielskim - w zasadzie używają wyrafinowanych i rozbudowanych wyrażeń regularnych, które są teraz otwarte. Ich aplikacja jest przeznaczona do przeglądania artykułów z wiadomościami, recenzji i różnych publicznych plików danych oraz do ich lokalizacji w określonych lokalizacjach i działa dobrze. Wyrażenia takie jak "Pożar w budynku na północno-wschodnim narożniku 20 i ulica Walencja w San Francisco" są bardzo dokładnie geokodowane. Możesz studiować źródło here. Szczególnie pożądana część to ebpub/ebpub/geocoder/base.py, znajdująca się w pobranym pliku ebpub i wszystko dookoła, na przykład zaczynając od klasy SmartGeocoder i pracując wstecz.

0

buduję bezpłatną geoparser na geocode.xyz

(obsługuje obecnie około 50 krajów europejskich, a wkrótce zaoferować globalny zasięg)

Aplikacja próbka geoparsing można znaleźć na OpenWikiMap