Metody wyodrębniania lokalizacji z tekstu?

Jakie są zalecane metody wyodrębniania lokalizacji z dowolnego tekstu?Metody wyodrębniania lokalizacji z tekstu?

Co mogę myśleć, to używać reguł regex takich jak "słowa ... w lokalizacji". Ale czy istnieją lepsze podejścia niż to?

Również mogę pomyśleć o hash tabeli look look z nazwami krajów i miast, a następnie porównać każdy wyodrębniony token z tekstu do tego tabeli hash.

Czy ktoś wie o lepszym podejściu?

Edytuj: Próbuję wyodrębnić lokalizacje z tekstu tweetów. Tak więc kwestia dużej liczby tweetów może również wpłynąć na mój wybór metody.

Źródło

2013-07-20 Jack Twain

Wszystkie podejścia oparte na regułach zawiedzie (jeśli twój tekst jest naprawdę "wolny"). Że zawiera regex, gramatyk bezkontekstowych, każdy rodzaj odnośnika ... Uwierz mi, byłem tam wcześniej :-)

Ten problem nazywa rozpoznawanie jednostek nazwanych. Lokalizacja jest jedną z 3 najczęściej studiowanych klas (z osobą i organizacją). Stanford NLP ma implementację open source w Javie, która jest niezwykle wydajna: http://nlp.stanford.edu/software/CRF-NER.shtml

Możesz łatwo znaleźć implementacje w innych językach programowania.

Źródło

2013-07-20 16:46:06 Blacksad

Próbuję wyodrębnić lokalizacje z tekstu tweetów. Biorąc pod uwagę dużą liczbę tweetów na sekundę, myślę, że zwolniłoby to. Dobrze? –

Nie.Trening jest powolny i zajmuje dużo pamięci, ale w czasie wykonywania jest niezwykle wydajny. – Blacksad

Umieść wszystkie swoje prawidłowe lokalizacje w posortowanej liście. Jeśli planujesz porównywać wielkość znaków niewrażliwych na wielkość liter, upewnij się, że przypadek twojej listy jest już znormalizowany.

Następnie wystarczy pętli pojedynczych "słów" w tekście wejściowym i na początku każdego nowego słowa, rozpocząć nowe wyszukiwanie binarne na liście lokalizacji. Jak tylko znajdziesz nie pasujące, możesz pominąć całe słowo i przejść do następnego.

Możliwy problem: lokalizacje zawierające wiele słów, takie jak "Nowy Jork", "3rd Street", "Chińska Republika Ludowa". Być może wystarczy, że zapiszesz pozycję najpierw nowe słowo, jeśli okaże się, że twój bsearch prowadzi do (możliwego!) Wyniku wielu słów. Następnie, jeśli pełne porównanie nie powiedzie się - być może kilka słów później - wszystko, co musisz zrobić, to powrócić do tego "następnego" słowa, w stosunku do poprzedniego, w którym zacząłeś.

Co to jest "słowo": podczas przygotowywania listy lokalizacji utwórz listę wszystkich znaków, które mogą pojawiać się w lokalizacjach. Tylko wyrażenia zawierające znaki z tej listy mogą być uważane za prawidłowe "słowo".

Źródło

2013-07-20 13:22:20 usr2564301

Innym możliwym problemem może być to, że pierwsza część sąsiednich multi-word może być lokalizacja w sobie. "Berlin" kontra "Berlin Heights, OH", na przykład. – usr2564301

Jak szybko nadchodzą tweety? Jak w tym przypadku jest to wąż pożarniczy z pełnym świergotem lub niektóre zapytania filtrujące? Nieco bardziej wyrafinowane podejście, podobne do opisywanego, używa narzędzia NLP zintegrowanego z gazeterem. Niewiele jest narzędzi NLP, które utrzymują stawki za Twittera, a bardzo niewiele z nich działa bardzo dobrze ze względu na cały głos. NLP można dostroić do precyzji lub przypomnieć, w zależności od potrzeb, w celu ograniczenia blokowania w dół w gazetteer. Polecam patrząc na Rosoka (także Rosoka Cloud przez Amazon AWS) i GeoGravy

Źródło

2013-10-01 02:36:43 mike

Metody wyodrębniania lokalizacji z tekstu?

Odpowiedz

Powiązane problemy