2015-01-07 11 views
5

Mam kolekcję rachunków i faktur, więc nie ma kontekstu w tekście (mam na myśli, że nie opowiadają historii). Chcę wydobyć nazwiska ludzi z tych rachunków. Próbowałem OpenNLP, ale jakość wyszkolonego modelu nie jest dobra, ponieważ nie mam kontekstu. , więc pierwsze pytanie brzmi: czy mogę trenować model zawiera tylko nazwiska osób bez kontekstu? i jeśli to możliwe, możesz dać mi dobry artykuł na temat tego, jak zbudować ten nowy model (większość artykułu, który przeczytałem, nie wyjaśniła kroków, które powinienem wykonać, aby zbudować nowy model).Wyodrębnij imię osoby z tekstu Unstruktura

Mam nazwę bazy danych z ponad 100 000 osób (imię, nazwisko), więc jeśli systemy NER nie działają w moim przypadku (ponieważ nie ma kontekstu), jaki jest najlepszy sposób wyszukiwania tych kandydatów (mam na myśli szukanie każdego imienia z wszystkimi innymi nazwiskami?)

dziękuję.

Odpowiedz

2

Jeśli chodzi o "kontekst", to myślę, że masz na myśli, że nie masz całych zdań, tzn. Nie ma żadnych poprzednich/kolejnych żetonów, iw tym przypadku masz do czynienia z dość niestandardowym NER. Nie mam informacji o dostępnym oprogramowaniu lub danych szkoleniowych dla tego konkretnego problemu, jeśli nie znalazłeś żadnego, będziesz musiał zbudować własny korpus do celów szkoleniowych i/lub ewaluacyjnych.

Twoja baza danych nazw będzie prawdopodobnie bardzo pomocna, w zależności od tego, jaka część nazwisk jest rzeczywiście obecna w bazie danych. Prawdopodobnie będziesz musiał polegać na morfologii nazw postaci jako wzorców (patrz na przykład wzorce w [1]). Po zestawie treningowym z funkcjami (obecność w bazie danych, morfologia, inne informacje o rachunkach) i rozwiązaniach (faktyczne nazwy adnotowanych rachunków), przy użyciu standardowego uczenia maszynowego, jak SVM będzie dość proste (jeśli nie jesteś tego obeznany, po prostu zapytaj).

Niektóre inne propozycje:

  • Można najprawdopodobniej również wykorzystywać inne Billa informacje: nazwa firmy, stanowiska, podatek wymienia itp
  • Można również postępować w aa sposób selektywny - czy wszystkie rachunki powinny wymienić (dokładnie?) nazwisko jednej osoby, można wykluczyć wszystkie inne teksty (np. kwoty, nazwy podatkowe, stanowiska itp.) lub założyć w dedykowanym modelu, że spośród wszystkich tekstów na rachunku, tylko jeden powinien być odgadnięty jako nazwa.

[1] Klasyfikacja algorytmów nazwanego jednostki ekstrakcji: Poprawa i głosowali perceptronu (Michael Collins, 2002)

2

zacząłbym z niektórych wyrażeń regularnych, a następnie ewentualnie, wspomagając że przy oparty słownika podejście (np. duża lista nazwisk).

Bez względu na to, co robisz, nie będzie idealnie, więc pamiętaj o tym.

Powiązane problemy