Mam zamiar zrobić pewne dostrajanie danych na moich danych.Jak przewidzieć prawidłową nazwę kraju dla nazwy podanego przez użytkownika kraju?
Sytuacja - Posiadam dane, które mają pole country
. Zawiera nazwy krajów wprowadzanych przez użytkownika (może zawierać błędy ortograficzne lub inne nazwy krajów dla tego samego kraju, jak USA/USA/Stany Zjednoczone dla USA). Mam listę prawidłowych nazw krajów.
Co chcę - Aby przewidzieć, który jest najbliższy kraj, do którego się odnosi. Na przykład - jeśli podasz U.S.
, zmieni się na USA
(poprawna nazwa kraju na naszej liście).
Czy jest jakiś sposób mogę to zrobić za pomocą Java lub opennlp lub jakiejkolwiek innej metody?
Odległość Levenshteina jest przydatna !! Ale problem jest taki, że w przypadku kraju takiego jak "USA", jeśli dane mają "Stany Zjednoczone", odległość będzie większa niż to, co powinno być !! – AngryLeo
@AyushBanka: Tym razem możesz użyć interfejsu API, który dodałem w odpowiedzi. Ten [kod Git] (https://gist.github.com/maephisto/9228207) może ci pomóc. Możesz dodać swoje. – iNikkz