Szukam biblioteki/klasy, która umożliwia inteligentną porównywanie dwóch ciągów. W najlepszym przypadku dałoby to w wyniku procent tego, jak dwa łańcuchy są podobne. Porównywuję nazwy firm, adresy rejestrowane w różnych repozytoriach, co powoduje wiele błędów ortograficznych lub niespójności w nazwach.Porównanie inteligentnych ciągów znaków
Przykładowe ciągi do porównania:
"Good Company Ltd." vs. "GoodCompany"
"Baker Street 2" vs. "Baker Str. 2"
Gdybym uzyskać wynik w procentach alikeness, niż może to być wejście do inteligentnego scalenia tych danych.
Czy znasz jakieś dobre biblioteki, które umożliwiłyby porównywanie takich inteligentnych ciągów?
Spróbuj rzucić okiem na to: http://stackoverflow.com/questions/2344320/comparing-strings-with-tolerance – Justin
Czy możesz nam powiedzieć, jaki procent powinieneś zwrócić w przypadku każdego z tych dwóch porównań łańcuchów ? – jszigeti
Czy "GreatOrgansiation" ma jakąkolwiek "podobieństwo" do '" GoodCompany "'? Czy próbujesz porównać znaczenie? Jak podobne są "akceptować" i "z wyjątkiem", które brzmią podobnie, ale mają różne znaczenia? A co z '' country fair "' i '" equal and fair "' lub, '" four candles "' i '" fork handle "'? Czy istnieje element NLP, czy jest to prostszy algorytm? Czy chcesz mieć "podobne środki", "podobne dźwięki" lub "wyglądają podobnie"? – Jodrell