Jakie są dobre metody na znalezienie "pokrewieństwa" dwóch ciał tekstu?

Oto problem - mam kilka tysięcy małych fragmentów tekstu, od kilku słów do kilku zdań - największy fragment to około 2k na dysku. Chcę móc porównać każde z nich i obliczyć współczynnik pokrewności, aby móc wyświetlać informacje związane z użytkownikami.Jakie są dobre metody na znalezienie "pokrewieństwa" dwóch ciał tekstu?

Jakie są dobre sposoby na zrobienie tego? Czy znane są algorytmy tego działania, czy są jakieś rozwiązania GPL?

Nie potrzebuję tego do uruchomienia w czasie rzeczywistym, ponieważ mogę wstępnie obliczyć wszystko. Bardziej zależy mi na osiągnięciu dobrych wyników niż w środowisku uruchomieniowym.

Po prostu pomyślałem, że zapytam społeczność Stack Overflow, zanim pójdę i piszę własną rzecz. MUSZĄ istnieć ludzie, którzy wcześniej znaleźli dobre rozwiązania.

Źródło

2009-08-31 Matt

Bardzo nieokreślone pytanie. Na jakiej podstawie uważasz, że dwa teksty są ze sobą powiązane? Typowe tematy? Powtarzające się zwroty? Długość? Złożoność? Częstotliwość liter? –

Te artykułów na semantic relatedness i semantic similarity może być pomocne. I to pytanie SO o Latent Semantic Analysis.

Można również sprawdzić, czy słowa "brzmią podobnie" fonetycznie.

Źródło

2009-08-31 18:22:55 jjclarkson

Dzięki. Utajona analiza semantyczna wygląda obiecująco, będę musiał przeczytać i zobaczyć, jak ją wdrożyć. – Matt

nigdy nie używałem go, ale warto zajrzeć do Levenshtein distance

Źródło

2009-08-31 18:17:03 Alex

Działa dobrze w wielu scenariuszach –

Levenshtein podaje odległość edycyjną, a nie różnice semantyczne. – Bob

Jeff mówił o czymś takim na kapsule oddanych znaleźć inne pytania wymienione po prawej stronie tutaj. (in podcast 32)

Jedna wielka wskazówka było usunąć wszystkie common words, jak „ten” „i” „to” itd. To zostawię was z bardziej znaczących słów do porównania.

I tu jest podobne pytanie Is there an algorithm that tells the semantic similarity of two phrases

Źródło

2009-08-31 18:18:21 Bob

Ten book mogą być istotne.

Edit: Oto związanych SO question

Źródło

2009-08-31 18:19:06 Dima

Dziękuję. Information Retrieval jest ogólnym tematem i ta książka prawdopodobnie zawiera w sobie dobre informacje. – Matt

Jest to całkiem wykonalne dla uzasadnionych dużych tekstów, ale trudniejsze dla mniejszych tekstów.

Zrobiłem to raz tak, i to działało całkiem dobrze:

filtrowania wszystkich "Ogólne" słowa (takie jak a, an, the, in, etc ...) (filtruje około 10-30 % słów)
Policz częstotliwości pozostałych słów, zapisz najwyższe x najczęstszych słów, to są twoje tematy.
Jako dodatkowy krok możesz utworzyć grupy 2/3/4 kolejnych słów i porównać je z grupami w innych tekstach. Użyłem tego jako miary dla plagializmu.

Źródło

2009-08-31 18:27:25 Henri

Zobacz uwagi dotyczące kursu Manninga i Raghavana na temat MinHashing i wyszukiwania podobnych przedmiotów oraz C#(?) version. Wierzę, że techniki pochodzą z badań Ullmana i Motwani.

Źródło

2009-08-31 19:10:18

fonetyczne algorytmy

W artykule Beyond SoundEx - Functions for Fuzzy Searching in MS SQL Server, pokazuje jak zainstalować i korzystać z biblioteki SimMetrics w SQL Server.Ta biblioteka pozwala znaleźć względne podobieństwo między ciągami i zawiera wiele algorytmów.

Skończyłem głównie używając Jaro Winkler, aby dopasować nazwy. Tutaj jest więcej informacji, gdzie pytałem o pasujące nazwy na SO: Matching records based on Person Name

Kilka algorytmów opartych na Levenshtein Distance są również dostępne w bibliotece SimMetric i prawdopodobnie będą przydatne w aplikacji.

Źródło

2009-08-31 20:31:08

Jakie są dobre metody na znalezienie "pokrewieństwa" dwóch ciał tekstu?

Odpowiedz

Powiązane problemy