Oto problem - mam kilka tysięcy małych fragmentów tekstu, od kilku słów do kilku zdań - największy fragment to około 2k na dysku. Chcę móc porównać każde z nich i obliczyć współczynnik pokrewności, aby móc wyświetlać informacje związane z użytkownikami.Jakie są dobre metody na znalezienie "pokrewieństwa" dwóch ciał tekstu?
Jakie są dobre sposoby na zrobienie tego? Czy znane są algorytmy tego działania, czy są jakieś rozwiązania GPL?
Nie potrzebuję tego do uruchomienia w czasie rzeczywistym, ponieważ mogę wstępnie obliczyć wszystko. Bardziej zależy mi na osiągnięciu dobrych wyników niż w środowisku uruchomieniowym.
Po prostu pomyślałem, że zapytam społeczność Stack Overflow, zanim pójdę i piszę własną rzecz. MUSZĄ istnieć ludzie, którzy wcześniej znaleźli dobre rozwiązania.
Bardzo nieokreślone pytanie. Na jakiej podstawie uważasz, że dwa teksty są ze sobą powiązane? Typowe tematy? Powtarzające się zwroty? Długość? Złożoność? Częstotliwość liter? –