Mam dwa pliki z napisami. muszę funkcję, która mówi, czy reprezentują one ten sam tekst, lub podobny tekstAlgorytm podobieństwa tekstu:
Czasami są komentarze typu „Wiatr wieje ... muzyka gra” tylko w jednym pliku. Ale 80% procent zawartości będzie takie samo. Funkcja musi zwracać TRUE (pliki reprezentują ten sam tekst). Czasami występują błędy ortograficzne, takie jak 1 zamiast l (jeden - L), jak tutaj: Ona 1ta bagaż. Oczywiście oznacza to, że funkcja musi zwracać PRAWDA.
Moje komentarze:
Funkcja powinna zwracać procent podobieństwa tekstów - ZGADZA
„wszyscy ludzie byli szczęśliwi” i „wszyscy ludzie nie byli zadowoleni” - tutaj to by było uznać za z błędem pisowni, aby był uważany za ten sam tekst. Dokładnie, procent zwracanej funkcji będzie niższy, ale wystarczająco wysoki, by powiedzieć, że frazy są podobne.
Zastanów się, czy chcesz zastosować Levenshtein do całego pliku, czy tylko do ciągu wyszukiwania - nie wiesz o Levenshtein, ale Algorytm musi zostać zastosowany do pliku jako całości. Będzie to jednak bardzo długi ciąg.
Funkcja powinna zwracać procent podobieństwa tekstów i Ty decydujesz o progu TRUE lub FALSE. – YOU
Będziesz musiał bardzo uważać na swoje kryteria podobieństwa i myślę, że to może być najcięższa część tego, co próbujesz zrobić.Na przykład "wszyscy ludzie byli szczęśliwi" i "wszyscy ludzie nie byli szczęśliwi" są podobni tekstowo, ale całkowicie przeciwnie, jeśli chodzi o znaczenie. Pomocne mogą być przykłady podobnego i niepodobnego tekstu. – glenatron
Sprawdź Soundex (http://en.wikipedia.org/wiki/Soundex) i zobacz, czy to jest coś, czego szukasz. –