Algorytm porównywania tekstu

Mamy w projekcie wymaganie, aby porównać dwa teksty (update1, update2) i wymyślić algorytm określający liczbę słów i liczbę zdań.Algorytm porównywania tekstu

Czy są jakieś algorytmy, z których można go użyć? Nawet nie szukam kodu. Jeśli znam algorytm, mogę go zakodować w Javie. Dziękuję Ci.

Źródło

2012-01-30 java_mouse

http://stackoverflow.com/questions/65199/ c-sharp-compare-algorithms –

http://neil.fraser.name/software/diff_match_patch/myers.pdf –

Zazwyczaj można to osiągnąć, znajdując numer Longest Common Subsequence (zwykle nazywany problemem LCS). Tak działają narzędzia takie jak diff. Oczywiście, diff jest narzędziem zorientowanym liniowo i wygląda na to, że twoje potrzeby są nieco inne. Jednak przypuszczam, że już zbudowałeś jakiś sposób porównywania słów i zdań.

Źródło

2012-01-30 14:40:52 FatalError

Jakiś wariantu diff może być pomocne, np wdiff

Jeśli zdecydujesz się opracować własny algorytm, będziesz musiał rozwiązać sytuację, w której został wstawiony zdanie. Na przykład dla dwóch następujących dokumentów:

The men are bad. I hate the men

The men are bad. John likes the men. I hate the men

Twój narzędzie powinno być w stanie patrzeć w przyszłość, aby uznać, że w drugim, I hate the men nie został zastąpiony przez John likes the men ale zamiast tego jest nietknięty i nowe zdanie wstawione przed nim. tj. powinien zgłosić wstawienie zdania, a nie zmianę czterech słów, po których następuje nowe zdanie.

Źródło

2012-01-30 14:44:20 Howard

Specyficznym algorytmem używanym przez diff i większość innych narzędzi do porównywania jest An O(ND) Difference Algorithm and Its Variations Eugene'a Myera. Jego implementacja Java jest dostępna w pakiecie java-diff-utils.

Źródło

2012-01-30 15:37:19

An O(NP) Sequence Comparison Algorithm jest używany przez silnik różnicowy subversion.

Dla twojej informacji, istnieją implementacje z różnymi językami programowania samodzielnie na następnej stronie github.

https://github.com/cubicdaiya/onp

Źródło

2012-01-31 11:05:14 cubicdaiya

Problem pojawia się przy porównywaniu dużych plików sprawnie i dobrej wydajności. Dlatego wprowadziła odmianę Myers O (ND) algorytmu diff - który funkcjonuje całkiem dobrze i dokładne (i obsługuje filtrowanie na podstawie wyrażenia regularnego):

Algorytm można przetestować tutaj: becke.ch compare tool web application

i trochę więcej informacji na stronie głównej: becke.ch compare tool

Źródło

2015-09-09 21:23:18

Oto dwa artykuły opisujące inne algorytmy porównywania tekstu, które powinny generalnie "lepiej" wyprowadzać (np.Mniejsze, znaczące) różnice:

Pierwszy dokument powołuje drugim i wskazuje to o jego algorytmu:

Heckel [3] wskazano podobny problemy z technikami LCS i zaproponował algorytm liniowo-wapniowy do wykrywania ruchów bloków. Algorytm wykonuje odpowiednio , jeśli w ciągach występuje kilka zduplikowanych symboli. Jednak algorytm daje słabych wyników w przeciwnym razie. Na przykład, biorąc pod uwagę dwa łańcuchy, algorytm Heckela nie wykryje żadnego wspólnego podłańcucha.

Pierwszy dokument został wymieniony w this answer, a drugi w this answer zarówno w podobny SO pytania:

Is there a diff-like algorithm that handles moving block of lines? - Stack Overflow

Źródło

2017-01-12 17:30:18

Algorytm porównywania tekstu

Odpowiedz

Powiązane problemy