Powiedzmy, że mam 100000 wiadomości e-mail, a 2000 z nich zawiera skrótowy ciąg znaków, taki jak "szybki brązowy lis przeskakuje nad leniwym psem" lub "lorem ipsum dolor sit amet". Jakie techniki może/powinienem użyć do "wydobycia" tych zwrotów? Nie jestem zainteresowany wydobywaniem pojedynczych słów lub krótkich fraz. Muszę również odfiltrować wyrazy, które już wiem, występują we wszystkich wiadomościach.Jakie techniki/narzędzia są dostępne do odkrywania popularnych zwrotów w kawałkach tekstu?
Przykład:
string mailbody1 = "Welcome to the world of tomorrow! This is the first mail body. Lorem ipsum dolor sit AMET. Have a nice day dude. Cya!";
string mailbody2 = "Welcome to the world of yesterday! Lorem ipsum dolor sit amet Please note this is the body of the second mail. Have a nice day.";
string mailbody3 = "A completely different body.";
string[] mailbodies = new[] {mailbody1, mailbody2, mailbody3};
string[] ignoredPhrases = new[] {"Welcome to the world of"};
string[] results = DiscoverPhrases(mailbodies, ignoredPhrases);
W tym przykładzie chcę się DiscoverPhrases funkcjonować powrotu "Lorem ipsum dolor sit amet" i "have a nice day". Nie jest to ważne, jeśli funkcja zwraca również krótsze frazy "szumowe", ale jeśli jest to możliwe, byłoby miło wyeliminować je w procesie.
Edycja: Zapomniałem dołączyć mailbody3 do przykładu.
Dzięki. To świetna wskazówka! – JohannesH