2011-08-17 18 views
5

Oto mój problem. Mam dwa akapity tekstu i muszę sprawdzić, czy są podobne. Nie w sensie metryk string, ale w znaczeniu. Poniższe dwa akapity są powiązane, ale muszę się dowiedzieć, czy dotyczą one tego samego tematu. Każda pomoc lub kierunek rozwiązania tego problemu byłby bardzo doceniony.Porównanie dwóch angielskich ciągów znaków dla podobieństw

Paliwa kopalne paliwa są utworzone w wyniku naturalnych procesów, takich jak beztlenowego rozkładu zakopanych martwych organizmów. Wiek organizmów i ich powstających paliw kopalnych wynosi zwykle miliony lat, a czasami przekracza 650 milionów lat. Paliwa kopalne, które zawierają wysoki procent węgla, obejmują węgiel, ropę naftową i gaz ziemny. Paliwa kopalne różnią się od materiałów lotnych o niskiej zawartości węgla: wodór stosunki takie jak metan, do ciekłej ropy naftowej do nielotnych materiałów składający się z prawie czystego węgla, jak węgiel antracytowy. Metan może być znaleziony w polach węglowodorowych, sam, związany z olejem, lub w postaci klatratów metanu z . Ogólnie przyjmuje się, że powstały one ze skamieniałych szczątków martwych roślin poprzez ekspozycję na ciepło i ciśnienie w skorupie ziemskiej przez miliony lat. Tę biogeniczną teorię po raz pierwszy wprowadził Georg Agricola w 1556 r., A następnie Michaił Łomonosow w XVIII wieku.

drugie:

paliwo kopalne reformowania jest sposobem wytwarzania wodoru lub innych użytecznych produktów z paliw kopalnych, takich jak gaz ziemny. Jest to osiągnięte w urządzeniu przetwarzającym zwanym reformatorem, który reaguje z parą wodną w wysokiej temperaturze z paliwem kopalnym. Reaktor parowy metanu jest szeroko stosowany w przemyśle do wytwarzania wodoru. Istnieje również zainteresowanie rozwojem znacznie mniejszych jednostek opartych na podobnej technologii do wytwarzających wodór jako surowiec dla ogniw paliwowych. Parownik na małą skalę Jednostki reformujące do zasilania ogniwami paliwowymi są obecnie przedmiotem badań i prac rozwojowych, zazwyczaj obejmujących reformowanie metanu lub gazu ziemnego z , ale inne paliwa są również uważane za takie jako propan, benzyna, autogaz, olej napędowy, i etanol.

Odpowiedz

3

Ogólnie uważam, że to nadal otwarty problem. Przetwarzanie języka naturalnego wciąż jest rodzącą się dziedziną i chociaż możemy zrobić kilka rzeczy naprawdę dobrze, wciąż bardzo trudno jest dokonać takiej klasyfikacji i kategoryzacji.

Nie jestem ekspertem od NLP, ale warto wypróbować these lecture slides, które omawiają analizę nastrojów i wykrywanie autorstwa. Techniki, których możesz użyć do porównywania tekstu, które zasugerowałeś, są związane z technikami, które wykorzystasz do wyżej wymienionych analiz, i możesz uznać to za dobry punkt wyjścia.

Mam nadzieję, że to pomoże!

2

Możesz także rzucić okiem na model Alessandroides Dirichlet (LDA) w uczeniu maszynowym. Pomysł polega na znalezieniu niskowymiarowej reprezentacji każdego dokumentu (lub akapitu), po prostu jako dystrybucji niektórych "tematów". Model jest szkolony w sposób nienadzorowany przy użyciu zbioru dokumentów/akapitów.

Jeśli używasz LDA w swoim zbiorze akapitów, to patrząc na podobieństwo wektora ukrytych tematów, możesz sprawdzić, czy dane dwa akapity są powiązane, czy nie.

Oczywiście linia bazowa polega na tym, aby nie używać LDA, a zamiast tego używać terminów częstotliwości (powiększonych za pomocą tf/idf) do pomiaru podobieństw (model przestrzeni wektorowej).

Powiązane problemy