2016-05-13 14 views
5

Mam korpus kilku 100-tysięcznych dokumentów prawnych (głównie z Unii Europejskiej) - prawa, komentarze, dokumenty sądowe itp. Próbuję je algorytmicznie zrozumieć.NLP tekstów prawnych?

Wymodelowałem znane relacje (czasowe, to-zmiany-to, itp.). Ale na poziomie pojedynczego dokumentu, chciałbym mieć lepsze narzędzia umożliwiające szybkie zrozumienie. Jestem otwarty na pomysły, ale tutaj jest bardziej szczegółowe pytanie:

Na przykład: czy istnieją metody NLP w celu określenia odpowiednich/kontrowersyjnych części dokumentów w przeciwieństwie do schematu? Niedawno wyciekły papiery TTIP to tysiące stron z tabelami danych, ale jedno zdanie może zniszczyć przemysł.

Grałem z nowym Google Parsey McParface i innymi rozwiązaniami NLP w przeszłości, ale gdy działają one imponująco dobrze, nie jestem pewien, jak dobrze są w izolowaniu znaczenia.

Odpowiedz

1

Widzę, że masz interesujący przypadek. Wspomniałeś również o obecności korpusu (który jest naprawdę dobrym plusem). Pozwolę sobie odnieść się do rozwiązania, które nakreśliłem, aby wydobyć sedno z prac badawczych.

Aby uzyskać sens z dokumentów, potrzebujesz wyzwalaczy do poinformowania (lub wyszkolenia) komputera, aby wyszukać te "wyzwalacze". Możesz podejść do tego za pomocą nadzorowanego algorytmu uczenia z prostą implementacją problemu klasyfikacji tekstu na najbardziej podstawowym poziomie. Ale to wymagałoby wcześniejszej pracy, pomocy ekspertów od domeny początkowo w zakresie rozpoznawania "wyzwalaczy" z danych tekstowych. Istnieją narzędzia do wydobywania mgieł zdań - na przykład, przyjmuj frazy rzeczownikowe w zdaniu, przypisuj wagi oparte na współwystępowaniu i reprezentuj je jako wektory. To są twoje dane treningowe. To może być naprawdę dobry początek włączania NLP do twojej domeny.

-4

Nie używaj wyzwalaczy. To, czego potrzebujesz, to ujednoznacznienie i adaptacja domeny. Chcesz mieć sens w dokumentach, to znaczy zrozumieć semantykę, aby zrozumieć znaczenie. Możesz zbudować legalną ontologię terminów w skos lub formacie json-ld, reprezentując ją ontologicznie na grafie wiedzy i używając jej do analizy zależności, np. Tensorflow/parseymcparseface. Możesz też przesyłać strumieniowo dokumenty za pomocą architektury opartej na kappa - coś w rodzaju kafka-elastycznego wyszukiwania z dodanymi pośrednimi warstwami NLP za pomocą CoreNLP/Tensorflow/UIMA, buforuj swoje ustawienia indeksowania między migotaniem a elastycznym wyszukiwaniem przy użyciu redis, aby przyspieszyć ten proces. Aby zrozumieć trafność, możesz zastosować konkretne przypadki dzięki zwiększeniu liczby wyszukiwań. Ponadto zastosuj analizę nastrojów, aby wypracować intencje i prawdę. Twój przypadek użycia jest jednym z ekstrakcji informacji, podsumowania i semantycznych danych sieciowych/połączonych. Ponieważ UE ma inny system prawny, należy najpierw uogólnić to, co jest naprawdę dokumentem prawnym, a następnie zawęzić je do konkretnych pojęć prawnych związanych z tematem lub regionem. Można również użyć tutaj technik modelowania tematów z LDA lub Word2Vec/Sense2Vec. Ponadto Lemon może również pomóc w konwersji leksykalnej do semantyki i semantyki w leksykalny, tj. NLP-> ontologia -> ontologia-> NLP. Zasadniczo, zasilaj klastrowanie w swoją klasyfikację rozpoznawania nazwanego obiektu. Możesz także użyć klastrowania, aby pomóc ci w budowaniu ontologii lub zobaczeniu, jakie słowa są w dokumencie lub zestawie dokumentów z wykorzystaniem podobieństwa cosinus. Ale, aby zrobić wszystko, co najlepiej jest wizualizować słowo sparsity swoich dokumentów. Coś w rodzaju zdroworozsądkowego + głębokiego uczenia się może również pomóc w twoim przypadku.

3

Aby wydobyć sens z dokumentów, należy przeprowadzić jakąś analizę semantyczną.Masz dwie główne możliwości z ich exemples:

Użyj semantyki Rama: http://www.cs.cmu.edu/~ark/SEMAFOR/

Wykorzystanie Semantic etykietowania Rola (SRL): http://cogcomp.org/page/demo_view/srl

Gdy jesteś w stanie wydobyć informacje z dokumentów a następnie można zastosować pewne przetwarzanie końcowe w celu ustalenia, które informacje są istotne. Znalezienie odpowiednich informacji dotyczy zadań i nie sądzę, aby można było znaleźć ogólne narzędzie, które wyodrębnia "istotne" informacje.

Powiązane problemy