2009-10-21 21 views

Odpowiedz

38

Cięcie jest również nazywane płytką analizą i jest to w zasadzie identyfikacja części mowy i krótkich fraz (jak frazy rzeczownikowe). Part of speech tagging mówi, czy słowa są rzeczownikami, czasownikami, przymiotnikami itd., Ale nie daje żadnej wskazówki co do struktury zdania lub fraz w zdaniu. Czasami przydatne jest posiadanie większej ilości informacji niż tylko części słów, ale nie potrzebujesz pełnego drzewa analizy, które otrzymasz od parsowania.

Przykładem, kiedy chunking może być lepszy, jest Named Entity Recognition. W NER, Twoim celem jest znalezienie nazwanych podmioty, które wydają się być rzeczownik frazy (choć nie zawsze), więc chcesz wiedzieć, że Prezydent Barack Obama jest w następnym zdaniu:

Prezydent Barack Obama skrytykował firmy ubezpieczeniowe i banki, wzywając kibiców do wywarcia presji na Kongres, by poparł działania zmierzające do zreformowania systemu opieki zdrowotnej i zmiany przepisów finansowych. (source)

Ale niekoniecznie musisz się martwić, że jest on przedmiotem wyroku.

Chunking był również dość powszechnie używany jako etap wstępnego przetwarzania dla innych zadań, takich jak tłumaczenie maszynowe oparte na przykładach, zrozumienie języka naturalnego, generowanie mowy i inne.

6

Aby uzyskać tekst "chunking" w przetwarzaniu w języku naturalnym, zobacz here (prawdopodobnie chcesz, aby wszystkie wykłady w tej serii były rodzajem "NLP 101" ...): obejmuje on szereg zadań, takich jak wyszukiwanie grup rzeczowników , znajdowanie grup czasowników i pełne zdanie partycjonowania -> kawałki różnych typów. Wykład, którego cytowany przeze mnie adres URL zawiera więcej szczegółów!

+0

Odpowiedź w innym zamku? Powinien raczej zostać opatrzony komentarzem, a nie odpowiedzią. –

0

Grupowanie wyrazów w składnie skorelowane wyrażenia (fragmenty). NB: Etykietowanie IOB może służyć do wskazania granic porcji.