5

Przy istniejących kategoriach (nadzorowanych) technikach tekstowych, dlaczego nie uznajemy nazwanych oznaczeń (NE) w tekście za cechę szkolenia i testowania? Czy uważasz, że możemy poprawić precyzję, używając NE jako funkcji?Nazwane obiekty jako cecha w kategoryzacji tekstu?

+0

Podaj przykład tego, co próbujesz powiedzieć: – Yavar

+0

co mam na myśli to, że dla każdego dokumentu, który mam zamiar trenować i przetestować, poprawiłoby to dokładność, jeśli użyję liczby NE (PERS = x, LOC = y, ORG = z) jako funkcji wraz z normalnym funkcje klasyfikacji tekstu (dokumentu)? – KillBill

+1

+1: Dobre pytanie – Yavar

Odpowiedz

1

Wiele zależy od domeny, w której pracujesz. Musisz zdefiniować funkcje oparte na domenie. Powiedzmy, że w wyszukiwarce pracujesz nad uczeniem się rangowania problemu, generując dynamiczną rangę, NE nie przyniesie ci tutaj żadnej korzyści. W większym stopniu zależy to od domeny, w której pracujesz, a także zdefiniowanych etykiet kategoryzacji wyników (uczenie nadzorowane).

Teraz powiedzmy, że pracujesz nad klasyfikacją dokumentów dotyczących Soccer, Movie lub Polictics i tak dalej. W tym przypadku Named Entities może działać. Dam ci przykład, powiedzmy, że korzystasz z sieci neuronowej, która kategoryzuje dokumenty w piłce nożnej, filmie, polityce itd. Teraz mówimy o dokumencie w "Lionel Messi został zaproszony do udziału w premierze" The Social Network ", również obecny byli obsadą i ekipą, w tym Jessem Eisenbergiem, Andrew Garfieldem i Justinem Timberlake'em "Tutaj połączenie między nazwanymi bytami (cechy wejściowe) i filmem (wyjście zdefiniowane) będzie silniejsze, a zatem zostanie sklasyfikowane jako dokument na filmie.

Kolejny przykład, powiedzmy, że nasz dokument brzmi: "Tom Cruise przedstawia postać Lionela Messiego w filmie" Ostatni mecz piłkarski ".Jest tutaj korzyść, powiedzmy, że twoja sieć neuronowa nauczyła się, że kiedy aktor i piłkarz spotykają się w jeden dokument jest bardzo prawdopodobne, że jest to film.) Znowu zależy to od danych i treningu, może też być na odwrót (ale o tym właśnie się uczymy, oglądanie przeszłych danych)

Tak więc moja odpowiedź wypróbuj go, nikt nie powstrzyma cię przed nazwaniem obiektów jako funkcjami. Może to pomóc w domenie, w której pracujesz.

+0

hej, dziękuję bardzo za odpowiedź. To trochę zwiększyło moją energię :) Tak, skupiam się na domenie, która jest raczej zwężona, jak powiedziałeś, jak baseball, piłka nożna. Moją obawą jest to, że nawet w tradycyjnej klasyfikacji tekstu na podstawie terminologii Term (TF), czy nie używamy pośrednio NE? skoro używamy terminów, a NE są terminami? – KillBill

+0

Oto jedno z tradycyjnych podejść: http://www.miislita.com/information-retrieval-tutorial/lsi-keyword-research-fast-track-tutorial.pdf – Yavar

+0

To jest nauka bez nadzoru (klasteryzacji) i użyj LSI, aby zmniejszyć wymiarowość wektora cech. Czy widzisz tutaj sposób na włączenie NER? – KillBill