Przy istniejących kategoriach (nadzorowanych) technikach tekstowych, dlaczego nie uznajemy nazwanych oznaczeń (NE) w tekście za cechę szkolenia i testowania? Czy uważasz, że możemy poprawić precyzję, używając NE jako funkcji?Nazwane obiekty jako cecha w kategoryzacji tekstu?
Odpowiedz
Wiele zależy od domeny, w której pracujesz. Musisz zdefiniować funkcje oparte na domenie. Powiedzmy, że w wyszukiwarce pracujesz nad uczeniem się rangowania problemu, generując dynamiczną rangę, NE nie przyniesie ci tutaj żadnej korzyści. W większym stopniu zależy to od domeny, w której pracujesz, a także zdefiniowanych etykiet kategoryzacji wyników (uczenie nadzorowane).
Teraz powiedzmy, że pracujesz nad klasyfikacją dokumentów dotyczących Soccer, Movie lub Polictics i tak dalej. W tym przypadku Named Entities może działać. Dam ci przykład, powiedzmy, że korzystasz z sieci neuronowej, która kategoryzuje dokumenty w piłce nożnej, filmie, polityce itd. Teraz mówimy o dokumencie w "Lionel Messi został zaproszony do udziału w premierze" The Social Network ", również obecny byli obsadą i ekipą, w tym Jessem Eisenbergiem, Andrew Garfieldem i Justinem Timberlake'em "Tutaj połączenie między nazwanymi bytami (cechy wejściowe) i filmem (wyjście zdefiniowane) będzie silniejsze, a zatem zostanie sklasyfikowane jako dokument na filmie.
Kolejny przykład, powiedzmy, że nasz dokument brzmi: "Tom Cruise przedstawia postać Lionela Messiego w filmie" Ostatni mecz piłkarski ".Jest tutaj korzyść, powiedzmy, że twoja sieć neuronowa nauczyła się, że kiedy aktor i piłkarz spotykają się w jeden dokument jest bardzo prawdopodobne, że jest to film.) Znowu zależy to od danych i treningu, może też być na odwrót (ale o tym właśnie się uczymy, oglądanie przeszłych danych)
Tak więc moja odpowiedź wypróbuj go, nikt nie powstrzyma cię przed nazwaniem obiektów jako funkcjami. Może to pomóc w domenie, w której pracujesz.
hej, dziękuję bardzo za odpowiedź. To trochę zwiększyło moją energię :) Tak, skupiam się na domenie, która jest raczej zwężona, jak powiedziałeś, jak baseball, piłka nożna. Moją obawą jest to, że nawet w tradycyjnej klasyfikacji tekstu na podstawie terminologii Term (TF), czy nie używamy pośrednio NE? skoro używamy terminów, a NE są terminami? – KillBill
Oto jedno z tradycyjnych podejść: http://www.miislita.com/information-retrieval-tutorial/lsi-keyword-research-fast-track-tutorial.pdf – Yavar
To jest nauka bez nadzoru (klasteryzacji) i użyj LSI, aby zmniejszyć wymiarowość wektora cech. Czy widzisz tutaj sposób na włączenie NER? – KillBill
- 1. Monada cecha w Scala
- 2. Nazwane zakresy stanów w state_machine
- 3. obiekty jako klucze w słownikach Pythona
- 4. Zablokuj obiekty zmienne jako niezmienne w pythonie
- 5. mixin lub cecha w F #
- 6. Zagnieżdżona cecha w konstruktorze klasy w scala
- 7. budować jedyna cecha/* gałęzie
- 8. TortoiseHg Kopiowanie Podobieństwo cecha
- 9. Parametry nazwane/opcjonalne w Delphi?
- 10. Nazwane parametry funkcji w PHP
- 11. Retroaktywne rozgałęzienie nazwane w Mercurial
- 12. Zmuszanie nazwane argumenty w C#
- 13. Nazwane wystąpienia i wystąpienie domyślne w strukturze?
- 14. Jak zdefiniować StructureMap wystąpienie nazwane w Kodeksie
- 15. Istoty persystencji jako obiekty przesyłania danych
- 16. Clojure - nazwane argumenty
- 17. React.js renderowanie tekstu jako HTML
- 18. Obiekty nie są ważne jako React child
- 19. Zasoby są już zdefiniowane jako obiekty Zasoby
- 20. Przechodząc funkcje Pythona jako obiekty do Spark
- 21. Czy nazwane funkcje są niedoceniane w JavaScript?
- 22. Cecha wydajności Ruby w odniesieniu do informatyki
- 23. OpenLayers style CSS cecha podręczne
- 24. Obliczanie IDF (Inverse Document Frequency) dla kategoryzacji dokumentów
- 25. Zwróć elementy listy jako niezależne obiekty w środowisku globalnym
- 26. formatu ciągi i nazwane argumenty w Pythonie
- 27. Jak utworzyć nazwane argumenty w ELisp?
- 28. Nazwane przerwy dla pętli w Rust
- 29. Echarts - niestandardowa cecha zestawu narzędzi znak/komentarz
- 30. obiekty rozrachunkowych z localStorage
Podaj przykład tego, co próbujesz powiedzieć: – Yavar
co mam na myśli to, że dla każdego dokumentu, który mam zamiar trenować i przetestować, poprawiłoby to dokładność, jeśli użyję liczby NE (PERS = x, LOC = y, ORG = z) jako funkcji wraz z normalnym funkcje klasyfikacji tekstu (dokumentu)? – KillBill
+1: Dobre pytanie – Yavar