2015-03-26 14 views
6

Zastanawiam się, czy można użyć Stanford CoreNLP do wykrywania języka, w którym napisane jest zdanie? Jeśli tak, jak precyzyjne mogą być te algorytmy?Wykrywanie języka za pomocą Stanford NLP

+0

Użytkownik może być zainteresowany [zestawem danych testu porównawczego WiLI do identyfikacji w języku pisanym] (https://arxiv.org/abs/1801.07779). –

Odpowiedz

10

Niemal na pewno nie ma identyfikacji języka w Stanford CORENLP w tej chwili. "prawie" - ponieważ nieistnienie jest o wiele trudniejsze do udowodnienia.

EDIT: Niemniej jednak, poniżej są okolicznościowe dowody:

  1. nie ma wzmianki o identyfikacji języka ani na main page, ani CoreNLP page, ani w FAQ (choć jest pytanie „W jaki sposób uruchomić CoreNLP na inne języki? '), ani w 2014 paper autorów CoreNLP;
  2. narzędzia, które łączą kilka bibliotek NLP , w tym Stanford CoreNLP, używają innej biblioteki dla języka identyfikacji, na przykład DKPro Core ASL; również other users mówić o tożsamości językowej i CoreNLP nie wspomnieć o tej możliwości
  3. plik źródłowy CoreNLP zawiera Language klas, ale nic związane z identyfikacją języka - można sprawdzić ręcznie dla wszystkich 84 występowania „język” słowem here

Wypróbuj TIKA lub TextCat lub Language Detection Library for Java (zgłaszają "99% ponad precyzją w 53 językach").

Ogólnie rzecz biorąc, jakość zależy od rozmiaru wprowadzanego tekstu: jeśli jest wystarczająco długi (powiedzmy, co najmniej kilka słów i nie został specjalnie wybrany), wówczas dokładność może być całkiem dobra - około 95%.

+0

brzmi dobrze, dzięki! –

7

Standford CoreNLP nie posiada identyfikator języka (przynajmniej jeszcze nie), patrz http://nlp.stanford.edu/software/corenlp.shtml


Jest wiele więcej na temat językowych narzędzi wykrywania/identyfikacji. Ale weź raportowaną dokładność za pomocą szczypty soli. Jest to najczęściej oceniana wąsko, ograniczoną przez:

  • listy fix języków,
  • znacznej długości zdań testowych i
  • tego samego języka i
  • skrzywienie proporcji kształcenia do testowania instancje.

język godny narzędzia ID obejmuje:

Wyczerpująca lista z meta-przewodnika.com, zobacz http://meta-guide.com/software-meta-guide/100-best-github-language-identification/


uwagę zasługuje Język Identyfikacja podobne wspólne zadanie (z danymi szkolenia/testowania) obejmuje:


wziąć również zapoznać w:

+0

ta lista jest imponująca! Dzięki! –

Powiązane problemy