Zastanawiam się, czy można użyć Stanford CoreNLP do wykrywania języka, w którym napisane jest zdanie? Jeśli tak, jak precyzyjne mogą być te algorytmy?Wykrywanie języka za pomocą Stanford NLP
Odpowiedz
Niemal na pewno nie ma identyfikacji języka w Stanford CORENLP w tej chwili. "prawie" - ponieważ nieistnienie jest o wiele trudniejsze do udowodnienia.
EDIT: Niemniej jednak, poniżej są okolicznościowe dowody:
- nie ma wzmianki o identyfikacji języka ani na main page, ani CoreNLP page, ani w FAQ (choć jest pytanie „W jaki sposób uruchomić CoreNLP na inne języki? '), ani w 2014 paper autorów CoreNLP;
- narzędzia, które łączą kilka bibliotek NLP , w tym Stanford CoreNLP, używają innej biblioteki dla języka identyfikacji, na przykład DKPro Core ASL; również other users mówić o tożsamości językowej i CoreNLP nie wspomnieć o tej możliwości
- plik źródłowy CoreNLP zawiera
Language
klas, ale nic związane z identyfikacją języka - można sprawdzić ręcznie dla wszystkich 84 występowania „język” słowem here
Wypróbuj TIKA lub TextCat lub Language Detection Library for Java (zgłaszają "99% ponad precyzją w 53 językach").
Ogólnie rzecz biorąc, jakość zależy od rozmiaru wprowadzanego tekstu: jeśli jest wystarczająco długi (powiedzmy, co najmniej kilka słów i nie został specjalnie wybrany), wówczas dokładność może być całkiem dobra - około 95%.
brzmi dobrze, dzięki! –
Standford CoreNLP nie posiada identyfikator języka (przynajmniej jeszcze nie), patrz http://nlp.stanford.edu/software/corenlp.shtml
Jest wiele więcej na temat językowych narzędzi wykrywania/identyfikacji. Ale weź raportowaną dokładność za pomocą szczypty soli. Jest to najczęściej oceniana wąsko, ograniczoną przez:
- listy fix języków,
- znacznej długości zdań testowych i
- tego samego języka i
- skrzywienie proporcji kształcenia do testowania instancje.
język godny narzędzia ID obejmuje:
- TextCat (http://cran.r-project.org/web/packages/textcat/index.html)
- CLD (https://code.google.com/p/cld2/)
- LingPipe (http://alias-i.com/lingpipe/demos/tutorial/langid/read-me.html)
Wyczerpująca lista z meta-przewodnika.com, zobacz http://meta-guide.com/software-meta-guide/100-best-github-language-identification/
uwagę zasługuje Język Identyfikacja podobne wspólne zadanie (z danymi szkolenia/testowania) obejmuje:
wziąć również zapoznać w:
- Language Identification: The Long and the Short of the Matter
- The Problems of Language Identification within Hugely Multilingual Data Sets
- Selecting and Weighting N-Grams to Identify 1100 Languages
- Indigenous Tweets
- Microblog Language Identification: Overcoming the Limitations of Short, Unedited and Idiomatic Text
ta lista jest imponująca! Dzięki! –
- 1. Stanford nlp tokenizer
- 2. Stanford core nlp java output
- 3. Jak usunąć stopwords używając stanford nlp
- 4. Stanford Core NLP - zrozumienie rozdzielczości rozdzielczej
- 5. Szkolenie n-gram NER ze Stanford NLP
- 6. Zależność Mavena: pobieranie nie pobiera plików modelu Stanford NLP
- 7. Wykrywanie linii | Wykrywanie kątów za pomocą Java
- 8. Stanford CoreNLP sentiment
- 9. Wykrywanie kolorów za pomocą C#
- 10. Wykrywanie HTTPS za pomocą JavaScriptu
- 11. Wykrywanie anomalii za pomocą Pythona
- 12. Wykrywanie środowiska za pomocą Meteor.js?
- 13. Stanley Core NLP LexicalizedParser Model
- 14. Jak analizować względne daty za pomocą języka Perl?
- 15. Uzyskaj wiele tagów za pomocą narzędzia Stanford Tag Tagger
- 16. W przetwarzaniu języka naturalnego (NLP), jak skutecznie zmniejszyć wymiary?
- 17. OpenNLP vs Stanford CoreNLP
- 18. Korzystanie z bibliotek Stanford NLP od wewnątrz R, przy użyciu pakietu rJava
- 19. Wizualizacja modelu LDA za pomocą języka Python
- 20. Wyodrębnianie tabeli symboli za pomocą języka
- 21. Asynchroniczny selektor języka za pomocą i18next
- 22. Wykrywanie linii poziomej za pomocą OpenCV
- 23. Wykrywanie powolnych czytników za pomocą zmq (zeromq)
- 24. Niezawodne wykrywanie przeglądarki za pomocą javascript?
- 25. Wykrywanie linii zawijanych przeglądarki za pomocą javascript
- 26. Wykrywanie wersji przeglądarki za pomocą GWT?
- 27. Wykrywanie obsługi dźwięku html5 za pomocą Modernizr
- 28. ANDROID - wykrywanie koloru za pomocą openCV - jak?
- 29. Wykrywanie funkcji za pomocą niewymagających patentu deskryptorów
- 30. Wykrywanie krawędzi za pomocą OpenCV (Canny)
Użytkownik może być zainteresowany [zestawem danych testu porównawczego WiLI do identyfikacji w języku pisanym] (https://arxiv.org/abs/1801.07779). –