Poszukuję wolnego oznaczonego korpusu do systemu, w którym można szkolić się do rozpoznawania nazwanego obiektu. Większość znalezisk (takich jak New York Times) jest droga i nie jest otwarta. Czy ktoś może pomóc?Bezpłatne oznaczenie korpusu do rozpoznawania nazwanego obiektu
Odpowiedz
dbPedia jest otwarte i wolne
dbpedia jest zbudowany z Wikipedii i jest to bardzo duży korpus. Zbuduj indeks Lucene na temat trójek obejmujący rdfs:label
na wszystkich dbPedia titles dump.
Jak podaje jedna z pozostałych odpowiedzi, DBpedia nie jest oznakowanym korpusem. –
W 2012 (i dziś) mój komentarz był prawdziwy, ale może się to zmienić w przyszłości. Jeśli interesują Cię zwłoki bazujące na DBpedzie, możesz chcieć wykonać Open Extraction Challenge (http://wiki.dbpedia.org/textext), aby wygenerować wyjście NIF dla DBpedia z tekstu Wikipedii. –
Urządzenie Python NLTK ma dostęp do korpusu nltk.corpus.conll2000
. Wywołanie conll2000.iob_words()
zwraca listę trzyosobowych (słowo, część mowy, IOB), gdzie IOB jest znacznikiem w formacie Inside-encja/Outside-entity/Beginning-of-entity.
Istnieje około 250 000 słów łącznie w kontekście stylu wiadomości.
Czy możemy także zrzucić zestaw danych, aby użyć go w innym narzędziu? takie jak [** Tagger **] (https://github.com/glample/tagger) autorstwa GLample. – user1412066
CONLL2000 nie oznacza nazwanych encji. – alexis
Istnieje lista korpusów w http://www.cs.technion.ac.il/~gabr/resources/data/ne_datasets.html
Corpus CoNLL 2003, który znajduje się na tej liście, jest wolny i jest dostępny od http://www.cnts.ua.ac.be/conll2003/ner/ (adnotacji) i NIST (tekst).
Czy musimy postępować zgodnie z procedurą wypełniania formularzy, wysyłając wniosek do NIST o otrzymanie zestawu danych zgodnie z tym [** link **] (http://trec.nist.gov/data/reuters/reuters.html) ? czy jest jakaś alternatywa? – user1412066
- 1. Funkcje obiektu nazwanego obiektu
- 2. Podraport nazwanego obiektu Sub-Subgraph
- 3. Bezpłatne Hadoop Cluster do eksperymentów
- 4. Makro do rozpoznawania WinRT?
- 5. NLTK Rozpoznawanie nazwanego obiektu przy użyciu niestandardowych danych
- 6. Członek wywołujący łańcuch działa poza konstruktorem nazwanego obiektu.
- 7. GHCi ignoruje oznaczenie typu:
- 8. Oznaczenie Amazon SQS
- 9. Najlepsze artykuły do rozpoczęcia nauki rozpoznawania krawędzi/rozpoznawania obrazu
- 10. Tworzenie nowego korpusu z NLTK
- 11. Prosta gramatyka do rozpoznawania mowy
- 12. Kinect do rozpoznawania gestów Windows
- 13. Przerób obrazu do rozpoznawania tekstu
- 14. Facebook: Nieprawidłowe oznaczenie na FBML
- 15. Oznaczenie m2eclipse "docelowy" jako "Pochodny"
- 16. Nie mogę napisać do nazwanego potoku
- 17. Używanie lxml do parsowania nazwanego HTML?
- 18. Limit długości korpusu przekraczał wyjątek
- 19. Proste rozpoznawania obiektów
- 20. BEZPŁATNE narzędzie do oglądania współrzędnych w PDF
- 21. Bezpłatne IDE Flash do edycji plików .fla
- 22. Bezpłatne IDE języka C?
- 23. Bezpłatne wspomnienie z AnimationDrawable
- 24. Bezpłatne API wyszukiwania CUSIP
- 25. Dalej: bezpłatne samouczki wideo?
- 26. Funkcja rozpoznawania nazw (NER) Stanford z NLTK
- 27. Używanie własnego korpusu do klasyfikacji kategorii w Pythonie NLTK
- 28. Rails załadować YAML do mieszania i oznaczenie symbolem
- 29. bezpłatne przetwarzanie OCR API w PHP/jQuery/JavaScript
- 30. git oznaczenie niezmienionych plików jako zmieniony
To samo pytanie zadano na http://opendata.stackexchange.com/q/7250/1652 (gdzie nie jest zamknięte) –