2010-07-25 14 views
9

Poszukuję wolnego oznaczonego korpusu do systemu, w którym można szkolić się do rozpoznawania nazwanego obiektu. Większość znalezisk (takich jak New York Times) jest droga i nie jest otwarta. Czy ktoś może pomóc?Bezpłatne oznaczenie korpusu do rozpoznawania nazwanego obiektu

+0

To samo pytanie zadano na http://opendata.stackexchange.com/q/7250/1652 (gdzie nie jest zamknięte) –

Odpowiedz

1

dbPedia jest otwarte i wolne

dbpedia jest zbudowany z Wikipedii i jest to bardzo duży korpus. Zbuduj indeks Lucene na temat trójek obejmujący rdfs:label na wszystkich dbPedia titles dump.

+2

Jak podaje jedna z pozostałych odpowiedzi, DBpedia nie jest oznakowanym korpusem. –

+0

W 2012 (i dziś) mój komentarz był prawdziwy, ale może się to zmienić w przyszłości. Jeśli interesują Cię zwłoki bazujące na DBpedzie, możesz chcieć wykonać Open Extraction Challenge (http://wiki.dbpedia.org/textext), aby wygenerować wyjście NIF dla DBpedia z tekstu Wikipedii. –

2

Urządzenie Python NLTK ma dostęp do korpusu nltk.corpus.conll2000. Wywołanie conll2000.iob_words() zwraca listę trzyosobowych (słowo, część mowy, IOB), gdzie IOB jest znacznikiem w formacie Inside-encja/Outside-entity/Beginning-of-entity.

Istnieje około 250 000 słów łącznie w kontekście stylu wiadomości.

+0

Czy możemy także zrzucić zestaw danych, aby użyć go w innym narzędziu? takie jak [** Tagger **] (https://github.com/glample/tagger) autorstwa GLample. – user1412066

+0

CONLL2000 nie oznacza nazwanych encji. – alexis

6

Istnieje lista korpusów w http://www.cs.technion.ac.il/~gabr/resources/data/ne_datasets.html

Corpus CoNLL 2003, który znajduje się na tej liście, jest wolny i jest dostępny od http://www.cnts.ua.ac.be/conll2003/ner/ (adnotacji) i NIST (tekst).

+1

Czy musimy postępować zgodnie z procedurą wypełniania formularzy, wysyłając wniosek do NIST o otrzymanie zestawu danych zgodnie z tym [** link **] (http://trec.nist.gov/data/reuters/reuters.html) ? czy jest jakaś alternatywa? – user1412066

Powiązane problemy