2012-01-21 17 views
20

Czy w dowolnym miejscu mogę pobrać Treebank z angielskich wyrażeń za darmo lub mniej niż 100 USD? Potrzebuję danych treningowych zawierających pęczek zdań syntaktycznych (> 1000) w języku angielskim w dowolnym formacie. Zasadniczo potrzebuję tylko słów w tym zdaniu rozpoznawanych przez część mowy.Czy istnieje Treebank za darmo?

+1

Czy w NLTK nie ma dużego podzbioru banku drzew Penn? –

+6

@ on-hold: w rzeczywistości jest to bardzo przydatne pytanie, a odpowiedzi są również bardzo przydatne, ponieważ są to stosunkowo rzadkie zasoby. Pamiętaj, to nie jest pytanie "jest lepsze od B", ale "lista wszystkich zasobów typu X pod warunkiem Y". – rec

+1

To niedorzeczne, że LDC pobiera opłaty za zestawy danych ... W każdym razie zobacz https://en.wikipedia.org/wiki/Treebank#Syntactic_treebanks –

Odpowiedz

15

NLTK (dla Python) oferuje kilka treebanks for free.

+0

Dzięki, +1. Nie znam Pythona, więc radzę, proszę, jak mogę przeanalizować pliki * .pickle? Czy każdy konwerter jest bardziej przyjazny dla użytkownika, taki jak XML lub zwykły tekst? – YMC

+2

Jaki plik pikla? The Treebanks są w formacie tekstowym. Np. Http://nltk.googlecode.com/svn/trunk/nltk_data/packages/corpora/treebank.zip. – cyborg

+4

19 języków za darmo tutaj: http://universaldependencies.github.io/docs/ – CpILL

-1

Co powiesz na Penn Treebank? Mam nadzieję, że będzie to bezpłatne lub przynajmniej możliwe. http://www.cis.upenn.edu/~treebank/cdrom2.html

+1

Kosztuje 3150 USD w LDC: http://www.ldc.upenn.edu/Catalog/CatalogEntry.jsp?catalogId=LDC99T42 – YMC

+7

Jest wliczony wraz z wieloma innymi drzewami w OntoNotes 4.0 http://www.ldc.upenn.edu/Catalog/catalogEntry.jsp?catalogId=LDC2011T03, który jest darmowy (choć trzeba zapłacić koszt dystrybucji). –

+0

jak koszt dystrybucji? – CpILL

Powiązane problemy