szukam wyodrębnić nazwy i miejsca z bardzo krótkimi seriami przykład tekstuCzy powinienem używać LingPipe lub NLTK do wyodrębniania nazw i miejsc?
"cardinals vs jays in toronto" " Daniel Nestor and Nenad Zimonjic play Jonas Bjorkman w/ Kevin Ullyett, paris time to be announced" "jenson button - pole position, brawn-mercedes - monaco".
Dane te są obecnie w bazie danych MySQL, a ja (prawie) posiadają oddzielny rekord dla każdego sportowca, choć nazwy czasami są błędnie napisane, itd.
Chciałbym wydobyć sportowców i lokalizacje. Zwykle pracuję w PHP, ale nie byłem w stanie znaleźć biblioteki do ekstrakcji jednostek (i mogę chcieć zagłębić się w niektóre NLP i ML w przyszłości).
Z tego, co odkryłem, najbardziej polecane są LingPipe i NLTK, ale nie wiem, czy tak naprawdę będzie to odpowiadało mojemu celowi, czy też coś innego będzie lepsze.
Nie programowałem ani w Javie, ani w Pythonie, więc zanim zacznę uczyć się nowych języków, mam nadzieję uzyskać porady dotyczące trasy, którą mam podążać lub innych zaleceń.
"... osobny stolik dla każdego sportowca ..." może masz na myśli _record_ dla każdego sportowca? (to byłoby strasznie dużo stołów inaczej ...) – mjv
tak! języki/moduły byłyby najmniejszym z moich problemów, gdybym miał osobny stół dla każdego sportowca! Dziękuję za wskazanie tego. – pedalpete