2011-11-18 17 views
6

Robię projekt w klasyfikacji wiadomości. Zasadniczo system będzie klasyfikował artykuły informacyjne w oparciu o wstępnie zdefiniowany temat (np. Sport, polityka, międzynarodowe). Aby zbudować system, potrzebuję darmowych zestawów danych do szkolenia systemu.Nowości Zestawy danych artykułów

Do tej pory, po kilku godzinach wyszukiwania google i linków z here jedynymi odpowiednimi zestawami danych, jakie mogłem znaleźć, jest this. Choć mam nadzieję, że to wystarczy, myślę, że spróbuję znaleźć więcej.

Zauważ, że zestawy danych chcę:

  1. Zawiera pełne artykuły prasowe, a nie tylko tytuł
  2. jest w języku angielskim
  3. w formacie .txt, a nie XML lub db

Czy ktoś może mi pomóc?

Odpowiedz

0

Możesz go zbudować, możesz napisać skrypt Python/Perl/PHP, w którym uruchamiasz wyszukiwanie, a kiedy znajdziesz odpowiedzi, możesz wyizolować atrybuty za pomocą regex ... Myślę, że to najlepsza opcja. Nie jest to łatwe, ale powinno być zabawne, w końcu możesz udostępnić nam ten zestaw danych.

+1

Tak, próbuję znaleźć zbiór danych, ponieważ będę zajęty projektem, więc staram się ograniczyć rzeczy do zrobienia. Ponadto nie wiem, jak napisać skrypt w Pythonie/Perlu/PHP. – Hearty

1

Czy próbowałeś użyć Reuters21578? Jest to najczęstszy zbiór danych do klasyfikacji tekstu. Jest sformatowany w SGML, ale bardzo łatwo jest parsować i przekształcać do formatu txt.

Powiązane problemy