2012-02-07 11 views
13

Powiel możliwe:
Looking for dataset to test FULLTEXT style searches onGdzie mogę znaleźć ogromną ilość plików tekstowych?

jestem ostatnio na projekt eksploracji danych, dla których muszę 100 GB zwykłego tekstu do testowania ... Jestem zmęczony szukają netto przez cały dzień. Ktoś mi pomoże, podając linki, gdzie mogę pobrać takie pliki tekstowe. Dzięki.

+1

Starasz pobieranie 100GB plik tekstowy. .... – vikky

+0

Tak, ..! Ponad 100 GB w rzeczywistości .. 1 TB to nasz cel ..! – Sri

+0

Pobierz cały plik gutenberg w jednym pliku 7zip: http://www.gutenberg-tar.com/ – JoeRocc

Odpowiedz

8

Jakiego rodzaju tekstu szukasz? Konwersacje, artykuły, książki - czy dobry rozrzut wszystkiego?

Project Gutenberg może być dobry początek: http://www.gutenberg.org/

Wikipedia pozwala także pobrać archiwum artykułów: http://en.wikipedia.org/wiki/Wikipedia:Database_download

+0

Tak ... wszelkiego rodzaju pliki tekstowe są w porządku ... tak ... konwersacyjne, artykuły, filmy dokumentalne, powieści ... itd ...! – Sri

+0

Projekt Gutenberg byłby prawdopodobnie najlepszym rozwiązaniem, dostępnych jest ponad 38 000 bezpłatnych książek. Większość z nich można pobrać jako pliki tekstowe. – Jordan

+0

Czy jest lepszy sposób ... zamiast pobierać każdy plik tekstowy jeden po drugim ... czy mogę uzyskać skompresowany plik o rozmiarze 1 GB? – Sri

3
+1

możesz podać mi konkretny link ..! n Widziałem spakowany plik w formacie xml, który wynosi około 230 GB. Oto link ... http://pl.wikipedia.org/wiki/Wikipedia:Database_download .. przed pobraniem chciałbym się dowiedzieć, co dokładnie w nim jest. Ps: szukamy plików tekstowych, które mają sens tekst ... jak rozmowy, filmy dokumentalne itp.! – Sri

+0

to w rzeczywistości plik zrzutu pliku zrzutu na Wikimedia.and generalnie zawiera artykuł Wikipedii w formacie xml. Możesz to sprawdzić. Myślę, że powinno ci to pomóc. – vikky

Powiązane problemy