Dostęp do publicznego zestawu danych publicznego publicznego przeszukiwania AWS

Potrzebuję przeglądać i pobierać podzestaw publicznego zestawu danych wspólnego przeszukiwania. This strona wspomina, gdzie dane są hostowane.
Jak mogę przeglądać i ewentualnie pobierać wspólne dane indeksowania przechowywane na s3: // aws-publicdatasets/common-crawl/crawl-002 /?Dostęp do publicznego zestawu danych publicznego publicznego przeszukiwania AWS

Źródło

2013-05-20 gibraltar

tylko jako aktualizacja, pobieranie Corpus Common Crawl zawsze był wolny, i można korzystać z protokołu HTTP zamiast S3. S3 umożliwia korzystanie z anonimowych poświadczeń w celu uzyskania dostępu do danych.

Jeśli chcesz pobrać za pośrednictwem protokołu HTTP, dostać jedną z lokalizacji plików, takich jak:

common-kraul/crawl-data/CC-Main-2014-23/segmenty/+1404776400583,60/WARC/CC MAIN-20140707234000-00000-ip-10-180-212-248.ec2.internal.warc.gz

a następnie dodać do niej https://aws-publicdatasets.s3.amazonaws.com/, w wyniku linkiem:

https://aws-publicdatasets.s3.amazonaws.com/common-crawl/crawl-data/CC-MAIN-2014-23/segments/1404776400583.60/warc/CC-MAIN-20140707234000-00000-ip-10-180-212-248.ec2.internal.warc.gz

dostać lista wszystkich takich plików, patrz warc.paths.gz (lub odpowiednik dla W Pliki ET lub WAT) w nowszych przeszukiwaniach lub listy plików przy użyciu anonimowych danych uwierzytelniających za pomocą narzędzia s3cmd lub podobnego narzędzia.

Ten link będzie działał i umożliwi Ci pobranie danych bez przechodzenia przez S3.

Źródło

2014-08-13 23:44:29 Smerity

Aby uzyskać dostęp do danych Common pełzać, trzeba uruchomić mapę-zredukować pracę przeciwko niemu, a ponieważ korpus znajduje się na S3, można to zrobić przez działa klaster Hadoop, korzystając z usługi Amazon EC2. Wiąże się to z ustawieniem niestandardowego słoju na kubek do gry, który wykorzystuje naszą niestandardową klasę InputFormat do pobierania danych z poszczególnych plików ARC z naszego zasobnika S3.

Źródło: http://commoncrawl.org/the-data/

Rozpoczęcie: http://commoncrawl.org/the-data/get-started/

Źródło

2013-05-20 15:33:54

.... a to wyrzuca tę "wolną" etykietę. –

Ogólny dostęp do danych do wspólnego Crawl indeksuje omówiono w: http://blog.commoncrawl.org/2015/05/april-2015-crawl-archive-available/

Co uważam za użyteczne droga o uzyskanie niektórych danych próbnych, to za pomocą nowego indeksu nad archiwum: http://index.commoncrawl.org/CC-MAIN-2015-18

Jeśli zapytasz na przykład o "www.cwi.nl", znajdziesz struktury JSON dotyczące segmentów, które zawierają pliki z tej domeny.

{ 
"urlkey": "nl,cwi)/", "timestamp": "20150505031358", 
"status": "200", "url": "http://www.cwi.nl/", 
"filename": "common-crawl/crawl-data/CC-MAIN-2015-18/segments/1430455222810.45/warc/CC-MAIN-20150501044022-00044-ip-10-235-10-82.ec2.internal.warc.gz", 
"length": "5881", "mime": "text/html", "offset": "364108412", 
"digest": "DLQQ4NMJMRRZFGXSXGSFPRO3YJBKVHN5" 
}

Prefiks info s3 do niego, można pobrać plik danych, które można wykorzystać jako dane przykładowe: https://aws-publicdatasets.s3.amazonaws.com/common-crawl/crawl-data/CC-MAIN-2015-18/segments/1430455222810.45/warc/CC-MAIN-20150501044022-00044-ip-10-235-10-82.ec2.internal.warc.gz

zabawy!

Źródło

2015-06-16 09:59:00

Dostęp do publicznego zestawu danych publicznego publicznego przeszukiwania AWS

Odpowiedz

Powiązane problemy