Odpowiedz

12

tylko jako aktualizacja, pobieranie Corpus Common Crawl zawsze był wolny, i można korzystać z protokołu HTTP zamiast S3. S3 umożliwia korzystanie z anonimowych poświadczeń w celu uzyskania dostępu do danych.

Jeśli chcesz pobrać za pośrednictwem protokołu HTTP, dostać jedną z lokalizacji plików, takich jak:

common-kraul/crawl-data/CC-Main-2014-23/segmenty/+1404776400583,60/WARC/CC MAIN-20140707234000-00000-ip-10-180-212-248.ec2.internal.warc.gz

a następnie dodać do niej https://aws-publicdatasets.s3.amazonaws.com/, w wyniku linkiem:

https://aws-publicdatasets.s3.amazonaws.com/common-crawl/crawl-data/CC-MAIN-2014-23/segments/1404776400583.60/warc/CC-MAIN-20140707234000-00000-ip-10-180-212-248.ec2.internal.warc.gz

dostać lista wszystkich takich plików, patrz warc.paths.gz (lub odpowiednik dla W Pliki ET lub WAT) w nowszych przeszukiwaniach lub listy plików przy użyciu anonimowych danych uwierzytelniających za pomocą narzędzia s3cmd lub podobnego narzędzia.

Ten link będzie działał i umożliwi Ci pobranie danych bez przechodzenia przez S3.

0

Aby uzyskać dostęp do danych Common pełzać, trzeba uruchomić mapę-zredukować pracę przeciwko niemu, a ponieważ korpus znajduje się na S3, można to zrobić przez działa klaster Hadoop, korzystając z usługi Amazon EC2. Wiąże się to z ustawieniem niestandardowego słoju na kubek do gry, który wykorzystuje naszą niestandardową klasę InputFormat do pobierania danych z poszczególnych plików ARC z naszego zasobnika S3.

Źródło: http://commoncrawl.org/the-data/

Rozpoczęcie: http://commoncrawl.org/the-data/get-started/

+3

.... a to wyrzuca tę "wolną" etykietę. –

3

Ogólny dostęp do danych do wspólnego Crawl indeksuje omówiono w: http://blog.commoncrawl.org/2015/05/april-2015-crawl-archive-available/

Co uważam za użyteczne droga o uzyskanie niektórych danych próbnych, to za pomocą nowego indeksu nad archiwum: http://index.commoncrawl.org/CC-MAIN-2015-18

Jeśli zapytasz na przykład o "www.cwi.nl", znajdziesz struktury JSON dotyczące segmentów, które zawierają pliki z tej domeny.

{ 
"urlkey": "nl,cwi)/", "timestamp": "20150505031358", 
"status": "200", "url": "http://www.cwi.nl/", 
"filename": "common-crawl/crawl-data/CC-MAIN-2015-18/segments/1430455222810.45/warc/CC-MAIN-20150501044022-00044-ip-10-235-10-82.ec2.internal.warc.gz", 
"length": "5881", "mime": "text/html", "offset": "364108412", 
"digest": "DLQQ4NMJMRRZFGXSXGSFPRO3YJBKVHN5" 
} 

Prefiks info s3 do niego, można pobrać plik danych, które można wykorzystać jako dane przykładowe: https://aws-publicdatasets.s3.amazonaws.com/common-crawl/crawl-data/CC-MAIN-2015-18/segments/1430455222810.45/warc/CC-MAIN-20150501044022-00044-ip-10-235-10-82.ec2.internal.warc.gz

zabawy!

Powiązane problemy