2012-12-28 13 views
8

Jestem nowy w Pythonie i scrapy. Próbuję śledzić samouczek Scrapy, ale nie rozumiem logiki storage step.Złomowanie: przechowywanie danych

scrapy crawl spidername -o items.json -t json 

scrapy crawl spidername --set FEED_URI=output.csv --set FEED_FORMAT=csv 

dont zrozumieć istotności:

  • -o
  • -t
  • --set

Dziękuję za pomoc

Odpowiedz

22

Można wyświetl listę dostępnych poleceń, wpisując scrapy crawl -h z katalogu projektu.

scrapy crawl spidername -o items.json -t json 
  • -o określa nazwę pliku wyjściowego dla elementów dumpingowych (items.json)
  • -t określa format przedmioty dumping (JSON)

scrapy crawl spidername --set FEED_URI=output.csv --set FEED_FORMAT=csv

  • --set jest służy do ustawiania/zastępowania ustawienia
  • FEED_URI służy do ustawiania mechanizmu przechowywania dla wysypywania przedmiotów. W tym przypadku jest ustawiony na "output.csv", który używa lokalnego systemu plików, tj. Prosty plik wyjściowy. (Dla bieżącego przykładu - output.csv)
  • FEED_FORMAT służy do ustawienia formatu serializacji dla (wyjściowego) kanału to jest (na przykład prąd CSV)

Odniesienia (dokumentacja Scrapy)

  1. Available tool commands (for the command line)
  2. Feed exports
+0

Więc dwie linie są równoważne, jeśli jako pierwsza zmienię "item.json' na' output.csv' i 'json' na" csv "? – Stephen

+2

To prawda. Możesz też dodać FEED_URI i FEED_FORMAT do pliku settings.py, a następnie wpisać "scrapy crawl spidername" bez innych parametrów. – Talvalin

+1

Zaakceptuj tę odpowiedź, jeśli dotyczy zadawanych pytań lub daj mi znać, jeśli mogę coś zrobić, aby poprawić odpowiedź. :) – Talvalin

Powiązane problemy