Skrobanie odpowiedzi JSON za pomocą usługi Scrapy

W jaki sposób używasz narzędzia Scrapy do pobierania z sieci żądań zwracających JSON? Na przykład, JSON będzie wyglądać następująco:Skrobanie odpowiedzi JSON za pomocą usługi Scrapy

{ 
    "firstName": "John", 
    "lastName": "Smith", 
    "age": 25, 
    "address": { 
     "streetAddress": "21 2nd Street", 
     "city": "New York", 
     "state": "NY", 
     "postalCode": "10021" 
    }, 
    "phoneNumber": [ 
     { 
      "type": "home", 
      "number": "212 555-1234" 
     }, 
     { 
      "type": "fax", 
      "number": "646 555-4567" 
     } 
    ] 
}

będę patrząc zeskrobać konkretne elementy (np name i fax wyżej) i zapisać do pliku CSV.

Źródło

2013-08-11 Thomas Kingaroy

Jest to to samo, co używanie odpowiedzi Scrapy na HtmlXPathSelector dla odpowiedzi na html. Jedyną różnicą jest to, że należy użyć modułu json do analizowania odpowiedzi:

class MySpider(BaseSpider): 
    ... 


    def parse(self, response): 
     jsonresponse = json.loads(response.body_as_unicode()) 

     item = MyItem() 
     item["firstName"] = jsonresponse["firstName"]    

     return item

nadzieję, że pomoże.

Źródło

2013-08-11 14:05:14 alecxe

Możesz użyć 'json.loads (response.body_as_unicode())' jak ładunki wymaga 'str' lub' unicode' obiektu, a nie odpowiedzią scrapy. –

ludzie, więc teraz przeanalizowałeś odpowiedź jsona. jak podążałbym za każdym linkiem, który jest potencjalnie w jsonie? – Cmag

@Cmag musisz "zwrócić" lub 'wydać' 'Request', zobaczyć więcej informacji [tutaj] (http://doc.scrapy.org/en/latest/topics/request-response.html#passing- dodatkowe funkcje danych do wywołania zwrotnego). – alecxe

Możliwą przyczyną, dla której JSON nie ładuje się, jest to, że zawiera pojedyncze cudzysłowy przed i po. Spróbuj tego:

json.loads(response.body_as_unicode().replace("'", '"'))

Źródło

2015-02-02 12:59:57

Skrobanie odpowiedzi JSON za pomocą usługi Scrapy

Odpowiedz

Powiązane problemy