Używam Scrapy do przeszukiwania niektórych stron. Pobieram dane start_urls z arkusza Excela i muszę zapisać URL w elemencie.Jak uzyskać oryginalny start_url w scrapy (przed przekierowaniem)
class abc_Spider(BaseSpider):
name = 'abc'
allowed_domains = ['abc.com']
wb = xlrd.open_workbook(path + '/somefile.xlsx')
wb.sheet_names()
sh = wb.sheet_by_name(u'Sheet1')
first_column = sh.col_values(15)
start_urls = first_column
handle_httpstatus_list = [404]
def parse(self, response):
item = abcspiderItem()
item['url'] = response.url
Problem polega na tym, że adres URL zostaje przekierowany do innego adresu URL (a tym samym daje coś innego w adresie URL odpowiedzi). Jak mogę uzyskać oryginalny adres URL, który otrzymałem od programu Excel?
Próbowałeś 'response.request.url'? – alecxe
@alecxe: tak, spróbował tego również, ponownie dostałem przekierowany adres URL, ten sam URL, który dostałem z response.url –