2015-07-30 19 views
5

Próbuję zeskanować listę zdarzeń z witryny http://www.cityoflondon.gov.uk/events/, Ale kiedy złomowanie go za pomocą import.io jestem w stanie wyodrębnić tylko pierwszą stronę.Jak zeskrobać wiele stron za pomocą Import.io

Jak mogę wyodrębnić wszystkie strony naraz?

+0

Znalazłem ten kurs na [Udemy] (https://www.udemy.com/how-to-extract-data-from-the-web) i naprawdę pomogło mi zrozumieć Import.io , zwłaszcza na wykładzie 3, gdzie wyjaśnia więcej o Crawler. – Huander

Odpowiedz

3

Możesz wyodrębnić dane z tej strony za pomocą robota lub za pomocą wyciągu masowego. Powyższa strona internetowa wykorzystuje bardzo proste formy paginacji:

http://www.cityoflondon.gov.uk/events/Pages/default.aspx  
http://www.cityoflondon.gov.uk/events/Pages/default.aspx?start1=13  
http://www.cityoflondon.gov.uk/events/Pages/default.aspx?start1=49  
http://www.cityoflondon.gov.uk/events/Pages/default.aspx?start1=25  
http://www.cityoflondon.gov.uk/events/Pages/default.aspx?start1=37 

Oto zbiór danych, który stworzyłem dla powyższych adresów URL, które powinno zawierać wszystkie istotne informacje.

319aebad-88ea-4053-a649-2087011ce041

Jeśli masz dalsze pytania o indywidualnej stronie internetowej, prosimy o kontakt [email protected]

Dzięki! Meg

+1

Wow, dziękuję bardzo, że jest idealny. – Huander

+1

Chętnie pomogę! Skontaktuj się z pomocą techniczną, jeśli potrzebujesz czegoś jeszcze w przyszłości. –

Powiązane problemy