2011-12-12 11 views

Odpowiedz

9

Wypróbuj crawler4j. Wystarczy zaimplementować prosty interfejs, który kontroluje, które adresy URL odwiedzić i co zrobić z każdą zindeksowaną stroną.

+0

Mam problemy z indeksowaniem stron HTTPS przy użyciu tego robota ("witryna nie odpowiada ", gdy otwiera się dobrze w przeglądarce itp.) – ed22

5

w języku Java Myślę, że sprowadza się do Nutch vs Heritrix. Powinieneś określić, jakie są twoje potrzeby, aby uzyskać lepszą odpowiedź.

Powiązane problemy