Pracuję nad małym projektem, aby przeanalizować zawartość niektórych stron, które uważam za interesujące; jest to prawdziwy projekt DIY, który robię dla mojej rozrywki/oświecenia, więc chciałbym napisać jak najwięcej na mój własny, jak to możliwe.Jak zaprojektować robota indeksującego?
Oczywiście będę potrzebować danych do podania mojej aplikacji, i pomyślałem, że napiszę małego robota, który zajmie może 20k stron HTML i zapisze je w plikach tekstowych na moim dysku twardym. Jednak gdy przyjrzałem się SO i innym stronom, nie mogłem znaleźć żadnych informacji, jak to zrobić. Czy to możliwe? Wygląda na to, że są dostępne opcje open-source (webpshinx?), Ale chciałbym napisać to sam, jeśli to możliwe.
Schemat jest jedynym dobrze znanym językiem, ale pomyślałem, że skorzystam z tego projektu, aby nauczyć się trochę Java, więc byłbym zainteresowany, gdyby istniały jakiekolwiek biblioteki rakietowe lub Java, które byłyby pomocne w tym .
Więc myślę podsumować moje pytanie, jakie są dobre zasoby, aby zacząć na ten temat? Jak mogę poprosić mojego robota do zażądania informacji z innych serwerów? Czy będę musiał napisać do tego prosty parser, czy jest to niepotrzebne, biorąc pod uwagę, że chcę wziąć cały plik HTML i zapisać go jako txt?
nie trzeba parser jeśli nie zamierzamy analizować, ale parsowanie stałaby wyciągnięciu linki znacznie łatwiejsze. Nie wiesz, gdzie masz problemy; dostępnych jest wiele przykładów - co do tej pory otrzymałeś? –
Czy zamierzasz samemu wykonać wszystkie gniazda i wypowiadać surowe HTTP na serwerach? Czy jesteś zadowolony z używania narzędzi wyższego poziomu do żądania określonych adresów URL? (Czy jesteś bardziej zainteresowany stroną sieciową lub stroną do analizy HTML?) – sarnold
Dave, czy mógłbyś wskazać przykład? Byłoby to bardzo pomocne. Sarnold, nigdy tak naprawdę nie robiłem programowania sieciowego - tylko niektóre rzeczy z modułem web-server/insta w rakiecie, który pobiera żądanie i wysyła odpowiedź. Nie jestem nawet pewien, jak napisać program, który sam wysyła odpowiedź. –