Jestem famier z językiem programowania java lubię wyodrębniać dane ze strony internetowej i przechowywać je w mojej bazie danych uruchomionej na moim komputerze. Jest to możliwe w java. Jeśli tak, który interfejs API powinienem użyć. Na przykład liczba szkół wymienionych na stronie internetowej Jak mogę wyodrębnić te dane i zapisać je w mojej bazie danych przy użyciu java.Jak wyodrębnić dane z witryny za pomocą java?
Odpowiedz
To, o czym mówisz, potocznie nazywa się "screencraping". Jest wiele sposobów na zrobienie tego w Javie, jednak wolę HtmlUnit. Chociaż został zaprojektowany jako sposób testowania funkcjonalności sieci, można go użyć do trafienia na zdalną stronę i przeanalizowania go.
Polecam używanie dobrego parsera html obsługującego błędy, takiego jak Tagsoup, aby wyodrębnić z HTML dokładnie to, czego szukasz.
Mogę podać drugą rekomendację dla tagsoup. używam go już od jakiegoś czasu, aby wyodrębnić dane z "rzeczywistych stron świata" (co oznacza, pełen nieprawidłowy html) i działa świetnie – bert
W zależności od tego, co naprawdę chcesz zrobić, możesz użyć wielu różnych rozwiązań.
Jeśli potrzebujesz tylko pobrać kod HTML strony internetowej, to URL.getContent() może być twoim rozwiązaniem. Oto mały poradnik:
http://www.javacoffeebreak.com/books/extracts/javanotesv3/c10/s4.html
EDIT: nie rozumiem, szukał sposobu, aby analizować kod HTML. Niektóre narzędzia zostały zasugerowane powyżej. Przepraszam za to.
Zdecydowanie potrzebujesz dobrego parsera takiego jak NekoHTML.
Oto przykład użycia NekoHTML, aczkolwiek przy użyciu Groovy (język skryptów Java) zamiast samego Java:
http://www.keplarllp.com/blog/2010/01/better-competitive-intelligence-through-scraping-with-groovy
Można użyć VietSpider XML z
http://sourceforge.net/projects/binhgiang/files/
Pobierz VietSpider3_16_XML_Windows.zip lub VietSpider3_16_XML_Linux.zip
Ekstraktor danych sieciowych VietSpider: Oprogramowanie przeszukuje dane ze stron internetowych ((Skrobak danych)), formatuje do standardu XML (Tekst, CDATA), a następnie przechowuje w relacyjnej bazie danych. Produkt obsługuje różne RDBM, takie jak Oracle, MySQL, SQL Server, H2, HSQL, Apache Derby, Postgres ... VietSpider Crawler obsługuje sesję (logowanie, zapytanie za pomocą wprowadzania danych), pobieranie wielu plików, obsługę JavaScript, proxy (i wiele proxy przez automatyczne skanowanie serwerów proxy ze strony internetowej) ...
- 1. Jak mogę wyodrębnić dane EXIF za pomocą PerlMagick?
- 2. Jak wyodrębnić dane z DataTable?
- 3. Jak wysłać dane do witryny za pomocą aplikacji na Androida
- 4. Jak wyodrębnić dane z odpowiedzi SOAP w języku Java?
- 5. Prześlij dane logowania do witryny za pomocą js
- 6. Jak uzyskać dane z formularza za pomocą programu iskra java?
- 7. Jak wyodrębnić słowa za pomocą dopasowywania wzorców?
- 8. Jak wyodrębnić tekst podrzędny za pomocą Nokogiri?
- 9. Jak wyodrębnić dane z działki matplotlib
- 10. Jak wyodrębnić dane z bazy danych 4D?
- 11. Jak wyodrębnić dane z systemu SAP ABAP?
- 12. Skrobanie z witryny aspx za pomocą R
- 13. jak wdrożyć moje witryny za pomocą GITLAB
- 14. Jak obsłużyć aktualizację witryny za pomocą kątów?
- 15. Jak utworzyć mapę witryny za pomocą Sitecore
- 16. Jak wyodrębnić dane z pliku tekstowego za pomocą R lub PowerShell?
- 17. Jak wyodrębnić URL z łańcucha za pomocą python?
- 18. Jak wyodrębnić parametr z odpowiedzi Json za pomocą Groovy?
- 19. Jak wyodrębnić zmienną z XML za pomocą Postmana?
- 20. Jak pobierać obrazy z witryny za pomocą phantomjs
- 21. wyodrębnić dane liczbowe z ciągiem w Groovy
- 22. Jak zalogować się do witryny za pomocą WebClient?
- 23. jak odkodować kody html za pomocą Java?
- 24. Problemy ze skrobaniem witryny za pomocą zombie.js
- 25. Budowanie witryny za pomocą Orchard CMS
- 26. Jak uzyskać adres ethernetowy za pomocą Java?
- 27. Uruchamianie witryny za pomocą wiersza poleceń Windows
- 28. Jak wyodrębnić punkty z wykresu?
- 29. Jak wyodrębnić wiele arkuszy stylów kompozycji za pomocą pakietu internetowego?
- 30. Jak odczytać dane z programu Excel za pomocą z PHPExcel
Duplikaty: http://stackoverflow.com/questions/tagged/screen-scraping+java – Jherico
Miliony dupek! http://stackoverflow.com/questions/26638/what-html-parsing-libraries-do-you-recommend-in-java, http://stackoverflow.com/questions/238036/java-html-parsing, etc, itd., itp. –