Chcę tylko zawartość tekstową strony i chcę, aby pobieranie było tak lekkie, jak to tylko możliwe. Czy mogę wyłączyć parsowanie i dodatkowe ładowanie JavaScript, CSS i innych zewnętrznych treści, które HTMLUnit robi z pudełka?Jak uzyskać czysty kod HTML strony w HTMLUnit, ignorując JavaScript i CSS?
5
A
Odpowiedz
9
myślę najbliższa rzecz do czego szukasz:
WebClient webClient = new WebClient();
webClient.setCssEnabled(false);
webClient.setAppletEnabled(false);
webClient.setJavaScriptEnabled(false);
Dla HtmlUnit 2,13 i powyżej, należy webclient.getOptions()
.
Również ta question może być przydatna. To naprawdę dla mnie rzeczy szybciej, ale musiałem przekompilować HtmlUnit ...
Wreszcie, w celu uzyskania oryginalną treść strony (zamiast wyjścia asXml()
) spróbuj wykonać następujące czynności:
WebClient webClient = new WebClient();
HtmlPage page = webClient.getPage("http://www.yourpage.com");
String originalHtml = page.getWebResponse().getContentAsString();
Powiązane problemy
- 1. Czysty szablon strony HTML + JavaScript
- 2. HtmlUnit - Konwertowanie strony Html na ciąg HTML?
- 3. Jak uzyskać tytuł strony HTML z JavaScript?
- 4. Czysty klient HTML WebDAV
- 5. Jak uzyskać kod HTML strony internetowej w PHP?
- 6. Jak skopiować zewnętrzny kod CSS i JavaScript w XSLT
- 7. Jak uzyskać źródło HTML ze strony?
- 8. W języku Java i HtmlUnit, jak czekać na zakończenie strony i załadowanie jej jako HTML?
- 9. Dodawanie perspektywy do HTML dla globalnej Parallax - Czysty CSS
- 10. Czy HtmlUnit obsługuje przekierowania JavaScript?
- 11. uzyskać źródło strony internetowej z wytopione html z JavaScript
- 12. kierowca HtmlUnit nie wykonuje JavaScript
- 13. Zintegruj JavaScript w komponentach JSF, czysty sposób.
- 14. Jak uzyskać kod HTML strony ASP.NET MVC 3 w teście QUnit?
- 15. Jak wyrównać formularz na środku strony w html/css
- 16. Jak mogę powiedzieć WebClient HtmlUnit, aby pobrać obrazy i css?
- 17. Nawet podział strony na dwustronne drukowanie w HTML i CSS
- 18. Jak uzyskać kod źródłowy HTML z adresu url w Androidzie?
- 19. Jak można refaktoryzować JavaScript, HTML, CSS, itp?
- 20. Zobacz kod HTML strony internetowej na tabletach
- 21. Jak uzyskać kod HTML węzła DOMElement?
- 22. czysty HTML/CSS, aby utworzyć wskaźnik trójkąt pod klawiszem
- 23. Jak wygenerować czysty plik JavaScript z Jade?
- 24. Jak zatrzymać obciążenie strony w html statycznej strony
- 25. CSS Float powoduje przesuwanie zawartości strony HTML
- 26. Jak sformatować kod w html/css/js/php
- 27. Jak uzyskać zawartość strony zdalnej z JavaScript?
- 28. CSS/HTML: Kod dwukrotnie w dół/w górę wskazując kąt
- 29. Jak uzyskać renderowane html (przetwarzane przez Javascript) w formancie WebBrowser?
- 30. Strona HTML Cykl życia strony
Dziękuję za odpowiedź. Jaka byłaby różnica między 'asXML()' i 'page.getWebResponse(). GetContentAsString()'? – Thomas
'asXML()' sformatuje kod (na przykład doda spacje za każdym razem, gdy otwarty jest znacznik html), podczas gdy 'getContentAsString()' pokaże ci kod html dokładnie tak, jak jest zwracany przez serwer WWW –
Uruchamianie HTMLUnit 2.13, użyj webClient.getOptions(), aby wywołać metody "enable". – Paddy