Parse Web Site HTML z JAVA

Chcę przetworzyć prostą stronę internetową i zeskrobać informacje z tej strony.Parse Web Site HTML z JAVA

Użyłem do parsowania plików XML z DocumentBuilderFactory, próbowałem zrobić to samo dla pliku html, ale zawsze dostaję się w nieskończoną pętlę.

URL url = new URL("http://www.deneme.com"); 
    URLConnection uc = url.openConnection(); 

    InputStreamReader input = new InputStreamReader(uc.getInputStream()); 
    BufferedReader in = new BufferedReader(input); 
    String inputLine; 

    FileWriter outFile = new FileWriter("orhancan"); 
    PrintWriter out = new PrintWriter(outFile); 

    while ((inputLine = in.readLine()) != null) { 
     out.println(inputLine); 
    } 

    in.close(); 
    out.close(); 

    File fXmlFile = new File("orhancan"); 
    DocumentBuilderFactory dbFactory = DocumentBuilderFactory.newInstance(); 
    DocumentBuilder dBuilder = dbFactory.newDocumentBuilder(); 
    Document doc = dBuilder.parse(fXmlFile); 


    NodeList prelist = doc.getElementsByTagName("body"); 
    System.out.println(prelist.getLength());

Co to za problem? Czy istnieje jakiś łatwiejszy sposób na zeskanowanie danych ze strony internetowej dla danego znacznika HTML?

Źródło

2012-01-30 CanCeylan

Po pierwsze możesz użyć ciągu zamiast pliku. Gdzie wchodzi w nieskończoną pętlę? Być może ze względu na strumień wejściowy z adresu URL, który wydaje się nie mieć końca, masz ten problem. –

Jest o wiele łatwiejszy sposób na zrobienie tego. Proponuję użyć JSoup. Z JSoup można robić takie rzeczy jak

Document doc = Jsoup.connect("http://en.wikipedia.org/").get(); 
Elements newsHeadlines = doc.select("#mp-itn b a");

Albo jeśli chcesz ciała:

Elements body = doc.select("body");

Lub jeśli chcesz, aby wszystkie linki:

Elements links = doc.select("body a");

nie jest już potrzebna, aby uzyskać połączenia lub obsługiwać strumienie. Prosty. Jeśli kiedykolwiek korzystałeś z jQuery, to jest bardzo podobne do tego.

Źródło

2012-01-30 22:14:14

Po pierwsze, dziękuję! Ale czym jest # mp-itn b a? – CanCeylan

# mp-itn to tylko kontener z 'id =" mp-itn "' –

Zobacz moją edycję. Zrozumienie, w jaki sposób działają selektory css, naprawdę by Ci pomogło. –

HTML nie zawsze jest prawidłowym, dobrze sformatowanym XML. Wypróbuj specjalny analizator składni HTML zamiast analizatora składni XML. Istnieje kilka różnych nich dostępne:

http://java-source.net/open-source/html-parsers

Źródło

2012-01-30 22:16:33 Jan

Zdecydowanie JSoup jest odpowiedzią. ;-)

Źródło

2013-05-08 13:31:07

Parse Web Site HTML z JAVA

Odpowiedz

Powiązane problemy