2010-10-22 12 views
5

Szukam prostej, lekkiej biblioteki Java, która analizuje HTML. Dużo się rozglądałem i jest wiele opcji. Ale nie mogę znaleźć czegoś prostego. Naprawdę chciałbym mieć coś jak pyquery w Pythonie, z wyjątkiem java. Moje wymagania są: szybkie, łatwe w użyciu i lekkie.jquery like lib in java

Do czego jest potrzebna? Nie jestem pewien, czy to ma znaczenie, ale muszę indeksować części dokumentów html. Mam nadzieję, że będę mógł szybko wybrać część tego dokumentu, a następnie przeanalizować go.

Odpowiedz

6

Użyłem HTMLParser w przeszłości. Nie byłem z tego bardzo zadowolony. Znalazłem tagsoup i jsoup. Naprawdę lubię jsoup. Nie używał go jeszcze obszernie, ale można zrobić coś takiego:

Elements resultLinks = doc.select("h3 > a"); // direct a after h3 
+0

Po użyciu jsoup Myślę, że to dokładnie to, czego szukałem.Nie rozumiem, dlaczego po tak wielu googling, nie został znaleziony, ale ma prawie każdą cechę, której potrzebuję. –

2

spróbuj groovy. Ma wiele "slurperów", które są DSL-ami do czytania w znacznikach takich jak XML i HTML, a także JSON. here na przykład.

+0

dlaczego to się głosowanie w dół? – Ben

+3

i jest dość kiepski głosować, nie komentując, dlaczego – Ben

+0

Groovy jest językiem, który działa na JVM i zasadniczo BARDZO łatwe do włączenia do projektu. Nie widzę powodu, dla którego zostałby odrzucony. –

0

Jeśli chcesz bibliotekę jQuery, jak sugeruje tytuł twojego pytania, powinieneś rzucić okiem na GWT.

GWT umożliwi ci poznanie DOM twojej strony. Spróbuj samouczek i 30 minut będziesz mieć pewność, jeśli chcesz wiedzieć więcej, czy nie ...

+0

To wydaje się naprawdę ciężkie dla samego parsowania tekstu :( –

1

Zastosowanie tagsoup znormalizować HTML do XHTML i XOM do analizowania wynikowy dokument. To nie jest takie trudne.

XPath da Ci łatwy wybór podobny do selektorów CSS.

+1

znalazłem jsoup na http://jsoup.org/ jest to podobne do tego, czym jest tagsoup? –

+0

Wygląda podobnie. Tagsoup ma bibliotekę Java, którą możesz pobrać również, ale nie daje żadnych parsujących lub znalezienie umiejętności, po prostu produkuje dobre xml, które można analizować –