2013-02-22 8 views
6

W jaki sposób można przeanalizować wyeksportowany plik zakładek z przeglądarki Google Chrome i Mozilla Firefox w Javie. Czy są dostępne biblioteki do bezpośredniego przeanalizowania i uzyskania w nich adresów URL.Analizator składni wyeksportowanych zakładek Plik HTML przeglądarki Google Chrome i Mozilla w języku Java

Zalecane są również przykładowe kody do analizowania ich w Javie.

+0

Zakładki są przechowywane jako pliki fizyczne. Czy sprawdziłeś te pliki, czy można je parsować? – user1428716

+0

yeah wyeksportowany plik jest plikiem html i może być analizowany przy użyciu parsera html. Ale potrzebuję odpowiedniej metody pracy, aby przeanalizować zarówno dla Mozilli jak i Google Chrome. Ktokolwiek to zrobił wcześniej, będzie dla mnie bardziej przydatny, ponieważ przeszli przez wszystkie możliwości popełniania błędów. –

+0

jeśli pokażesz mi stronę z przykładem, który pomogę ci napisać parser) Jaki jest główny cel parsowania? –

Odpowiedz

2

Według nowych komentarzy rozwiązaniem byłoby skorzystanie z programu Open Source JSOUP, aby to zrobić. JSOUP akceptuje tylko protokoły HTTP lub HTTPS, więc może chcesz zorganizować eksportowany zakładek HTML na lokalnym serwerze Tomcat jak i uzyskanie DOM nim

http://yourip:<port>/<yourProject>/<bookmark.html>. 

JSOUP jest dość oczywista.

Inne prostsze sposoby:

Chrome i Firefox zakładki są przechowywane jako JSON jak poniżej.

Sposób Java: Proponuję użyć JSON do przeanalizowania tych. Utwórz referencyjny obiekt Java na podstawie poniższej struktury.

lub po prostu korzystać z wiersza poleceń systemu UNIX i zrobić

grep -i "url" <bookmark file path> | cut -d":" -f2 

Jednak jeśli nadal zainteresowany, aby zrobić z Chrome API prosimy odwiedzić: http://developer.chrome.com/extensions/bookmarks.html

{ 
    "checksum": "702d8e600a3d70beccfc78e82ca7caba", 
    "roots": { 
    "bookmark_bar": { 
    "children": [ { 
     "date_added": "12939920104154671", 
     "id": "3", 
     "name": "Development/Tutorials/Git/git-svn - KDE TechBase", 
     "type": "url", 
     "url": "http://techbase.kde.org/Development/Tutorials/Git/git-svn" 
    }, { 
     "date_added": "12939995405838705", 
     "id": "4", 
     "name": "QJson - Usage", 
     "type": "url", 
     "url": "http://qjson.sourceforge.net/usage.html" 
+0

to, co musisz przeszukać, to parsowanie html przy użyciu java.Skorzystaj z opcji zakładek eksportu dostępnej w przeglądarce internetowej, aby uzyskać przykładowy plik html zakładki. –

+0

@lijojohn - Edytuję odpowiedź, aby spełnić Twoje wymagania. – user1428716

7

W większości przypadków nie robić naprawdę trzeba przeanalizować plik HTML. Chrome przechowuje zakładki w pliku JSON. Dużo łatwiej jest po prostu odczytać ten plik przy użyciu parsera JSON.

Plik jesteś zainteresowany znajduje się (na Linux, tak, dla innych wokół Google O/S):

/home/your_name/.config/google-chrome/Default/Bookmarks 

JSON parsowania jest łatwe. Google dookoła lub zacznij z How to parse JSON in Java.

Jeśli chcesz wizualizować dane JSON, zanim zaczniesz je przeszukiwać, to spójrz na http://chris.photobooks.com/json/default.htm.

+3

Dziękuję, to jest przydatne. W przypadku systemu Windows 7 jest to C: \ Users \ twoja_nazwa \ AppData \ Local \ Google \ Chrome \ User Data \ Default –

Powiązane problemy