2012-09-14 12 views
17

Jestem początkującym w stosunku do systemu Linux. Czy mógłbyś mi pomóc, jak przekonwertować stronę html do pliku tekstowego? plik tekstowy usunie wszelkie obrazy i linki ze strony internetowej. Chcę używać tylko poleceń bash, a nie html do narzędzi konwertujących tekst. Na przykład chcę przekonwertować wyniki wyszukiwania google na pierwszej stronie dla "komputerów".Komenda bash do konwertowania strony html do pliku tekstowego

Dziękuję

+4

[Co próbowałeś] (http://mattgemmell.com/2008/12/ 08/what-have-you-tried /)? – ghoti

+0

Prawdopodobnie nie będziesz w stanie tego zrobić tylko za pomocą "poleceń basha", prawdopodobnie będziesz potrzebował przynajmniej "sed" lub "awk". Nie twierdząc, że nie można tego zrobić za pomocą zwykłych wbudowanych bashów, ale na pewno nie jest to możliwe. – lanzz

Odpowiedz

18

Masz html2text w wierszu poleceń.

Zastosowanie: html2text.py [(filename|url) [encoding]]

Options: 
    --version    show program's version number and exit 
    -h, --help   show this help message and exit 
    --ignore-links  don't include any formatting for links 
    --ignore-images  don't include any formatting for images 
    -g, --google-doc  convert an html-exported Google Document 
    -d, --dash-unordered-list 
         use a dash rather than a star for unordered list items 
    -b BODY_WIDTH, --body-width=BODY_WIDTH 
         number of characters per output line, 0 for no wrap 
    -i LIST_INDENT, --google-list-indent=LIST_INDENT 
         number of pixels Google indents nested lists 
    -s, --hide-strikethrough 
         hide strike-through text. only relevent when -g is 
         specified as well 
3

myślę linki jest najbardziej powszechnym narzędziem do tego celu. Sprawdź linki użytkownika i wyszukaj zwykły tekst lub podobne. -Dump to moje przypuszczenie, szukaj też tego. Oprogramowanie jest dostarczane z większością dystrybucji.

18

Najprostszym sposobem jest użycie czegoś takiego których dump (w skrócie jest wersja tekst widoczny html)

zdalny plik

lynx --dump www.google.com > file.txt 
links -dump www.google.com 

lokalny plik

lynx --dump ./1.html > file.txt 
links -dump ./1.htm 
+0

Właśnie zainstalowałem rysia, aby to zrobić, a wszystko, co dostaję, to oryginalny HTML porzucony ... – Alex

+0

https:// linux.die.net/man/1/lynx To może być błąd, pewny, wiem, że kiedyś działał – Vahid

+0

Czytanie strony komentarza: '-dump: zrzuca sformatowane dane wyjściowe z domyślnego dokumentu' - Rozumiem, że" sformatowany "oznacza, ze wszystkimi tagami html ... – Alex

3

Korzystanie sed

sed -e 's/<[^>]*>//g' foo.html 
+2

Dzięki.to jest naprawdę pomocne. nie zadziałało to jednak, gdy wzorzec <....> jest więcej niż jedną linią. –

+0

Spowoduje to również wyprowadzenie zawartości takich elementów, jak

7

Na OSX można użyć narzędzia wiersza polecenia o nazwie textutil na konwertowanie plików do formatu html txt:

textutil -convert txt *.html 
Powiązane problemy