Próbuję pobrać zawartość tabeli z wepage. Potrzebuję zawartości, ale nie tagów <tr></tr>
. Nie potrzebuję nawet "tr" lub "td" tylko treści. dla npUsuwanie znaczników html w sed lub podobnych
<td> I want only this </td>
<tr> and also this </tr>
<TABLE> only texts/numbers in between tags and not the tags. </TABLE>
też chciałbym postawić pierwsze wyjście kolumny jak to w nowym pliku csv kolumna1, Info1, Info2, info3 coumn2, Info1, Info2, info3
Próbowałem sed do usuniętych wzorców <tr>
<td>
, ale kiedy pobieram tabelę, są jeszcze inne znaczniki, takie jak <color>
<span>
itd. więc chcę usunąć wszystkie znaczniki; w skrócie wszystko dzięki < i>.
Jaka jest regularność treści? Możesz użyć ['lynx'] (http://lynx.browser.org/), aby pobrać stronę i przekonwertować ją na tekst, a następnie przeanalizować zwykły tekst. Trudno powiedzieć bez większej szczegółowości, skrobanie ekranu jest zwykle wyborem pomiędzy różnymi brzydkimi atakami. –
OK rozwiązało pierwszy problem ** sed -e 's/<.*> // g' input **. i do powyższego komentarza przeszukałem strony i zdrapałem tylko część stołu. więc plik zawiera tylko czyste znaczniki tabel i dane. coś w stylu rutyny czasu egzaminu. – user913492