2009-08-20 8 views
6

Właśnie dostałem w swoje ręce Stackoverflow data dump i jestem rozczarowany widząc, że pole Ciała postów jest w HTML zamiast w Markdown. Podejrzewam, że w oryginalnej bazie danych jest Markdown, ponieważ widzę to, gdy próbuję edytować odpowiedź.Jaki jest najprostszy sposób na konwersję zrzutu danych SO z HTML z powrotem na Markdown?

Chcę odzyskać Markdown z dużego zestawu odpowiedzi. Będę przetwarzał setki wpisów w trybie wsadowym, używając albo narzędzi wiersza poleceń albo jakiejś biblioteki Lua lub C, więc interaktywne narzędzie, takie jak wmd Markdown editor, nie jest odpowiednie. Czy ludzie mogą powiedzieć, jakie narzędzia są dostępne, aby pomóc mi odzyskać Markdown ze zrzutu danych Stackoverflow?


(Podobne pytania nie duplikat. Convert HTML back to Markdown within wmd)

Odpowiedz

5

Markdownify konwertuje HTML do Markdown.

Zobacz także: MetaSO/Can Markdown be recovered from the SO data dump?

+0

Norman powinni wiedzieć, poprosił też na to pytanie! :) –

+0

Jeśli chodzi o używanie PHP z linii poleceń, jestem troglodytą. Nie mogę wydawać się z instrukcji, jeśli istnieje funkcja biblioteki do odczytu całej zawartości pliku. Czy dio_read (STDIN) znajduje się na właściwej ścieżce? –

+0

Jeśli chcesz przeczytać zawartość pliku, istnieje wiele sposobów - prosta funkcja, która to robi 'file_get_contents();' – Sampson

Powiązane problemy