2009-05-06 16 views
14

Mam kilka plików .tex, z których chcę otrzymać zwykły tekst bez żadnych tagów lateksowych, takich jak \ sekcja {...} lub \ newpage.
Czy ktoś ma pojęcie, jak to osiągnąć? Mam również plik .pdf, ale kiedy po prostu skopiuj kod stamtąd, niektóre słowa się łączą, co jest naprawdę złe.
Czy znasz jakieś narzędzie?wyodrębnij tekst z tex, usuń tagi latexowe

Odpowiedz

19

detex(1):

proszę zobaczyć OpenDetex GitHub page do najnowszej wersji OpenDetex. Jest to bardziej nowoczesna, pochodna wersja mojego oryginalnego DeTeXa.

Moje dziedzictwo DeTeX home page jest dostępne here.

Jeśli chcesz tylko starszego źródła detex-2.8.tar, możesz uzyskać je here.

+0

Jesteś mile widziany! –

+4

Działa tylko w plikach tex ASCII. Jeśli używasz plików tex xelatex i UTF-8 z znakami spoza ASCII, detex wypisuje śmieci dla znaków spoza ASCII. – Lucas

+1

Jest open source, zawsze można go naprawić. –

6

opendetex jest dostępny zarówno dla Windows i Linux

ściągnięciu opendetex Program stąd
http://opendetex.googlecode.com/files/opendetex-2.8.1.tar.bz2
http://code.google.com/p/opendetex/downloads/list

Zastosowanie: http://code.google.com/p/opendetex/wiki/Usage

rozpakować go do dowolnego katalogu do wyboru . Powiedz, że wypakowujesz go do katalogu Downloads.

utworzyć inny katalog o dowolnej nazwie (opcjonalnie, ale jest dobry, jeśli u tworzysz). nazwa katalogu to "my_paper". Umieść swój papier w katalogu "my_paper". powiedzieć swoje imię papier jest project.tex

Przejdź przez ścieżkę

cd ~/Downloads/opendetex 

uruchomić polecenie

detex -n my_paper/project.tex > out.txt 

ogólnej formie

detex -n full_path_to_tex_file.tex > output_text_file.txt