2011-06-28 32 views
7

Przeszukujemy program, który pozwala nam przekonwertować dokument lub dokument docx na plik txt. Pracujemy z linuxem i chcemy uruchomić stronę internetową, która konwertuje pliki doc przesłane przez użytkownika. Nie chcemy korzystać z open office/libre office, ponieważ mamy z tym złe doświadczenia. Pandoc nie może obsługiwać plików doc:/Konwersja dokumentu do txt za pomocą linii poleceń

Ktoś ma pomysł?

Odpowiedz

1

tutaj jest perl project, który twierdzi, że to robi. Zrobiłem wiele tego również ręcznie, używając XSLT na document.xml. sam plik Docx jest po prostu plikiem zip, możesz go rozpakować i sprawdzić elementy. Powiem, że nie jest to trudne do zrobienia dla konkretnych plików, ale jest bardzo trudne do zrobienia w ogólnym przypadku, z powodu braku dokumentacji dotyczącej tego, jak Word wewnętrznie przechowuje rzeczy i wariancji wewnętrznej reprezentacji.

3

Będziesz musiał użyć dwóch różnych narzędzi wiersza polecenia, w zależności, czy używasz formatu .doc lub .docx.

Dla .doc użytku catdoc:

catdoc foo.doc > foo.txt 

Dla .docx użytku docx2txt:

docx2txt foo.docx 

Ten ostatni będzie produkować plik o nazwie foo.txt w tym samym katalogu, co oryginał.

Nie jestem pewien, której dystrybucji Linuksa używasz, ale zarówno catdoc, jak i docx2txt są dostępne na przykład z repozytoriów Ubuntu.

Powiązane problemy