2011-11-22 11 views

Odpowiedz

4

powiedziałbym masz dwie opcje, zarówno zasilany przez Apache POI

One jest użycie Apache Tika. Tika to zestaw narzędzi do wyodrębniania tekstu i metadanych i jest w stanie wyodrębnić dość bogaty tekst z dokumentów programu Word, wykonując odpowiednie połączenia z UM. Powoduje to, że Tika da ci XML w stylu XHTML dla zawartości twojego dokumentu Word.

Inną opcją jest użycie klasy, która została dodana całkiem niedawno do UM, czyli WordToHtmlConverter. To zmieni twój dokument Word w HTML dla Ciebie i ogólnie zachowa nieco więcej struktury i formatowania niż Tika.

W zależności od rodzaju XML, który chcesz wydobyć, jeden z nich powinien być dobrym wyborem. Proponuję wypróbować oba z niektórymi przykładowymi plikami i sprawdzić, który z nich najlepiej pasuje do domeny i potrzeb twojego problemu.

+0

WordToHtmlConverter, którego plik jar znajduje się w tej klasie. Myślę, że jest on nadal we wczesnych etapach rozwoju i nie został wydany jako plik Jar? – user2434

+0

Jest w pliku słoju Skórki. Będziesz chciał pobrać najnowszą wersję beta 3,8 Beta 4 i użyć głównego jarda POI + słoju ze scratchpad. – Gagravarr

5

Celem podprojektu HWPF jest dokładnie to: przetwarzanie plików Word.

http://poi.apache.org/hwpf/index.html

Następnie do konwersji danych do XML trzeba zbudować XML przez ususal sposoby: Stax JDOM, Xstream ...

Apache oferuje Szybki przewodnik:

http://poi.apache.org/hwpf/quick-guide.html

i ja również wykazały, że:

http://sanjaal.com/java/tag/simple-java-tutorial-to-read-microsoft-document-in-java/

Jeśli chcesz przetwarzać pliki docx, warto spojrzeć na podprojekcie OpenXML4J:

http://poi.apache.org/oxml4j/index.html

Powiązane problemy