Czy można przekonwertować plik MS Word na XML za pomocą Apache POI?Czy można analizować MS Word za pomocą Apache POI i przekonwertować go na XML?
Jeśli tak, czy możesz wskazać mi jakieś tutoriale?
Czy można przekonwertować plik MS Word na XML za pomocą Apache POI?Czy można analizować MS Word za pomocą Apache POI i przekonwertować go na XML?
Jeśli tak, czy możesz wskazać mi jakieś tutoriale?
powiedziałbym masz dwie opcje, zarówno zasilany przez Apache POI
One jest użycie Apache Tika. Tika to zestaw narzędzi do wyodrębniania tekstu i metadanych i jest w stanie wyodrębnić dość bogaty tekst z dokumentów programu Word, wykonując odpowiednie połączenia z UM. Powoduje to, że Tika da ci XML w stylu XHTML dla zawartości twojego dokumentu Word.
Inną opcją jest użycie klasy, która została dodana całkiem niedawno do UM, czyli WordToHtmlConverter. To zmieni twój dokument Word w HTML dla Ciebie i ogólnie zachowa nieco więcej struktury i formatowania niż Tika.
W zależności od rodzaju XML, który chcesz wydobyć, jeden z nich powinien być dobrym wyborem. Proponuję wypróbować oba z niektórymi przykładowymi plikami i sprawdzić, który z nich najlepiej pasuje do domeny i potrzeb twojego problemu.
Celem podprojektu HWPF jest dokładnie to: przetwarzanie plików Word.
http://poi.apache.org/hwpf/index.html
Następnie do konwersji danych do XML trzeba zbudować XML przez ususal sposoby: Stax JDOM, Xstream ...
Apache oferuje Szybki przewodnik:
http://poi.apache.org/hwpf/quick-guide.html
i ja również wykazały, że:
http://sanjaal.com/java/tag/simple-java-tutorial-to-read-microsoft-document-in-java/
Jeśli chcesz przetwarzać pliki docx, warto spojrzeć na podprojekcie OpenXML4J:
WordToHtmlConverter, którego plik jar znajduje się w tej klasie. Myślę, że jest on nadal we wczesnych etapach rozwoju i nie został wydany jako plik Jar? – user2434
Jest w pliku słoju Skórki. Będziesz chciał pobrać najnowszą wersję beta 3,8 Beta 4 i użyć głównego jarda POI + słoju ze scratchpad. – Gagravarr