Czy można analizować MS Word za pomocą Apache POI i przekonwertować go na XML?

Czy można przekonwertować plik MS Word na XML za pomocą Apache POI?Czy można analizować MS Word za pomocą Apache POI i przekonwertować go na XML?

Jeśli tak, czy możesz wskazać mi jakieś tutoriale?

Źródło

2011-11-22 user2434

powiedziałbym masz dwie opcje, zarówno zasilany przez Apache POI

One jest użycie Apache Tika. Tika to zestaw narzędzi do wyodrębniania tekstu i metadanych i jest w stanie wyodrębnić dość bogaty tekst z dokumentów programu Word, wykonując odpowiednie połączenia z UM. Powoduje to, że Tika da ci XML w stylu XHTML dla zawartości twojego dokumentu Word.

Inną opcją jest użycie klasy, która została dodana całkiem niedawno do UM, czyli WordToHtmlConverter. To zmieni twój dokument Word w HTML dla Ciebie i ogólnie zachowa nieco więcej struktury i formatowania niż Tika.

W zależności od rodzaju XML, który chcesz wydobyć, jeden z nich powinien być dobrym wyborem. Proponuję wypróbować oba z niektórymi przykładowymi plikami i sprawdzić, który z nich najlepiej pasuje do domeny i potrzeb twojego problemu.

Źródło

2011-11-22 16:48:22 Gagravarr

WordToHtmlConverter, którego plik jar znajduje się w tej klasie. Myślę, że jest on nadal we wczesnych etapach rozwoju i nie został wydany jako plik Jar? – user2434

Jest w pliku słoju Skórki. Będziesz chciał pobrać najnowszą wersję beta 3,8 Beta 4 i użyć głównego jarda POI + słoju ze scratchpad. – Gagravarr