Co jakiś czas otrzymuję dokument Word, który muszę wyświetlić jako stronę internetową. Używam obecnie stron internetowych Django, aby to osiągnąć, chwytając zawartość HTML wygenerowaną przez MS Word. Wygenerowany html jest dość brudny. Czy istnieje lepszy sposób na wygenerowanie bardzo prostego html w celu rozwiązania tego problemu za pomocą Pythona?Jak przekonwertować dokument Word na bardzo prosty html w Pythonie?
Odpowiedz
Dobre rozwiązanie polega na przesyłaniu plików do Dokumentów Google i eksportowaniu z niego wersji html. (Musi być api do tego?)
Czyni tak wiele "porządków"; Beautiful Soup wzdłuż drogi można użyć do wprowadzenia dalszych zmian, odpowiednio. Jest to najpotężniejsza i najbardziej elegancka biblioteka parsowania html na świecie.
Jest to znany standard dla firm dziennikarskich.
Zależy od formatowania i obrazów, z którymi masz do czynienia. Robię jeden z paru rzeczy:
- Google Docs: Prawdopodobnie najbliżej dostaniesz się do oryginalnego formatowania i użytkowej HTML.
- Markdown: Formatowanie porzucania. Wklej go do zwykłego edytora tekstu, przeprowadź przez Markdown i napraw resztę ręcznie.
Jak uzyskać kod HTML z Dokumentu Google? Czy jest to opcja Pobierz jako HTML? –
+1: Pliki Word Doc są * bardzo * trudne do pracy. Wiele narzędzi będzie je konwertować, w tym Open Office. Dokumenty Google mają prosty interfejs API, ponieważ jest to usługa internetowa HTTP. –
MS Word -> HTML jest po prostu złem. Kazałem klientowi podać mi 95-stronicowy dokument zawierający setki "miejsc do zobaczenia" i powiedzieć: "Powinno być łatwo wprowadzić to do bazy danych". Arrggghh! Zrobiłem to i naliczyłem mu 100 $/godzinę za przywilej, ale myślę, że niedoładowałem z uwagi na ilość bólu. HTML był najgorszy, z jakim kiedykolwiek miałem do czynienia. –
Można również użyć Abiword/wvWare do konwertowania dokumentu programu Word do XHTML, a następnie analizować je z BeautifulSoup/ElementTree/etc. aby ją przetworzyć, jeśli potrzebujesz. Z mojego doświadczenia wynika, że Abiword wykonuje całkiem dobrą robotę przy konwertowaniu plików Word i tworzeniu stosunkowo czystych plików XHTML.
Powinienem wspomnieć, że Abiword może być uruchamiany z linii poleceń, więc łatwo jest zintegrować go w zautomatyzowanym procesie.
Moja super-prosta aplikacja WordOff ma API do czyszczenia cruft z eksportowanego HTML. Możesz zastąpić metodę zapisu modelu swojej strony, aby przesłać HTML za pośrednictwem interfejsu API po pierwszym zapisaniu. Coś takiego:
import urllib
import urllib2
def decruft(html):
data = urllib.urlencode({'html' : html})
req = urllib2.Request('http://wordoff.org/api/clean', data)
response = urllib2.urlopen(req)
return response.read()
def save(self, **kwargs):
if not self.pk: # only de-cruft when content is first added
self.content = decruft(self.content)
super(FlatPage, self).save(**kwargs)
WordOff jest całkiem fajny w tego rodzaju sprawach. –
Jeśli chcesz używać wordoff lokalnie, możesz pobrać moduł i użyć jego metody "superClean", aby uzyskać ten sam wynik: https://raw.github.com/tomdyson/wordoff/ master/wordoff.py –
Hej Tomd, WordOff.org wygasło już choć – fedmich
Word 2010 ma możliwość "zapisywania jako przefiltrowanej strony internetowej". To wyeliminuje przytłaczającą większość kodu HTML wstawianego przez program Word.
znalazłem stronę internetową: http://www.textfixer.com/html/convert-word-to-html.php
To konwertuje sformatowany tekst prosty znaczników HTML, zachowując pogrubienie, kursywa, linki i akapity, ale nie dodawanie tagów dla font-rozmiary i twarze. Dokładnie to, czego potrzebowałem, aby zaoszczędzić trochę czasu.
To jest niesamowite! Działa dokładnie tak, jakbym tego chciał. – Justin
- 1. Jak przekonwertować dokument docx na HTML przy użyciu php?
- 2. Jak utworzyć dokument programu Word w WinRT
- 3. Jak przekonwertować prosty html na pdf za pomocą wkhtmltopdf?
- 4. Jak przekonwertować html do dokumentu w php
- 5. jak wyczyścić dokument HTML w formacie Microsoft?
- 6. Office HTML Nagłówek Word
- 7. v4l2 bardzo prosty przykład
- 8. Jak przekonwertować plik HTML na słowo?
- 9. Jak przekonwertować hex na dziesiętny w Pythonie?
- 10. Jak przekonwertować cyfry na alfabet w Pythonie?
- 11. Jak przekonwertować ciąg na int w Pythonie?
- 12. Jak przekonwertować HTML na XHTML?
- 13. Jak przekonwertować numeryczne łańcuchy znaków na listę w Pythonie
- 14. Jak przekonwertować HTML na RTF w Perlu?
- 15. Jak zaimplementować bardzo prosty system plików?
- 16. Jak zbudować bardzo prosty przykład Guard?
- 17. Bardzo prosty D3: jak rysować łuk?
- 18. Wykres słupkowy CSS - bardzo prosty
- 19. Jak wyświetlać obrazy w programie Word generowane z HTML?
- 20. Prosty dezynfektor HTML w JavaScript
- 21. Jak przekonwertować plik BibTex na plik XML Word 2010?
- 22. Prosty JavaScript/HTML Slideshow
- 23. prosty program dodatek w Pythonie
- 24. Jak przekonwertować dokument HTML5/CSS3 na format PDF?
- 25. Python odśwież dokument HTML
- 26. Jak przekonwertować dokument .rtf lub .doc na LaTeX?
- 27. Jak wydrukować dokument HTML z usługi internetowej?
- 28. Usuń MS Word "HTML" PHP
- 29. Android - jak przekonwertować html na pdf?
- 30. Jak przekonwertować plik PDF na program Word za pomocą programu Acrobat SDK?
Ale jak dokładnie robisz to z Dokumentów Google? Przesyłam mój dokument MSWord i wybieram opcję konwersji - traci wszystkie diagramy – likejiujitsu