2012-07-09 19 views
5

Powiel możliwe:
What is the best free way to clean up Word HTML?
PHP to clean-up pasted Microsoft inputUsuń MS Word "HTML" PHP

ja umożliwić klientom wprowadzić notatki w bogatym edytorze tekstu, a dopiero niedawno zmodernizowane do ckEditor 3x, który domyślnie usuwa klasy słów MS, style i komentarze (kiedy użytkownicy wklejają się do obiektu edytora). Więc idę naprzód, jestem już gotowy.

Niedawno miałem potrzebę czyszczenia 5 lat wartości notatek, z których niektóre mają wbudowane HTML generowane przez słowo MS. Muszę przejrzeć tę treść tekstu i wyczyścić ją.

Nie trzeba rozdzielać wszystkich znaczników zakresu, tylko te zidentyfikowane jako napisane przez firmę Microsoft.

Próbowałem już używać narzędzia HTMLCleaner, ale nie usuwa ono wygenerowanego przez MS kodu HTML. http://word2cleanhtml.com robi dokładnie to, czego chcę, ale deweloperzy obecnie nie oferują interfejsu API do użytku publicznego (stan na 9 lipca 2012 r.).

Od tak dawna szukam takiej klasy i nie mam dużo szczęścia. Czy któryś z was znalazł przydatną klasę, którą chciałbyś udostępnić?

+0

Do wyjaśnienia potrzebuję klasy serwerowej, którą mogę umieścić w mojej istniejącej aplikacji. Jest kilka WIELKICH narzędzi w odpowiedziach na pytania/odpowiedzi od marionetki SO, ale stwierdzam, że są one w większości przeznaczone do konwersji jednorazowych - lub używają curl do publikowania na swojej stronie internetowej. Nie można tego zrobić z PHI. –

+0

Mario, gdzie masz adresy URL? Były użyteczne i stanowiły część mojego uzasadnienia zamknięcia. Powinny być użyteczne dla OP, aby wykonać czyszczenie HTML również za pomocą skryptu retrospektywnego. – halfer

+0

Mam nadzieję, że to pytanie pozostanie dostępne, ponieważ odpowiedź maxhud poniżej odnosi się do mojego pytania do T. htmlpurifier to klasa, a nie strona internetowa, którą użytkownicy przeglądają i przesyłają. –

Odpowiedz

Powiązane problemy