2010-09-27 11 views
6

Potrzebuję wyodrębnić tekst z pliku HTML przy użyciu C#. Próbuję użyć HTMLAgilityPack, ale widzę niektóre błędy parsowania (znaczniki nie są zamknięte). używam tych dwóch opcji:C# HTMLAgilityPack HTML na tekst - analiza błędów

 htmlDoc.OptionFixNestedTags = true; 
     htmlDoc.OptionAutoCloseOnEnd = true; 

Czy istnieje „Napraw wszystkie” opcje typu. Nie dbam o błędy, chcę tylko zawartość lub zamknąć.

Odpowiedz

4

Może to jest obejście ale raz miałem wyodrębnić tekst z HTML użyłem wyrażenia regularnego:

result = Regex.Replace(result, @"<(.|\n)*?>", String.Empty); 
result = Regex.Replace(result, @"^\n*", String.Empty, RegexOptions.Singleline | RegexOptions.IgnoreCase); 
result = Regex.Replace(result, @"\n*$", String.Empty, RegexOptions.Singleline | RegexOptions.IgnoreCase); 
result = result.Replace("\n", " "); 
+2

Dzięki! Szukałem więcej rozwiązania HTMLAgilityPack ... – tvr