C# HTMLAgilityPack HTML na tekst - analiza błędów

Potrzebuję wyodrębnić tekst z pliku HTML przy użyciu C#. Próbuję użyć HTMLAgilityPack, ale widzę niektóre błędy parsowania (znaczniki nie są zamknięte). używam tych dwóch opcji:C# HTMLAgilityPack HTML na tekst - analiza błędów

 htmlDoc.OptionFixNestedTags = true; 
     htmlDoc.OptionAutoCloseOnEnd = true;

Czy istnieje „Napraw wszystkie” opcje typu. Nie dbam o błędy, chcę tylko zawartość lub zamknąć.

Źródło

2010-09-27 tvr

Może to jest obejście ale raz miałem wyodrębnić tekst z HTML użyłem wyrażenia regularnego:

result = Regex.Replace(result, @"<(.|\n)*?>", String.Empty); 
result = Regex.Replace(result, @"^\n*", String.Empty, RegexOptions.Singleline | RegexOptions.IgnoreCase); 
result = Regex.Replace(result, @"\n*$", String.Empty, RegexOptions.Singleline | RegexOptions.IgnoreCase); 
result = result.Replace("\n", " ");

Źródło

2010-09-27 09:42:21 Ichibann

Dzięki! Szukałem więcej rozwiązania HTMLAgilityPack ... – tvr

C# HTMLAgilityPack HTML na tekst - analiza błędów

Odpowiedz

Powiązane problemy