Potrzebuję pobrać niektóre treści ze strony HTML (XHTML valid). Chwytam stronę za pomocą curl i zapisuję ją w pamięci.Analizowanie html przy użyciu C
Grałem z ideą używania wyrażenia regularnego z biblioteką PCRE, ale po prostu nie mogłem znaleźć żadnych przykładów używając go z C. Potem przeniosłem się na parsery HTML i znowu nie ma dobrego wyboru. Jedyne co mogłem znaleźć to skąpy, udokumentowany moduł dla libxml o nazwie HTMLparser.
Czy są jakieś alternatywy? Jeśli nie, to przykłady na to, co już znalazłem?
obowiązkowe link ostrzegając przed parsowania HTML z wyrażeń regularnych: http://stackoverflow.com/questions/1732348/regex-match-open-tags-except-xhtml-self-contained-tags/1732454 # 1732454 – moopet
Zobacz poniższy link Napisałem całe rozwiązanie, używając biblioteki biblioteki libxml2 dla platformy Windows. http://stackoverflow.com/questions/5465965/how-can-libxml2-be-used-to-parse-data-from-xml/38826052#38826052 –