Parsuję wiele witryn. Wszystko działa dobrze, czytam także deklaracje zestawu znaków do konwersji kodowania. Teraz mam problem z http://celleheute.de/sonntagsfuhrung-3/.Preferuj deklarację zestawu znaków w metatagu HTML lub nagłówku HTTP?
Metatag HTML mówi, że treść jest zakodowana jako ISO-8859-2, ale nagłówek HTTP mówi, że jest to kodowanie UTF-8. I rzeczywiście, treść jest kodowana w UTF, więc gdy mój parser spróbuje przekonwertować zawartość na ISO, spowoduje to przerwanie niektórych znaków.
Teraz moje pytanie brzmi, jaką deklarację powinienem wybrać? Czy powinienem zignorować metatagi, kiedy mogę znaleźć deklarację w nagłówku HTTP lub odwrotnie? Co zrobi większość przeglądarek internetowych?