Unicode i Javascript: Niepoprawne sekwencje bajtów

Niektóre sekwencje bajtów są najwyraźniej nieprawidłowe w kodowaniu Unicode i wiem, że niektóre języki (Python dla jednego) powodują błąd, gdy tak się dzieje.Unicode i Javascript: Niepoprawne sekwencje bajtów

Moje pytanie brzmi: co dzieje się w JavaScript podczas odbierania takiej sekwencji podczas XMLHttpRequest lub XDomainRequest? Czy wynikowy ciąg:

Zostanie obcięty, gdy tak się stanie?
Pomiń złą sekwencję i zacznij od następnego bajtu?
Kontynuować dekodowanie i wyświetlać tylko zastępczy znak when, gdy jest wyświetlany?

Jeśli 3, to czy funkcja charCodeAt zwraca prawidłowy kod znaku?

Źródło

2012-10-05 F.X.

Numer 3 się dzieje. Wyświetla przy wyświetlaniu, a charCodeAt zwraca 0xFFFD, znak Unicode.

Źródło

2012-10-05 21:09:39 saml

OK, dziękuję, tego właśnie szukałem. Dla przypomnienia, właśnie to potwierdziłem używając [this page] (http://www.cl.cam.ac.uk/~mgk25/ucs/examples/UTF-8-test.txt) i iterując przez 'charCodeAt' wartości. –

Świetne źródło testowania: http://www.cl.cam.ac.uk/~mgk25/ucs/examples/UTF-8-test.txt – saml

Unicode i Javascript: Niepoprawne sekwencje bajtów

Odpowiedz

Powiązane problemy