Do układania mamy nasz słynny tekst "Lorem ipsum", aby sprawdzić jak to wygląda.Czy istnieje zestaw plików "Lorem ipsums" do testowania problemów z kodowaniem znaków?
Czego szukam to zbiór plików zawierających Tekst zakodowany przy użyciu kilku różnych kodowań, których mogę używać w moich testach JUnit do testowania niektórych metod, które mają do czynienia z kodowaniem znaków podczas odczytu plików tekstowych.
przykład:O ISO 8859-1
zakodowany testowy plik i test-Windows-1252
zakodowanego pliku. Windows-1252 musiał wywołać różnice w regionie 80 - 9F . Innymi słowy musi zawierać co najmniej jeden znak tego regionu, aby odróżnić go od ISO 8859-1.
Może najlepszy zestaw testowych plików jest to, że gdy test-file dla każdego kodowania zawiera wszystkie jego postacie raz. Ale może nie jestem świadomy czegoś - wszyscy lubimy to kodowanie, prawda? :-)
Czy istnieje taki zestaw plików testowych do kwestii kodowania znaków tam?
+1: Spędziłem sporo czasu na implementacji Dekoder UTF-8. Obsługa wszystkich przypadków narożnych wymaga więcej testów jednostkowych, niż mogłoby się wydawać. – Raedwald
"Tekst zakodowany z kilkoma różnymi kodowaniami": dla dobrego pokrycia potrzebne są również sekwencje bajtów próbek, które zawierają nieprawidłowe bajty. Według strony Wikipedii UTF-8, niewłaściwe obchodzenie się z tymi sprawami wprowadziło luki w zabezpieczeniach niektórych produktów o wysokim profilu. – Raedwald
@Raedwald Oczywiście, o to chodzi. Nie wiedziałem o tym. Moim zdaniem to tylko jeden powód dojrzałego zestawu testów do kodowania problemów. To nie musi być zbiór plików. Może to być również biblioteka udostępniająca dane testowe, które można wykorzystać w testach JUnit. Na przykład może dostarczyć krytyczne/niepoprawne sekwencje bajtów dla wspólnych zestawów znaków i ciągów referencyjnych do porównania po zdekodowaniu sekwencji bajtów próbek. Tylko kilka myśli i zastanawiam się, jak te kodowanie zostało przetestowane we wszystkich bibliotekach ... –