Następujący kodBłąd Java? Po co dodatkowy bajt zerowy w kodowaniu utf8?
public class CharsetProblem {
public static void main(String[] args) {
//String str = "aaaaaaaaa";
String str = "aaaaaaaaaa";
Charset cs1 = Charset.forName("ASCII");
Charset cs2 = Charset.forName("utf8");
System.out.println(toHex(cs1.encode(str).array()));
System.out.println(toHex(cs2.encode(str).array()));
}
public static String toHex(byte[] outputBytes) {
StringBuilder builder = new StringBuilder();
for(int i=0; i<outputBytes.length; ++i) {
builder.append(String.format("%02x", outputBytes[i]));
}
return builder.toString();
}
}
powraca
61616161616161616161
6161616161616161616100
tj utf8 kodowania powraca nadmiar bajtu. Jeśli zajmiemy mniej a-s, to nie będziemy mieli nadmiarowych bajtów. Jeśli przyjmiemy więcej a-s, możemy uzyskać więcej i więcej bajtów nadmiarowych.
Dlaczego?
Jak można to obejść?