Pracuję nad plikiem tekstowym JSON o pojemności 1 gigabajta, który próbuję analizować przy użyciu języka Java. Jednakże parser zgłasza wyjątek, ponieważ działa na znak „n” generuje ten wyjątek:Usuwanie znaków spoza UTF-8 z dużego pliku txt
Wyjątek Nieprawidłowy UTF-8 Start bajt 0x96
Próbowałem usunąć znak za pomocą sed i perl, ale wydaje się, że nie mogą odczytać postaci, a zatem plik pozostaje niezmieniony. Chciałbym usunąć znak z całego pliku lub zastąpić go innym znakiem lub ciągiem, aby działało przetwarzanie.
wierzę plik jest zakodowany w latin1, nie utf8 – Daenyth
Aby dodać, użyj iso-8859-1 jako kodowania do określenia latin1 w java – jontro