Usuwanie znaków spoza UTF-8 z dużego pliku txt

Pracuję nad plikiem tekstowym JSON o pojemności 1 gigabajta, który próbuję analizować przy użyciu języka Java. Jednakże parser zgłasza wyjątek, ponieważ działa na znak „n” generuje ten wyjątek:Usuwanie znaków spoza UTF-8 z dużego pliku txt

Wyjątek Nieprawidłowy UTF-8 Start bajt 0x96

Próbowałem usunąć znak za pomocą sed i perl, ale wydaje się, że nie mogą odczytać postaci, a zatem plik pozostaje niezmieniony. Chciałbym usunąć znak z całego pliku lub zastąpić go innym znakiem lub ciągiem, aby działało przetwarzanie.

Źródło

2012-06-19 user1261046

wierzę plik jest zakodowany w latin1, nie utf8 – Daenyth

Aby dodać, użyj iso-8859-1 jako kodowania do określenia latin1 w java – jontro

Twój plik nie jest zakodowany w UTF-8.

Powinieneś znaleźć kodowanie i użyć tego kodowania do odczytania pliku przy użyciu InputStreamReader. A następnie zapisz go, jeśli to konieczne, w UTF-8 (używając np. OutputStreamWriter).

Jeśli nie znasz kodowania, proponuję przetestować kilka prawdopodobnych kodowań: patrz Charsets.

Źródło

2012-06-19 16:30:09

Działa dobrze teraz. Dzięki – user1261046

Tak nie może być UTF-8 zobaczyć tutaj kilka informacji na temat jak sprawdzić co kodujący to jest: Java : How to determine the correct charset encoding of a stream

z najlepszych odbierania zdaje się wskazywać w kierunku InputStreamReader#getEncoding()

Źródło

2012-06-19 16:31:31

Usuwanie znaków spoza UTF-8 z dużego pliku txt

Odpowiedz

Powiązane problemy