W Pythonie 2.7 mam to:UnicodeDecodeError: 'utf8' kodek nie potrafi dekodować bajt "0xc3"
# -*- coding: utf-8 -*-
from nltk.corpus import abc
with open("abc.txt","w") as f:
f.write(" ".join(i.words()))
I spróbuj czytać tego dokumentu w Pythonie 3:
with open("abc.txt", 'r', encoding='utf-8') as f:
f.read()
aby uzyskać:
File "C:\Python32\lib\codecs.py", line 300, in decode
(result, consumed) = self._buffer_decode(data, self.errors, final)
UnicodeDecodeError: 'utf8' codec can't decode byte 0xc3 in position 633096: invalid continuation byte
Co zrobiłem źle? Notepad ++ wydaje się wskazywać, że dokumentem jest Unicode utf-8. Nawet jeśli próbuję przekonwertować dokument na ten format za pomocą Notepad ++ nadal dostaję ten błąd w pythonie 3, co jest dziwne, ponieważ czytam wiele innych zakodowanych w UTF-8 dokumentów bez żadnych problemów.
Co "od" mówi o postaciach wokół tej pozycji? –