Problem UTF-8 w pytonie podczas czytania znaków

Używam Pythona 2.5. Co tu się dzieje? Co źle zrozumiałem? Jak mogę to naprawić?Problem UTF-8 w pytonie podczas czytania znaków

in.txt:

Stäckövérfløw

code.py

#!/usr/bin/env python 
# -*- coding: utf-8 -*- 
print """Content-Type: text/plain; charset="UTF-8"\n""" 
f = open('in.txt','r') 
for line in f: 
    print line 
    for i in line: 
     print i, 
f.close()

wyjściowa:

Stäckövérfløw 

S t � � c k � � v � � r f l � � w

Źródło

2009-06-12 jacob

for i in line: 
    print i,

Podczas odczytu pliku, łańcuch można przeczytać w to ciąg bajtów. Pętla for iteruje po jednym bajcie naraz. Powoduje to problemy z zakodowanym łańcuchem UTF-8, gdzie znaki spoza ASCII są reprezentowane przez wiele bajtów. Jeśli chcesz pracować z obiektami Unicode, gdzie znaki są podstawowe elementy, należy użyć

import codecs 
f = codecs.open('in', 'r', 'utf8')

jeśli sys.stdout nie mają już odpowiedni zestaw kodowania, może trzeba go owinąć:

sys.stdout = codecs.getwriter('utf8')(sys.stdout)

Źródło

2009-06-12 07:50:00 Miles

dzięki, na miejscu! – jacob

Parametr 'r' w 'codecs.open' faktycznie oznacza 'rb' (bez '\ n' konwersji) – jfs

to sprawdzić:

# -*- coding: utf-8 -*- 
import pprint 
f = open('unicode.txt','r') 
for line in f: 
    print line 
    pprint.pprint(line) 
    for i in line: 
     print i, 
f.close()

Zwraca to:

StackOverflow
'St \ xc3 \ xa4ck \ xc3 \ xb6v \ xc3 \ xa9rfl \ xc3 \ xb8w'
S t? ? c k? ? v? ? r f l? ? w

Chodzi o to, że plik jest właśnie odczytywany jako ciąg bajtów. Iteracja nad nimi dzieli znaki wielobajtowe na bezsensowne wartości bajtów.

Źródło

2009-06-12 07:42:17 mikl

TAK dla hurtig hjælp! – jacob

Zamiast tego użyj codecs.open, to działa dla mnie.

#!/usr/bin/env python 
# -*- coding: utf-8 -*- 
print """Content-Type: text/plain; charset="UTF-8"\n""" 
f = codecs.open('in','r','utf8') 
for line in f: 
    print line 
    for i in line: 
     print i, 
f.close()

Źródło

2009-06-12 07:45:50 mhawke

print c,

Dodaje "pusty charrecter" i łamie prawidłowe sekwencje utf-8 na niepoprawne. Więc to nie będzie działać, chyba że piszesz signle bajt do wyjścia

sys.stdout.write(i)

Źródło

2009-06-12 07:56:28 Artyom

Jeden może chcesz po prostu użyć

f = open('in.txt','r') 
for line in f: 
    print line 
    for i in line.decode('utf-8'): 
     print i, 
f.close()

Źródło

2013-12-05 11:45:02 j1k00

Problem UTF-8 w pytonie podczas czytania znaków

Odpowiedz

Powiązane problemy