ValueError: unichr() nie arg w zakresie (0x10000) (wąski Python build)

Próbuję przekonwertować podmiot HTML na unichar podmiot HTML jest 󮠖 gdy próbuję wykonać następujące czynności:ValueError: unichr() nie arg w zakresie (0x10000) (wąski Python build)

unichr(int(976918))

mam błąd, że:

ValueError: unichr() arg not in range(0x10000) (narrow Python build)

Wygląda na to, że jest poza zakresem konwersji dla unichar.

Źródło

2011-08-18 Aamir Adnan

można zdekodować ciąg, który ma ucieczki Unicode (\U następnie 8 cyfr HEX, zero-wyściełane) przy użyciu kodowania "unicode-escape":

>>> s = "\\U%08x" % 976918 
>>> s 
'\\U000ee816' 

>>> c = s.decode('unicode-escape') 
>>> c 
u'\U000ee816'

Na wąskiej budowie jest przechowywany jako UTF-16 surogat para:

>>> list(c) 
[u'\udb7a', u'\udc16']

to zastępczym para jest prawidłowo przetwarzane jako jednostka kodu w trakcie kodowania:

>>> c.encode('utf-8') 
'\xf3\xae\xa0\x96' 

>>> '\xf3\xae\xa0\x96'.decode('utf-8') 
u'\U000ee816'

Źródło

2011-08-18 12:21:44 eryksun

Konwersja 976918 na 000ee816 do 'hex (976918) [2:]. Zfill (8)' – EoghanM

Aby to działało, albo trzeba zbudować Python siebie, określając

./configure --enable-unicode=ucs4

przed kompilacją, albo trzeba przenieść do Pythona 3.

Nawet jeśli to zrobisz, są najwyraźniej problemy na Windowsie, które zostaną naprawione w następnej wersji Pythona (3.3).

Źródło

2011-08-18 10:25:52 agf

Oto alternatywne obejście, które opracowałem z modułem struct.

def unichar(i): 
    try: 
     return unichr(i) 
    except ValueError: 
     return struct.pack('i', i).decode('utf-32') 

>>> unichar(int('976918')) 
u'\U000ee816'

Źródło

2015-02-04 16:40:26

ValueError: unichr() nie arg w zakresie (0x10000) (wąski Python build)

Odpowiedz

Powiązane problemy