Jak sprawdzić, czy Python jest skompilowany z UCS-2 lub UCS-4?

To, co mówi tytuł.Jak sprawdzić, czy Python jest skompilowany z UCS-2 lub UCS-4?

$ ./configure --help | grep -i ucs 
    --enable-unicode[=ucs[24]]

Przeszukiwanie oficjalnej dokumentacji, znalazłem to:

sys.maxunicode: Liczba całkowita podając największej obsługiwanej punkt kod dla znak Unicode. Wartość o wartości tego zależy od opcji konfiguracyjnej , która określa, czy znaki Unicode są przechowywane jako UCS-2 lub UCS-4.

To, co nie jest tu jasne, to - jakie wartości odpowiadają UCS-2 i UCS-4.

Kod powinien działać na Pythonie 2.6+.

Źródło

2009-09-18 Sridhar Ratnakumar

101

Kiedy zbudowany z --enable-unicode = ucs4:

>>> import sys 
>>> print sys.maxunicode 
1114111

Kiedy zbudowany z --enable-unicode = UCS2:

>>> import sys 
>>> print sys.maxunicode 
65535

Źródło

2009-09-18 19:33:45 Stef

Nie jest to już powszechnie poprawne w przypadku Pythona 3. Zobacz https://docs.python.org/3.4/c-api/unicode.html: 'Od czasu wdrożenia PEP 393 w Pythonie 3.3, obiekty Unicode używają wewnętrznie różnorodność przedstawień ". https://www.python.org/dev/peps/pep-0393/ –

@ Jan-PhilipGehrcke: 'deficient_unicode_build = (sys.maxunicode <0x10ffff)' działa na dowolnej wersji Pythona (nawet jeśli elastyczna wewnętrzna reprezentacja jest używana gdzie 'sys.maxunicode == 0x10ffff'). Elastyczne reprezentacje umożliwiają uzyskanie poprawnych wyników, takich jak ucs4 w poprzednich wersjach, w niektórych przypadkach z mniejszą ilością pamięci niż ucs4. – jfs

65535 UCS-2:

Thus code point U+0000 is encoded as the number 0, and U+FFFF is encoded as 65535 (which is FFFF16 in hexadecimal).

Źródło

2009-09-18 19:14:20 SilentGhost

To 0xFFFF (lub 65535) przez UCS-2 i 0x10FFFF (lub 1114111) przez UCS-4:

Py_UNICODE 
PyUnicode_GetMax(void) 
{ 
#ifdef Py_UNICODE_WIDE 
    return 0x10FFFF; 
#else 
    /* This is actually an illegal character, so it should 
     not be passed to unichr. */ 
    return 0xFFFF; 
#endif 
}

Maksymalna liczba znaków w trybie UCS-4 jest zdefiniowana jako maksymalna wartość reprezentowana w UTF-16.

Źródło

2009-09-18 19:20:44

Miałem kiedyś ten sam problem. I udokumentowane go dla siebie na moim wiki na

http://arcoleo.org/dsawiki/Wiki.jsp?page=Python%20UTF%20-%20UCS2%20or%20UCS4

pisałem -

import sys 
sys.maxunicode > 65536 and 'UCS4' or 'UCS2'

Źródło

2009-09-20 02:50:11 Dave

Dla każdego, kto zastanawia się, co to robi: jest to stary ( 65536 else 'UCS2''. – vaultah

sysconfig powie rozmiar unicode od zmiennych konfiguracyjnych Pythona.

Można zapytać o takie pliki.

Python 2.7:

import sysconfig 
sysconfig.get_config_var('Py_UNICODE_SIZE')

Python 2.6:

import distutils 
distutils.sysconfig.get_config_var('Py_UNICODE_SIZE')

Źródło

2016-03-04 16:40:42 stateoff

miałem ten sam problem i okazało się pół-oficjalny kawałek kodu, który robi dokładnie to i może być interesująca dla osób z tym samym problemem: https://bitbucket.org/pypa/wheel/src/cf4e2d98ecb1f168c50a6de496959b4a10c6b122/wheel/pep425tags.py?at=default&fileviewer=file-view-default#pep425tags.py-83:89.

Pochodzi z projektu koła, który musi sprawdzić, czy python jest skompilowany z ucs-2 lub ucs-4, ponieważ zmieni nazwę wygenerowanego pliku binarnego.

Źródło

2016-08-17 07:28:02 lothiraldan

Innym sposobem jest utworzenie tablicy Unicode i spojrzeć na itemsize:

import array 
bytes_per_char = array.array('u').itemsize

cytat z array docs:

'u' Kod typu odpowiadający unicode charakter Pythona. W wąskich kompilacjach Unicode jest to 2-bajty, a na szerokich kompilacjach 4-bajtowych.

Należy zauważyć, że rozróżnienie między wąskimi i szerokimi kompozycjami w standardzie Unicode zostało usunięte z języka Python 3.3, patrz PEP393. Kod 'u' dla array jest przestarzały od wersji 3.3 i jest zaplanowany do usunięcia w Pythonie 4.0.

Źródło

2016-09-07 11:28:30 user6758673

Jak sprawdzić, czy Python jest skompilowany z UCS-2 lub UCS-4?

Odpowiedz

Powiązane problemy