2011-06-08 20 views
10

Słyszałem, że niektóre postacie nie są obecne w standardzie Unicode, mimo że są pisane w codziennym życiu przez populacje niektórych obszarów. Szczególnie słyszałem o ostatnich chińskich imionach stworzonych przez montaż istniejących części znaków, ale nie mogę znaleźć żadnego odniesienia do tego.Jakie znaki NIE są obecne w Unicode?

Na przykład, poniższy postać jest bardzo typowe dla 50 milionów ludzi, a mimo to jest not in Unicode:

enter image description here

Czy istnieje lista takich znaków? (obrazy lub strona internetowa zawierająca takie znaki jak obrazy)

+2

tajemnicza i dziwna postać, którą właśnie rysowałem na swoim notesie ołówkiem. ;) –

+0

To: http://en.wikipedia.org/wiki/File:Prince_logo.svg Chociaż jest to bardziej chwyt reklamowy niż rzeczywisty charakter. – Piskvor

+0

Możesz zawęzić pytanie, aby wykluczyć odpowiedzi takie jak Nick. – dan04

Odpowiedz

0

To naturalne, że Unicode nie może dogonić nowych znaków ideograficznych lub rzadko używanych symboli.

Nie mogę jednak zrozumieć przyczyny kryjącej się za tym pytaniem. Możesz narysować dowolny losowy symbol, który najprawdopodobniej nie będzie standardową postacią Unicode.

Czy to tylko ciekawość?

+0

Dobrze, ale to powinien być komentarz, ponieważ nie odpowiada na pytanie. – sleske

+0

Po prostu ciekawość :-) Zamiast losowego symbolu, szukałem postaci, które są pisane przez prawdziwych ludzi w ich codziennym życiu, takich jak te wymienione w pliku PDF cytowanym przez Ólafura Waage'a. –

2

Here's a little W3C article o tym, co zrobić z brakującymi znakami Unicode.

Here's a PDF document o pewnych brakujących znaków Unicode 4,1

And here's a little neat unicode navigator.

nadzieję, że to pomaga trochę.

+0

Przepraszamy, ale twój "potrzebujesz małego nawigatora Unicode" jest całkowicie błędny. W typowej pomyłce MS błędnie zastąpił kontrolki C1 CP1252 firmy Microsoft. Na przykład U + 0091 jest faktycznie Pʀɪᴠᴀᴛᴇ Usᴇ Oɴᴇ, ale mają go na liście Lᴇꜰᴛ Sɪɴɢʟᴇ Qᴜᴏᴛᴀᴛɪᴏɴ Mᴀʀᴋ, która jest faktycznie U + 2018. Myślę, że znajdziesz [uninames] (http://training.perl.com/scripts/uninames), [uniprops] (http://training.perl.com/scripts/uniprops), [unichars] (http://training.perl.com/scripts/unichars) i [cała reszta] (http://training.perl.com/scripts/) są znacznie bardziej przydatne i dokładne. – tchrist

+0

@tchrist well Przykro mi z tego powodu. –

+1

To jest rzeczywiście problem z przeglądarką: witryna używa '& # x (trochę wartości szesnastkowej);', aby uzyskać znak, i '€' -' F; '* powinien * reprezentować kody sterujące C1. Ale w obecnych przeglądarkach, z powodu irytujących powodów kompatybilności, pisanie referencji do znaku o wartości z zakresu 0x80-0x9F po cichu konwertuje znak na taki, który otrzymasz dla wartości bajtów w CP1252. Więc jeśli zrobisz 'document.body.innerHTML = '€'', a następnie odczytasz 'document.body.innerHTML.charCodeAt (0)', otrzymujesz 0x20AC, a nie 0x80. Nie dzieje się to w trybie XHTML. – bobince

5

Cóż, jest mnóstwo rzeczy, których nie ma w Unicode (chociaż wciąż są dodawane nowe znaki).

Kilka przykładów:

  • W związku z Han Unification, Unicode wykorzystuje jeden kodowy dla kilku podobnych znaków z różnych języków. Ludzie nie zgadzają się, czy te postacie są naprawdę "takie same"; jeśli uważasz, że powinni oni być reprezentowani osobno, to te oddzielne reprezentacje można by nazwać "zaginionymi" (chociaż jest to kwestia filozoficzna).
  • W podobnym tonie wiele języków (zwłaszcza azjatyckich) ma czasami kilka wariantów jednego znaku/glifu. Rozróżnienie pomiędzy "jednym znakiem i kilkoma reprezentacjami" (= jednym punktem kodowym) i "różnymi znakami" (= różnymi punktami kodowymi) jest w pewnym stopniu arbitrażowe, a zatem istnieją przypadki (np. Ze znakami Kanji), w których niektórzy ludzie uważają, że "brakuje" alternatywnych wariantów.
  • Brakuje wielu znaków historycznych i rzadko używanych.
  • Wiele starych/historycznych skryptów nie jest objętych, np. Linear A
+3

Sądzę, że selektory zmienności ~ 260 mają zająć się dwoma pierwszymi punktorami. Ich punkty kodowe to 180B-180D (w skrócie FVS1-3), 303E (ɪᴅᴇᴏɢʀᴀᴘʜɪᴄ ᴠᴀʀɪᴀᴛɪᴏɴ sᴇʟᴇᴄᴛᴏʀ, IVS), FE00-FE0F (VS1-VS16) i E0100-E01EF (VS17-VS256). W rzeczywistości IVS jest inny: liczy się jako '\ p {Other_Symbol}' i '\ p {Grapheme_Base}', podczas gdy pozostałe to '\ p {Nonspacing_Mark}', '\ p {Grapheme_Extend}', '\ p {Default_Ignorable_Code_Point} 'i' \ p {Variation_Selector} '. Nie wiem, po co właściwie jest IVS. W wersjach skryptowych FVS1-3 to '\ p {Mongolski}', IVS to '\ p {Wspólny}', a VS1-256 to '\ p {Dziedziczony}'. Mam nadzieję że to pomoże. – tchrist

1

Istnieje mnóstwo postaci z części symbolu standardu, które nie są zawarte irytująco.

Zobacz sekcję "Brakujące wersje symetryczne" w pozycji http://xahlee.org/comp/unicode_arrows.html dla kilku istniejących symboli strzałek, ale tylko w określonych kierunkach. Niektóre są po prostu głupie. Na przykład istnieje ⥂, ⥃ i ⥄, ale nie ma prawej skierowanej wersji ostatniej.

I można zobaczyć od http://en.wikipedia.org/wiki/Unicode_subscripts_and_superscripts, że wybrał najwyraźniej losowo, które litery wspierać w formie super i podskrypt. Na przykład zawierają one samogłoski w indeksie a, e, o, a nawet schwa (ə), ale nie i, co byłoby bardzo przydatne, ponieważ jest to wspólny indeks w matematycznym składzie. Zapoznaj się z artykułem wikipedii, aby uzyskać więcej szczegółów (będziesz potrzebować zainstalowanej czcionki Unicode, ponieważ przynajmniej w momencie pisania tego artykułu regularne odpowiedniki ascii nie są wyraźnie wymienione), ale w zasadzie wybrały około połowę alfabetu łacińskiego pozornie losowo dla każdego ze znaków super- i pod-skryptu wielkich i małych liter.

Również wiele symboli, które byłyby wygodne do budowania kształtów z unikodem, nie istnieje.

Powiązane problemy