Ugrás a tartalomhoz

A Unicode-karakterek elhelyezkedése

Ellenőrzött
A Wikipédiából, a szabad enciklopédiából

A Unicode 1 114 112 (= 220 + 216 vagy 17 × 216, hexadecimálisan 110000) kódérték számára biztosít helyet.

A Unicode 5.0.0 esetében a kódértékek közül 101 063 (9,1%) karakterekhez van hozzárendelve, 137 468 (12,3%) van fenntartva saját használatra, a maradék 875 441 (78,6%) szabad. A karakterekhez rendelt kódértékek közül:

98 884 a graféma
140 a formázó karakter
65 a vezérlő karakter és
2 048 az úgynevezett pótló karakter.

Az első 256 kód megegyezik az ISO 8859-1 kiosztásával – az egyik legismertebb karakterkódolási szabvány a nyugati nyelvekre. Végeredményben az első 128 karakter megegyezik az ASCII karaktereivel.

A Unicode-karakterek számára fenntartott kódterület 17 lapra (plane) van felosztva, minden egyes lap 65 536 (= 216) kódpontot tartalmaz, azonban jelenleg csak néhány lap van használatban:

  • 0. lap (0000–FFFF): Alap többnyelvű lap - Basic Multilingual Plane (BMP)
  • 1. lap (10000–1FFFF): Kiegészítő többnyelvű lap – Supplementary Multilingual Plane (SMP)
  • 2. lap (20000–2FFFF): Kiegészítő lap a szókép lapokhoz – Supplementary Ideographic Plane (SIP)
  • 3. laptól a 13. lapig (30000–DFFFF) nem használt
  • 14. lap (E0000–EFFFF): Kiegészítő lap a speciális felhasználású laphoz – Supplementary Special-purpose Plane (SSP)
  • 15. lap (F0000–FFFFF) saját használatú terület céljára fenntartva – Private Use Area (PUA)
  • 16. lap (100000–10FFFF) saját használatú terület céljára fenntartva – Private Use Area (PUA)

A 220 feletti kódpontok (nem értve ide a 16. lapot) azért vannak, hogy biztosítsák a kompatibilitást az UTF-16 kódolással, amely címei ebbe a tartományba esnek (lásd később). Jelenleg a Unicode-kódterület mintegy 10%-a van kihasználva. A jövőben a különféle karaktertartományokat feltöltik az ismert írásokkal (lásd: [1]), és lehetséges, hogy szüksége lesz a Unicode-nak egy másik lapra a szóképek kezelésére, de van tíz nem használt lap még arra a célra, ha előre nem látott, eddig ismeretlen írások bukkannának fel. Jelenleg úgy látszik, hogy a 21 bites korlátot a Unicode a közeljövőben nem fogja meghaladni.

Alap többnyelvű lap

[szerkesztés]

Az első lap (Nulladik lap), az Alap többnyelvű lap - Basic Multilingual Plane, (BMP) - az, amelyen a legtöbb karakterkód található. A BMP főként a modern nyelvek karaktereit tartalmazza, valamint nagy számú speciális karaktert is. A BMP-ben legtöbb "helyet" a kínai, japán és koreai (CJK) karakterek foglalják el.

Az alap többnyelvű lap térképe. Minden számozott négyzet 256 kódértéket jelöl.

A jobb oldali képen az Alap többnyelvű lap (BMP) kiosztásának vizuális képe látható. A használt színek jelentései:

  •  fekete  = Latin írás és szimbólumok
  •  világoskék  = Nyelvészeti karakterek
  •  kék  = Egyéb európai írások
  •  narancssárga  = Közép-Kelet és délnyugat-ázsiai írások
  •  világosnarancs  = Afrikai írások
  •  zöld  = Dél-ázsiai írások
  •  bíbor  = délkelet-ázsiai írások
  •  piros  = Kelet-ázsiai írások
  •  világospiros  = Egyszerűsített CJK Han
  •  sárga  = Aborigin írások
  •  lila  = Szimbólumok
  •  sötét szürke  = Diakritikus jelek
  •  világosszürke  = UTF-16 pótlók és saját használatra fenntartott
  •  cián  = Vegyes karakterek
  •  fehér  = Nem használt

2005-ben a BMP a következő írásokat és/vagy nyelveket kezeli (a megadott számok hexadecimális értékek):

A következő felülvizsgálatok során várhatóan számos írás fog bekerülni az Unicode rendszerbe. Néhány írás és azok javasolt elhelyezkedési tartományai a következők:

Néhány egyéb írás, amit a BMP-be felvételre javasoltak:

Kiegészítő többnyelvű lap

[szerkesztés]

Az 1. lap, a Kiegészítő többnyelvű lap' – Supplementary Multilingual Plane - (SMP) használatos számos, történelmi írás (mint például a lineáris B írás) kódolására, de ez használható a zenei és matematikai szimbólumok kezelésére is.

A 2005-ös Unicode 4.1 szerint, az 1. lap a következő írásokat tartalmazza:

  • lineáris B írás jelei (10000–1007F)
  • lineáris B-írás ideogramjai (10080–100FF)
  • égei számok (10100–1013F)
  • ősi görög számok (10140–1018F)
  • ősi olasz (10300–1032F)
  • gót (10330–1034F)
  • ugariti (10380–1039F)
  • ős perzsa (103A0–103DF)
  • deseret (10400–1044F)
  • shavian (10450–1047F)
  • osmanya (10480–104AF)
  • ciprusi jelek (10800–1083F)
  • kharoshthi (10A00–10A5F)
  • bizánci zenei jelek (1D000–1D0FF)
  • zenei jelek (1D100–1D1FF)
  • ősi görög zenei jelek és kotta jelölések (1D200–1D24F)
  • Taj Hszüan Csing szimbólumok (1D300–1D35F)
  • alfanumerikus matematikai szimbólumok (1D400–1D7FF)

A 2006-os, Unicode 5.0 változat a következő írásokkal egészült ki:

Néhány egyéb írást is javasoltak még az 1. lapra, többek között:

Saját használatú terület

[szerkesztés]

A saját használatú terület – Private Use Area (PUA) egy a több olyan tartományból, amelyek saját használat céljára vannak fenntartva. Ezekhez a területekhez a Unicode semmilyen karaktereket nem rendel hozzá.

Az alap többnyelvű lap esetében ez a terület az U+E000 és az U+F8FF (57344–63743) közötti tartomány. A Tizenötödik lap (U+F0000 és U+FFFFF között), valamint a Tizenhatodik lap (U+100000 és U+10FFFF között) teljesen saját használat céljára fenntartott.

A saját használatú terület – PUA koncepciója bizonyos ázsiai nyelvek kódolási rendszereiből öröklődött. Ezek a rendszerek rendelkeztek saját célra használható területekkel, mivel a japánban a gaidzsi (ritka, a személy-nevekben előforduló karakterek) alkalmazás specifikus kezelését ilyen módon oldották meg. Hasonló a ConScript Unicode Registry megoldása, amely segíti a még nem kezelt, vagy a Unicode által visszautasított írásoknak az Unicode PUA területén való elhelyezést. A Unicode középkori iniciálé betűtípus szintén a PUA területet használja a középkori szövegekben előforduló különféle ligatúrák, előre összeállított karakterek, és szimbólumok kódolására.

A saját használatú terület kihasználásának egy jó példája az Apple Computer által használt U+F8FF terület az Apple által használt betűtípusok és a logó tárolására és megjelenítésére.

Egyéb lapok

[szerkesztés]

A 2. lap, a tartalmazza a Kiegészítő szókép lap – Supplementary Idiograme Plane (SIP) területet, ami annak a hozzávetőleg 40 000 ritka kínai karakternek a kezelésére használható , amelyek legtöbbje ugyan történeti, azonban mai írásokban is előfordulnak. A 14. lap (E hexadecimálisan), a Kiegészítő lap a speciális felhasználású laphoz – Supplementary Special-purpose Plane (SSP), aktuálisan néhány támogatásra nem javasolt nyelv karaktereit, illetve különböző szempontok alapján kiválasztott karaktereket tartalmazza.

További információk

[szerkesztés]