TRONプロジェクト > TRONコード

TRONコード(トロンコード)とは、TRONプロジェクトで使用されている文字コードである。TRON多国語言語環境の初期論文は1987年に発表され(「TAD言語環境と多国語対応」)、以来主にBTRONで利用されてきた。

特徴

編集

単体で「TRONコード」という文字コードがあるわけではなく、TAD(TRON Application Databus)という、TRONの実身/仮身モデルをサポートするデータフォーマットの一部である[1]GTプロジェクトのように、TRONプロジェクトで独自に文字の蒐集をおこない文字集合も作成しているが、TRONコードは基本的に、既存の文字集合をそのまま取り込むフレームワークとして設計されている。

特に漢字について、UnicodeCJK統合漢字のHan unification(w:Han unification)のように統合を行ったりせず、JISの各漢字の他GB 2312KS X 1001CNS 11643を、そのまま空間として割り当てていることが特徴である。

変わったところではトンパ文字SF作品中の架空文字であるアーヴ文字などもコードを割り当てられている。

仕様

編集

コード体系

編集

TRONコードは、2バイト単位をベースとしている。0000~FFFFの空間を4個のゾーンに分け(詳細は後述)、1面あたり48,400の符号点がある。任意長に拡張可能なエスケープシーケンスにより、面を切り替えることができるので、規格上はいくらでも文字を割り当てられる。以下にTRONコードの構成を示す。

第1バイト 第2バイト
制御コード 0x00 0x00 - 0xFE
文字コード 0x21 - 0x7E
0x80 - 0xFD
0x21 - 0x7E
0x80 - 0xFD
言語切り替え 0xFE 0x21 - 0x7E
0x80 - 0xFE
特殊コード 0xFF 0x21 - 0xFE
エスケープ 0xFF 0x80 - 0xFE
EOF 0xFF 0xFF

なお、ISO/IEC 646など、8ビット系コードとの互換は、「TRON1バイト文字コード」[2]「Eゾーン」[3]などとして一部の資料に言及が見られるが、制御コード以外は実装されていない。

詳細

編集

Aゾーンは2121 - 7E7E、Bゾーンは8021 - FD7E、Cゾーンは2180 - 7EFD、Dゾーンは8080 - FDFDである。

TRONコード第2面2100 - 21FF番の表を参照されたい。この領域はGT書体が収録されている。2100から2120までは制御などに掛かる未使用領域であり、実際の文字領域は2121から開始される。217Fは未使用であるが、続く2180からの収録文字はそれまでの系列の文字とは異なる。2121から217Eまでは「」の部に関連した「  )」を含む文字群が収録されている。一方、2180からは「 」を部首とする文字群の領域である。

ほかの文字コードではこうした配列になることは少ないが、ゾーンという概念を持つTRONコードでは第1バイトが同じであっても連続するコードの中で分断されるという現象が生じる。なお、上記の例ではAゾーンとCゾーンの隣接によるものであり、第2面217E番の「 」に続く文字は第2面2221番「 」から再び続行される。TRONコード第2面2200 - 22FF番の表を参照。

スクリプト構成

編集

上記の通り、標準では31面150万文字の登録が可能であるが、2006年10月27日時点で割り当てられているのは、9面18万文字である。各スクリプトの構成は以下の通りである。

面番号 構成
第1面 JIS X0208X0213X0212GB 2312KS X 1001点字
第2 - 3面 GT書体
第4 - 5面 予約
第6面 Big5
第7面 予約
第8面 大漢和辞典収録文字
第9面 大漢和辞典収録文字、記号類
第10面 中国伝承文字、少数民族文字等
第11 - 15面 欠番
第16 - 17面 Unicode(漢字及びハングルは含まない)
第18 - 21面 予約
第22 - 23面 中国拡張文字GB18030
第24 - 31面 予約

収録文字種

編集

上述の通り、スクリプトとしては9面が現状定義されているが、各スクリプトの内部に複数の文字種が混在して収められている。このため、TRONコードに登録された文字種は9種より多く39種を数える。以下に、TRONコードに収録済の文字種を示す。

文字種 文字集合
JIS第一・第二水準・第三・
第四水準・補助漢字
JIS X 0208 X 0213 X 0212
韓国語(漢字,ハングル) KS X 1001
中国語(簡体字) GB 2312
中国語(伝統字,繁体字) Big5
中国語(拡張文字) GB18030
六点点字 Unicode 3.0
八点点字 Unicode 3.0
iモード絵文字 Unicode 6.0 (企業のロゴマーク等を除く)
ホツマ文字
陰陽五行文字
GT書体フォント
大漢和辞典収録文字
トンパ文字
記号 Unicode 2.0
数学・技術記号 Unicode 2.0
通貨記号 Unicode 2.0
IPA発音記号 Unicode 2.0
句読点類 Unicode 2.0
ラテン Unicode 2.0
ギリシャ Unicode 2.0
キリル Unicode 2.0
アルメニア Unicode 2.0
ヘブライ Unicode 2.0
アラビア Unicode 2.0
デーヴァナーガリ Unicode 2.0
ベンガル Unicode 2.0
グルムキー Unicode 2.0
グジャラティ Unicode 2.0
オリヤ Unicode 2.0
タミール Unicode 2.0
テルグ Unicode 2.0
カンナダ Unicode 2.0
マラヤーラム Unicode 2.0
タイ Unicode 2.0
ラオス Unicode 2.0
チベット Unicode 2.0
グルジア Unicode 2.0
かな・漢文記号 Unicode 2.0
CJK用共通記号 Unicode 2.0
ハングル字母等 Unicode 2.0

多言語と多文字

編集

以上の仕様により、多様な文字種を含む文章をデータにできる。しかし、表示にはまた別の問題が存在する。

文字の綴り方は言語によって異なり、漢字文化圏より複雑な規則を持つ言語も多い。BTRONでは、言語層・スクリプト層・文字属層・フォント層というレイヤを想定しているが、現状では実装されていない。このため実装では、インド系の文字の結合処理・アラビア語ヘブライ語の右から左への記述順など、いずれもまともに可視化できない。トンパ文字が実装されているものの、トンパは単に横に並べて綴る文字ではなく、また文字に色を加えることで修飾する文法を持つ[要出典]ため、必ずしもトンパを綴れると言える環境でもない。こうした指摘もあることから、TRONコードは多言語ではなく多文字に過ぎないと評する向きもある。

歴史

編集

コード体系に示した通り、TRONコード自体は当初から多くの文字コードを扱える様設計されていたが、1999年超漢字が発売されるまでは、第1面のみが使用される状況が続いた。これを「とりあえず多言語」と呼び、第1面には「とりあえず多言語面」という別名が付けられた。多言語とはいうものの漢字文化圏である3か国の文字セットを纏めたものではあり、前述のように日本の文字セットであるJIS X 0212、中国のGB 2312、韓国のKS X 1001、および点字が含まれる。

なお「TAD言語環境と多国語対応」では「言語指定コード」というもので言語を切り替える、という構想が示されているが、現状で使用されている切り替えコードは言語指定コードではなく「スクリプト切り替えコード」だとされている(「TRONの多国語言語環境の仕様」, 『TRONWARE』Vol. 50, p. 47)。

超漢字では、Big5今昔文字鏡が収録され、一気に収録文字数が増えた。その後、2000年1月にTRON文字収録センタが発足し[4]トンパ文字アーヴ文字等の文字種までが収められるまでになった。一方でGT書体との絡み[要出典]及びライセンスの問題が表面化し、今昔文字鏡がTRONコードから削除される事態を招いた(第11 - 第15面までの5面が欠番として空けられているのはこの影響である)。パーソナルメディアは超漢字3において、文字鏡研究会により今昔文字鏡フォントの使用許諾契約書が改訂され今昔文字鏡文字の文字コード変換が制限され、またエーアイ・ネットから今昔文字鏡フォントの配布ライセンスが得られず独自の互換変換表の作成も承諾されなかったとしている[5]

関連項目

編集

出典

編集

外部リンク

編集