一般社団法人 文字情報技術促進協議会
会長
小林 龍生
固有名詞の字体同定
「字形概念と字体概念の関係」「文字集合の独立性」と、符号化文字集合にとって重要な考え方について、述べてきた。最後は、「固有名詞の字体同定」について。
じつは、これって、結構厄介な問題なのだ。
この手の問題を考えるとき、ぼくがいわばバイブルとして参照する豊島正之さんの「JIS批判の基礎知識」を、再度紐解いてみよう。
https://joao-roiz.jp/mtoyo/on-JCS/mt-gene.pdf
固有名詞の典拠性について、下記のような記述がある。
1.1.1 旧 JIS の「文字概念」の語の問題
(前略)
文字の符号化自体は、具象的な図形そのものではなく、その概念上の存在に対して行われるものであり、且つ、 図形文字の概念は、(字義の差は図形差に反映されるという前提の下での) 図形概念に依存しているから、文字概念は、字義 (字の意味・用法) と字の図形概念とが相互に規定しつつ結ばれたもので、つまり、それ自体が記号で ある。
1.1.3 字義の合意 意味の指定は難しいので、字義の合意は、何らかの文献参照で替えられる事が多い。この場合、文献自体に就て の合意があれば参照底本とし易いので、著名な字典、法律、経典等を用いて、これらは既に本文と字体が定まって いるという合意を利用する。(中略) 尚、字義を殆ど欠いた固有名詞では、その名前を持つもの (referent) の存在を参照対象とするしかなく、同定は 時に困難で、「人の名前は本人が違うといったら文字は絶対違う」(坂村健,1997) と、同定を諦める見解も現れる事 になる。
豊島さんのこの部分は、JIS X 0208のいわゆる新旧JIS問題に関連して、《文字概念》について論じたものなので、必ずしも現時点でのぼくの立場と完全に一致しているわけではない。その上で、重要なのは、第一に、
「意味の指定は難しいので、字義の合意は、何らかの文献参照で替えられる事が多い。」この場合、(中略)著名な字典、法律、経典等を用いて、これらは既に本文と字体が定まって いるという合意を利用する。」
という部分。IRGが康煕字典(中華書局版)を典拠の中軸に据えていることは、豊島さんのこの部分の議論に見事に対応する。国際標準化活動としての符号化文字集合という立ち位置(すなわちぼく自身の立ち位置)で、重要なことはこの中華書局版の学術的な正統性云々(このアーティクルで省略した豊島さんの議論)ではなく、標準化活動の主体(ここではISO/IEC JTC1/SC2)として、康煕字典(中華書局版)を典拠の中軸としますよ、と宣言することなのだ。
UCSの統合漢字部分に、各カラムごとに典拠情報が記載されているのも、同じ文脈で理解することが出来る。すなわち、統合漢字として符号化するIdeographは、それぞれの国や地域のauthenticな辞字典類や公的な符号化文字集合規格、そして、公的な文字データベース(文字情報基盤の文字図形を国際提案するに当たって、日本の提案で追加された)など。IRGでの実際の文字同定の作業は、突き詰めると、それぞれの典拠に掲示されている文字相互の同定、ということになる。
そして、もっと重要なのは、後半。
「字義を殆ど欠いた固有名詞では、その名前を持つもの (referent) の存在を参照対象とするしかなく、同定は 時に困難」という部分。
要は、固有名詞の字体の異同については、当事者に聞くしかない、ということ。前々回のアーティクルで詳述したように、符号化文字集合で符号化しているのは、あくまでも抽象的で視覚的に見ることの出来ない字体。なので、ご本人に聞くべき問いかけは、例示字形を手がかりとして「あなたがお名前に使われている字体は、この字体集合の中のどの字体に帰属しますか」といったことになる。
行政事務標準文字に即して、前々回の思考実験(字体に対応する百均の小袋モデル)で考えると。電子化の対象となる行政文書(戸籍や住民票など)に含まれる人名や地名などの固有名詞を構成する文字について、小袋に貼り付けてある字形を頼りに、どの小袋に入れるのが一番適当かを探していくことになる。行政事務の担当者が迷った場合は(本来は迷わなかった場合も)、最終的にはご本人もしくはご遺族などの当事者に確認する必要があろう。
厄介なのは、当事者が、該当する小袋が見つかりません、とおっしゃった場合。
解決策は、二つしか無い。
一つ。字形が一番近そうな小袋を示して、これでいかがですか、と提案して納得してもらう。
一つ。新しい小袋を用意して、該当する字形を小袋に貼り付けて、新たな字体の例示字形とする。当然ながら、後者の事後的な手続きには、膨大な手続きとコストが発生する。
行政事務標準文字は、デジタル庁の担当部署が、各自治体の全面的な協力を得て、戸籍関連文書を中心とする現今の行政文書に現れる人名や地名などの固有名詞に含まれる字形を渉猟した上で、ある一定の粒度で整理統合した字体集合になっているので、後者の可能性は、限りなくゼロに近いだろう。
包摂規準(統合規則)の大切さ
ここまで来れば、考えなければならないことは、案外単純なことだ。
対象となる字形につき、字体を代表(represent)する例示字形とのある一定粒度の類似性のみに拠って、帰属する字体を選ぶこと。
その類似性を具体的に示したのが、他ならぬ包摂規準(統合規則)なのだ。そして、その包摂規準は、字体集合ごとにそれぞれ異なっている。
再び、豊島さんのバイブルを見てみよう。
1.1.4.1 精度規定としての包摂規準 実際に存在する字形は、一回限りの存在であり、二つとして同じ字形は存在しない。こうした存在を符号化する 為には、それらの図形的な差を捨象して、抽象化せねばならない。全ての字形 (加算無限) に符号を振る符号化は、 (理論的には可能だが) 現実的ではなく、「見た目により同一形状の文字は統合する」(坂村健,1996b) のが、符号化 の一般である。 (中略) こうした「捨象」をどの程度まで行うかに就ての合意が「包摂規準」であり、工業規格としての符号化文字集合 では、いわば情報交換の「精度」の規定であると見てよい。
この部分も、包摂概念の記述として、間然とするところがない。
特に、最後の行『情報交換の「精度」の規定』のところ。今までのぼくの議論に引き寄せると、文字集合が異なると(包摂分離が行われると)、包摂の精度が変化するのだ。言い換えると、文字集合が異なれば包摂規準も異なるのだ。ぼく自身は、このような包摂の精度を勝手に字体弁別粒度と呼んでいる。
さらに言えば、包摂規準は、文字集合全体に一律に適用されるものではなく、厳密には、集合の個々の要素となる字体毎に独立しているものなのだ。例を挙げた方が分かりやすいだろう。
たとえば、点のあるなし。JIS X 0213の「6.6.3.2漢字の字体の包摂規準の詳細」を見ると、d)1点画の増減の違いとして、124)大、犬(便宜上、該当する文字そのものを記しているが、実際には、偏や旁などに用いられる校正要素)が掲げられている。そして、(1-51-26)が掲げられている。CITPCの漢字検索ページの要素図形検索で「戻」をキーとして検索をかけると、(MJ043010、U+5533、<5533,E0103>と(MJ043250、U+5533、<5533,E0105)がヒットする。また、(MJ198250、U+6D66、1-86-83)、( MJ015472、U+6DDA、1-86-83)もヒットする。
細かく見ていくときりがないが、概ね常用漢字体は点なし、いわゆる康煕字典体が点あり、ということのようだ。ともあれ、ここでの議論は、構成要素としてやを持っている漢字でも、JISで包摂されたりUCSで統合されるものと、JISで包摂されなかったり、UCSで統合されなかったりするものがある、ということ。構成要素としてやを持つものの中では見つけられなかったが、前回のアーティクルで議論したように、JISで包摂されながら、UCSでは統合分離されているものもある。(ちなみに、JISで包摂されていないものは、原規格分離の原則を援用して、互換漢字に符合位置を与えている。)
簡単な例を挙げるつもりだったのに、かえってややこしい話になってしまったが。要は、包摂規準や統合規則といっても、全ての漢字に適用されているわけではなく、(標準化活動の当事者の一人としてははなはだ忸怩たるものがあるけれど、)結構いい加減に使われている、ということ。
さてと。気を取り直して、今回のアーティクルの結論めいたことを纏めておこう。
固有名詞に用いられる文字は、辞書や古典籍などの典拠があるわけではないので、字形のみをよりどころにして、対象となる符号化字体集合(前回の議論の文脈では、Annex Aを用いて宣言されたUCSのサブセット)のどの字体に紐付けるかを決定しなければならない。最終的には、当事者に、例示字形をたよりに、より近いと思われる字体を選んでいただくことになる。その際、字体集合の中では同じ字体とみなす字形の相異部分を列挙したリスト(JISでは包摂規準、UCSでは統合規則)が、判断のより所として有用だ。ただし、当事者が、この字体集合の中には、自分の姓を表記する文字(字体)が存在しないと、強固に主張されたときは、面倒でも、しかるべき手続きをとって字体集合そのものへの追加と、その国際標準化をやらなければならない。
文字集合の独立性
まず、二組の漢字字形を見ていただきたい。
1-36-45、U+585A
1-15-55、U+585A
1-46-20、U+968
1-93-61、U+9686
ツカとリュウ、大塚隆といった感じで、姓や名に多出するし、一里塚とか筋肉隆々とかいった一般名詞にもよく用いられる字だ。
しかし、よく見ると、ツカもリュウも、それぞれ少しずつ異なっている。
先に素性の種明かしをしておくと、1-36-45と1-46-20は、常用漢字表(平成22年6月7日改定版、以下同)に掲示されている字形で、1-15-55と1-93-61は、常用漢字表では丸括弧に入れられた字形で、いわゆる康煕字典体。
ちなみに、貼り込んだ画像は、MJ明朝体。CITPCの文字検索システムからコピーしてきた。字体は、常用漢字表に掲載されている例示字形と同じ。というか、常用漢字表も、MJ明朝体を用いているのだけれど。
常用漢字のなかには、いわゆる康煕字典体と字体が異なるものがいくつかある、ということ。ちなみに、常用漢字以外の漢字の字体をどのように考えるか、という問題については、2000年に当時の国語審議会が出した「表外漢字字体表」に仔細な論述がある。
とはいえ、今回議論したいのは、常用漢字表字体といわゆる康煕字典体との違いといったことではなく、これらツカとリュウの扱いが、JIS X 0208単独の場合と、JIS X 0213の一部としてのJIS X 0208とで、じつは異なっているということ。
規格票のそのものにそって、経緯を復習しておこう。手元に、文化庁文化部国語課が、当時の国語審議会における審議に資するために復刻したJIS C 6226:1978がある。これを見ると、36区45点の字形は、の形に近い。
一方、同じ資料に含まれているJIS X 0208:1983では、36区45点の字形は、の形に近い。そして、JIS X 0208:1997。この版の、36区45点の記述が面白い。過去の規格票の字形(参考)の欄に、78としてに近い字形が、78/4Xとしてに近い字形が掲げられている。そして、JIS X 0208:1990から加えられた包摂規準では、129)として、豕(いわゆるいのこ)の点があるものとないものを包摂している。(ぼくの手元には、JIS X 0213:1990がないので、JIS X 0213:1997を参照している。)
JIS X 0208では、(たぶん)ツカに関しては、一貫して常用漢字字体といわゆる康煕字典体とを包摂している。
そして、JIS X 0213:2000。
ちょっとやっかいな話だが、JIS X 0213には、JIS X 0208のすべての面区点位置が含まれている。表層的には、JIS X 0213は、JIS X 0208の区点位置に、新たにいくつかの面区点位置を追加した形となっている。
しかし、JIS X 0213の規格票には、面区点位置の一覧表部分にJIS X 0208相当の例示字形が掲載されているが、附属書6(規定)漢字の分類及び配列には、追加部分だけが記載されていて、JIS X 0208相当部分についての詳説はない。
(ということは、漢字の分類及び配列に関しては、JIS X 0208を見ろよな、ということなのかなあ。)
とについても見ておこう。
こちらの方は、JIS X 0208では、一貫してに近い字形が掲載されている。
その上で、包摂規準のd)連番132で、に近い字形とに近い字形が包摂されることが明記されている。
そして、JIS X 0213。に新しい面区点位置を与えた上で、包摂規準の詳説については、連番133としてJIS X 0208とほぼ同等のものを掲げている。あれれ、別の面区点位置を与えながら、包摂規準に掲げていいのかなあ。(いまさら、このような細部をほじくり返しても、なんだかなあ、という気がするので、これ以上深追いしないが、何だか釈然としない。)
JIS X 0208で包摂されていながら、JIS X 0213では、別の面区点位置を与えていた例は、他にもいくつもある。いわゆる包摂分離。
今回の議論の眼目は、まさに、この包摂分離(Unicodeの場合はDisunification、統合分離)の符号化文字集合における情報交換上の問題についてだ。
JIS X 0208を単体で運用した場合の36-45と、JIS X 0213の一部として運用された場合の1-36-45では、たとえ、そこに掲示されている例示字形が全く同じであっても、その区点位置、面区点位置に帰属する字形の範囲が異なる、ということ。
JIS X 0213では、に類似した字形(よりも一画多い)は、JIS X 0213では、別の面区点位置1-36-45に帰属する。
事情は、一般的にJIS X 0213で包摂されており、Unicodeでも統合されていた文字が、Unicodeで統合分離された場合でも、変わりがない。
次のように言い換えてもいいだろう。
ある字形が対応付けられる字体は、その字体を要素として含む字体集合が異なれば、たとえ同じ文字名を持った字体であっても、その字形が同じ名前の字体に帰属することは保証されない。
もう一つ、別の言い方。
符号化された文字列が送信者側と受信者側で同一であることを保証するためには、送信者側と受信者側が同一の符号化文字集合を用いなければならない。
当たり前と言えば当たり前の話だが、一見同じ字体集合に見えても、改正等で包摂分離や統合分離が行われると、それらの字体集合は互いに非互換となり、通信における同一性は保証されなくなる。
Annex Aの重要性
先に述べたように、どのような場合であれ、ある符合位置を包摂分離もしくは統合分離すると、分離以前と以後では、情報交換上非互換となる。特に、UCSあるいはUnicodeでは、日本、中国、台湾、韓国などが、統合漢字領域を共有しているので、一部の国や地域の都合で行われた統合分離が、該当する文字を統合を前提として運用している他の国や地域で、混乱をもたらす可能性が大きくなる。
たとえば、(U+5409)と(U+20BB7)。業界では「サムライよし」と「ツチよし」などと称して、以前から話題に上ることが多いが。JISでは、一貫して、「サムライよし」と「ツチよし」は、包摂されている。
UCSにCJK統合漢字拡張Bが追加制定された際、この「サムライよし」に台湾の典拠により、独立した符合位置が付与された。ご自分のお名刺などに「ツチよし」を使っておられた方の一部には、欣喜雀躍してこの拡張Bの符合位置を用いて、電子メールなどに使われた方があるかもしれない。しかし、あにはからんや、JI X 0213に対応する符合位置にしか対応していないフォントで表示すると、文字化けというかこの拡張Bの符合位置が欠落してしまう事態となり、なんだかなあ、という結果を招来する。
文字情報基盤では、「ツチよし」にも文字図形名を付与し、今般、UCSの水平拡張によって、UCSの側にも、MJ文字図形名を日本典拠として追加してもらったので、規格論的には、いわば日本の漢字として堂々と使えるようには、なっている。
(ただし、JIS X 0213とMJ文字図形集合との関係は依然として変わっていない。即ち、JIS X 0213の面区点位置に対応するUCSの符合位置全体から成る文字集合と、MJ文字図形全体から成る文字集合では相互の情報交換は保証されない。)
このような問題は、IVDが絡んでくるとますます厄介になる。
例えば、ぼくの名前の一部の。これには、という異体字があって、IVDにも<9F8D,E0104>として登録されている。は、<9F8D,E0103>。
は、名刺など(特に楷書体で刷られたもの)でもそうだが、賀状や凧などにもデザイン的に好んで使われている。ぼくのオヤジも、ぼくの名前を書くときには、の字形を使っていたことを懐かしく思い起こす。
システムやアプリケーションがIVSをサポートしており、MJ明朝体フォントがインストールしてあれば、とを自由に使い分けることが出来る。システムやアプリケーションがIVSをサポートしていなかったり、MJ明朝体フォントがインストールされていなければ、UCSの規定では、VSの符合位置を読み飛ばすことになっているので、元のU+9F8Dに対応するフォントが表示される。
以下は、仮の話だが。
このに独立したUCSの符合位置が与えられたらどうなるだろう。
先に挙げた拡張Bの「ツチよし」と同様の事態が出来する。
日本が、IVDに汎用電子情報交換環境整備プログラムのコレクション登録を要請していたころから、IRGでは、新規符号化に当たって、それまでバイブル視されていた附属書S(いわゆるUnification Rule)に反する統合分離が散見されるようになってきた。また、IRGにはcognate ruleというのだが、字形が類似していても元々の意味が異なれば異なる符合位置を与える、というものがある。逆に言えば、cognateであれば、少々の字形の相異は捨象してunifyする、ということでもある。cognateかnon-cognateか、といった使い方をする。
しかし、このころから、IRGでは、字形が酷似していれば、non-connateであっても同一の符合位置を付与する、という流れが大きくなってきた。新規符号化の対象となる文字が、どんどん拡散し、固有名詞など典拠を明確に示すことが困難になってきた、という事情もあった。
そんなわけで、日本としては、IRGの場でコントロール不能となった非互換な統合分離に関して、国内でのUCS利用に伴うリスクを低減するための、防衛的な対応が必要となった。
ここで、日本が採った戦略が、Annex Aの積極的活用だった。
すなわち、Annex Aに日本の社会生活に必要な符合位置と符合位置の組を切ったコレクションを標準化し、このコレクションを明示することで、UCSに準拠した上で、使用する符合位置の範囲を限定しよう、というものだった。
UCSのAnnex A、翻訳規格のJIS X 0221では、附属書A(規定) 部分集合用図形文字の組のパートを見ても、さまざまな部分集合の名前と含まれる符合位置及び符合位置の組とをだらだらと羅列しただけのものにすぎない。では、なぜ、このAnnex Aが重要なのかというと、キモは規格書本体の4 適合性 4.3 装置の適合性のところにある。
ちょっと面倒だが、JIS X 0221:2022から該当部分を引用する。
「適合性を主張する場合、(中略)、採用した符号化形式、符号化方式、部分集合及び個条11に従って採用した制御機能の種類を明記しなければならない(部分集合は、組及び/又は文字の一覧によって示す。)。」
UCSに適合していると主張するためには、他のゴチャゴチャとした項目とともに、該当する装置で用いるUCSの符合位置を明記しろよな、符合位置すべてをダラダラと記述するのが面倒なら、Annex Aに記載されている組の名前を使ってもいいよ、ということ。
ぼくが文字コードの標準化に係わり始めたころは、装置やフォントの規格への適合性といっても、次々に新しく規格化された符号化方式や符合位置に対応していくことに精一杯で、装置から、不要な、もしくは、いたずらをする符合位置を排除した上で、規格適合性を主張するなどという必要性が顕在化することはなかったように思う。
拡張Bが規格化されて、康煕字典の見出し文字すべてが曲がりなりにも統合漢字に含まれるようになったころから、国や地域に特有の異体字を区別して使いたい、というニーズが顕在化してきた。汎用電子情報交換環境整備プログラムで、人名や地名に用いられる多くの異体字を拾い集めた日本も例外ではなかった。そんな需要に応えるために、随分以前に規格としては成立していたVSのメカニズムを、統合漢字に適用し、登録制度を設けることで国や地域による必要性の差異を解決しようとしたのが、Unicode Consortiumが提案した、IVD(Ideographic Variation Databese)の仕組みだった。
しかし、この仕組みは日本とUS以外のIRGのメンバーにはなかなか理解されず、規格の整合性という点からは目も当てられぬような非互換な統合分離が、繰り返されている。
このような状況の中で、日本の現代社会で必要不可欠な符合位置(と符合位置の列)とを、用途毎に明確にAnnex Aのコレクションとすることで、不要もしくは害悪を及ぼす符合位置を排除しよう、というのが、近来のJSC2(情報処理学会情報規格調査会SC2専門委員会)の基本的な戦略となっている。
Annex Aを用いれば、例えば、JIS X 0208だけとか、JIS X 0213の漢字部分とJIS X 0208全体とか、常用漢字と仮名文字だけ、とかいった部分集合をUCSの中だけで、宣言することが可能となる。
WTO/TBTとの関連
この実際に使用するUnicodeのサブセットとしての文字集合を明示することの重要性が増してきたもう一つの理由は、WTOやTBT協定といった貿易に関する国際条約の側から、国内の工業規格が非関税障壁とならないように国際標準に則った調達を促進する動きが強まったことがある。
例えば、現在では、JIS X 0213に適合した装置といえば、JISの面区点位置に対応するUCSの符合位置と符合位置の列のすべてをUCSの符号化方式で符号化したもの、といったことのなるが、かつてのShift JISなどは、典型的なWTO/TBT違反とったことになってしまう。
ちかごろ、デジタル庁で行政事務標準文字の策定が進んでいるが、これも、現時点でUCSにもIVDのMJコレクションにも対応する符合位置や符合位置の組を持たないものを標準化したりIVD登録した上で、Annex Aに新たなコレクションを切ることで、晴れて国際標準準拠を謳うことができるようになる。
国際標準とWTO/TBTとの関係については、下記を参照のこと。
CREPDL
ISO/IEC JTC1には、UCSのみならず、ある装置に用いる文字レパートリを明示的に記述するための言語が規格化されている。ISO/IEC 19757-7:2020。
この翻訳規格が、JIS X 4177-7 (文書スキーマ定義言語(DSDL)—第7部:文字レパートリ記述言語(CREPDL))。
国際規格、翻訳規格共々、悪友村田真(当協議会の副会長)が中心となって規格化を行った。
今後、地域や用途毎に、半ばカオスと化したUCSの中で、必要な符合位置と符合位置の組とを明示的に限定する用途はますます増大するものと思われる。そのためにも、機械的な処理でUCSへの適合性を検証できる仕組みの必要性も増してくることだろう。
CREPDLのJIS化経緯については、村田真の下記の報告が参考になる。
最後に
ちょっとまとまりのない流れになってしまったので、簡単に整理し直しておこう。
一旦統合されて同じ符合位置を与えられた文字を、複数の字体とみなして統合分離することは、規格の相互非互換となり混乱を招く。
それを避けるためには、メカニズムとしてはIVSを用いることが好ましい。
自国の状況に反して非互換な統合分離が行われた場合は、弊害をもたらす符合位置を排除するため、用いるべき符合位置と符合位置の列を明示的に宣言するために、Annex Aを用いることが有効である。
この方式は、国際規格に準拠した上で、国や地域のニーズに対応するという点で、WTO/TBTの観点からも好ましい。
字体と字形、改めて
ここ一年ほどお手伝いしてきた、デジタル庁の「地方公共団体情報システムにおける文字要件の運用に関する検討会」がひとまず終結した。当初、ぼくの方も、デジ庁の担当の方々も、ゴールの設定を含めて手探り状態だったのが、終盤にさしかかるころには(少なくともぼくの方では)目指すべき方向性というか、符号化文字集合を用いた公共的情報システムに求められる要件が何かについて、かなり明確に理解できるようになったのではないか、と思う。いまさらなにを、という声も聞こえてきそうだが、1995年にユニコードの技術委員会に顔を出すようになってから、四半世紀以上経って、自分が何をなし、何を考えてきたかが、ようやくほの見えてきた、といったところか。一区切りついたところで、過去をも振り返りつつ、いくつかの基本資料に触れながら、符号化文字集合とはいかなるものなのかについて、ぼくなりの考えをまとめておきたい。
というわけで、ぼくの符号化文字集合論、その一。
常用漢字表
字体と字形、初めの初め
[https://www.bunka.go.jp/kokugo_nihongo/sisaku/joho/joho/kijun/naikaku/kanji/]
まずは、この二つの言葉から始めよう。《字体》と《字形》。
この二つの概念の相違についての理解がなければ、そもそも符号化文字集合についての議論は成り立たない。とはいえ、関係者の間でも、符号化文字集合の文字集合が何を意味しているかについて、完璧な合意があるわけでもない。ユニコードにしてもJISの漢字集合にしても、文字とは何かについて開発者間で明確な合意があるとは言い難い。以下は、あくまでぼく個人の考え。
《字体》とは字の骨組み(骨格)を表す抽象的案概念。
《字形》とは、視覚的に認知できる具体的な字の形。
この概念の違いは、多分、符号化文字集合だけでなく、もう少し広い範囲の専門家の間でも共有されているように思える。例えば、内閣告示となっている常用漢字表。これは、符号化を前提としない純粋な文字表(文字集合)だが、字体概念と字形概念を明確に切り分けて記述されている。さすが。
常用漢字表を策定した側(文化審議会国語分科会の委員の方々と文化庁国語課の専門官)では、常用漢字表は字体集合だという明確な意識をお持ちだということがよく分かる。しかし、字体は抽象概念なので、それを視覚的にどう表現するかにものすごくご苦労なさっている。下記の記述など、そんなご苦労の跡がにじみ出ていて、何だかニヤニヤしてしまう。
「個々の漢字の字体については、現行の常用漢字表同様、印刷文字として、明朝体が現在最も広く用いられているので、便宜上、そのうちの一種を例に用いて示した。このことは、ここに用いたものによって、現在行われている各種の明朝体のデザイン上の差異を問題にしようとするものではない」(改定常用漢字表平成22年6月7日、(15)ページ)
ちなみに、この改定常用漢字表の印刷には、IPAMJ明朝体が用いられているのですよね。エヘン。
このような字体表の視覚的表現に明朝体フォント(活字)を用いるという手法は、JISの漢字集合でも採用されていて、これも、苦し紛れといえば苦し紛れながら、JISの規格票に印刷された視覚的字形は、あくまでも参考情報としての例示字形ということになっている。なので、JISについても(そして、UCSについても)、ここで引用した常用漢字表記述の後段には、まったくもって納得がいく。
さらにちなみに。常用漢字表の前身である当用漢字字体表は、ある意味で、むしろ潔い。明朝体ではなく、手書きのそれも太さに変化が少ない、太めの鉛筆で書いたような書体で字体を示している。この方が、字体は文字の骨格であることがより明確に伝わってくる。
[https://www.bunka.go.jp/kokugo_nihongo/sisaku/joho/joho/kakuki/syusen/tosin05/index.html]
『行政用文字の調査研究』(高田智和・井手順子・虎岩千賀子)
『行政用文字の調査研究における文字同定』(高田智和)
https://doi.org/10.15084/00002197
行政用文字の調査研究 : 汎用電子情報交換環境整備プログラム
高田, 智和,井手, 順子,虎岩, 千賀子,TAKADA, Tomokazu,IDE, Junko,TORAIWA, Chikako
日本語科学, 23, p. 95-110, 2008-04-22
https://doi.org/10.15084/00002218
行政用文字の調査研究における文字同定 : 辞書同定と辞書非掲載字に対する文献資料・非文献資料による同定
高田, 智和,TAKADA, Tomokazu
日本語科学, 25, p. 131-141, 2009-04-24
上記の二つの論文は、CITPCの理事でもあり文字情報基盤委員会の委員長もお願いしている国立国語研究所教授の高田智和さんの国研の紀要に掲載された論文。
この論文自体、人名に用いられる漢字の扱いがいかに困難ことなのかを、汎用電子情報交換環境整備プログラムから文字情報基盤整備事業に至る豊富な実体験に立脚して論じていて、自治体の現場で実務に係わる方々には、ぜひ、読み込んでいただきたいものなのだが、白眉は、じつは、この論文に掲載されている図。高田さんは、図よりも本文!と文句を言うかもしれないが、この図ほど、字種、字体、字形の違いを明確に示したものをぼくは他に知らない。というか、上にぼくが書いた説明など、この図を見れば瞭然、説明など全く必要ない、というものだ。
(img)(img)
左側が共著、右側が単著。字種、字体、字形の階層構造が一目瞭然。この図を目にするだけでも、両論文を参照する価値がある、というものだ。
あえて、言わずもがなの説明を加えると。これらの図が、優れているのは、字種、字体、字形の違いが階層構造で分かりやすく表現されているところにある。一つの字種に複数の字体があり、さらに、それぞれの字体にも複数の字形があることが、まさに一目瞭然なのだ。特に、左側の図で、一つの字体(明朝体の字形で代表させている)の下に、明朝体字形と手書き字形を並べて掲げてあるところ。まさに、字形が具体的な視覚イメージであり、字体が抽象的な文字の骨格であることが、簡単に理解できる。
字体と字形の狭間で(小林龍生)
文字情報基盤整備事業を例として
[https://www.jstage.jst.go.jp/article/johokanri/58/3/58_176/_article/-char/ja/]
拙論でいささか気恥ずかしいのだが、もう一つだけ、字体概念と字形概念の違いを理解するための、試行実験の例を掲げておく。
題記の論文は、国立研究開発法人科学技術振興機構(JST)が刊行していた「情報管理」vol.58 no.3,2015に掲載されたもの。手前味噌だが、わりとうまく書けていると思う。2016年に発表された文化審議会国語分科会報告『常用漢字表の字体・字形に関する指針』の編集を担当していた文化庁国語課(当時)の武田さんが、文字情報基盤整備事業の委員会が終わったとき、わざわざ、歩み寄ってきて、絶賛してくれた。ものすごく嬉しかった。
閑話休題。
この論文に、書いた思考実験。
簡単な思考実験で説明する。
さまざまな新聞や雑誌などから切り取ってきた多数の文字(具体的な字形の集合)を,視覚的類似性を手がかりに複数のグループにまとめる。まとまった字形のグループを,小さな箱か袋にまとめて入れる。これらの箱や袋に,他と明確に区別できる整理番号や固有の名前を付ける。
この整理番号や固有名を字体と見なすのである。
すなわち,同一の箱に入れられた字形は同じ字体に属し,異なる箱に入れられた字形は字体が異なる,と考える。
読者の多くは,はぐらかされたように感じられると思うが,情報技術としての符号化文字集合では,ラベル(整理番号や固有名)そのものを伝達や複製などの処理の対象としても,何ら不都合は生じない。逆にいえば,情報処理装置は,ビット列に還元でき
るラベルしか扱うことができない。
字体とは異同を判別するために字形の集合に付けられた固有名である。
(情報監理2015 vol.58 no.3 p177)
最初の常用漢字表の説明に戻ると、常用漢字表に印刷されている明朝体の文字も、新聞や雑誌、手書きメモなどから切り取ってきたさまざまな文字を入れた袋や小箱に貼り付けられたラベルのようなものなのだ。原理的には、このラベルは、文字として判別できれば、明朝体だろうが、ゴシックだろうが、手書きだろうが、どのような書体でもいいのだが、デザイン的に統一されていた方が見やすいし、間違いも起こりにくい、ということで、便宜上ある明朝体書体(この場合は、IPA MJ明朝体)に統一しておく、といったことと考えればいい。
《抽象的な概念である字体は、何らかの具体的な字形を通してしか人に伝えられない。》
IPAフォントライセンスを巡って
先般、当協議会所属のフォント技術のエキスパートから、MJ明朝体フォントをWOFF化するサービスを提供しているサイトがある、MJ明朝体フォントの使用許諾契約に違反しているのではないか、との指摘があった。事務局長や対外窓口をお願いしている理事の方とも相談して、このサイトのオーナーに連絡を取り、MJ明朝体決め打ちのサービスについては、公開を差し控えていただいた。
ぼく的には、フォントをWOFF化するサービスの必要性もよく分かるし、協議会としても、WOFF化やサブセットフォントの提供など、協議会として直接行うか、協議会メンバーのフォントベンダー各社にビジネスとしてやっていただくかも含めて、具体的な方策を検討しているところだ。
ちょうどいい機会なので、MJ明朝体フォントの使用許諾契約書の成立の経緯と、ついでに、フォントの知的所有権を巡るず〜っと以前のぼくの経験を書き記しておきたい。
そう考えて、経緯を思い起こそうと、過去のメールなどを掘っていたら、先般、開志専門職大学の田代秀一さんが、当協議会メンバーの勉強会でお話しくださった折の資料が出て来た。とてもよくまとまっているので、この資料を引用しながら、ぼくなりのコメントを添えていくことにしたい。
IPAフォントの歴史(田代さん)
2003年 タイプバンク社から権利を購入 (JIS X 0208相当の文字セット(約7千文字)) 2004年 IPAの委託により開発されたソフトで使用することを条件として公開
2007年 (ソフトにかかわらず)誰でも使えるライセンスを適用(改変は不可)
JIS X 0213相当の文字セット(約1万文字)へ拡張
2009年IPAフォントライセンスの適用
OSI(Open Source Initiative)から、同団体の定めるOpen Source Definitionに合致する オープンソースライセンスであるとの認定を受ける。
2010年文化庁が常用漢字改訂の検討に採用。同年11月に告示された常用漢字表はIPAフォント を活用して構成された。
2010年「文字情報基盤整備事業」開始
内閣官房IT総合戦略室、経済産業省と共に、行政の実務で求められる人名や地名等の正 確な表記をコンピュータで可能にするため、約6万文字の漢字について、文字フォント の整備や文字コードの国際規格化等を実施
2017年 ISO/IEC 10646 ed.5発行、IVD version 2017-12-1発行
2019年ISO/IEC10646ed.5追補2発行。提案していた全ての国際規格化が完了。
昔話(小林)
ぼくがIPAフォントに係わったのは、2007年あたりからかな。特に、2009年のOSIからのOSD認証は印象に残っている。電子書籍コンソーシアム時代からの盟友、沼田秀穂さんと池田佳代さんが、獅子奮迅の活躍をしてくれたっけ。
このライセンスがあったからこそ、後のMJ明朝体フォントの開発、公開が出来たと言っても、過言ではないだろう。
IPAフォントライセンスの背景(田代さん資料)
ライセンス開発当時の議論(1)
「何を」守るのか
- タイプバンク社との約束
• タイプバンクフォントのファミリー化(ウエイトのバリエーション)とバッティングさせない。 - フォント産業
• IPAフォントの存在がフォント産業の脅威とならない。 - 一般ユーザー
• 出所や仕様の明らかでないフォントが混在する状態を作らない。
• メンテナンスされたIPAフォントの評判をおとさないような改変フォント名規則が必要。 - IPA
• レピュテーション - OSSコミュニティー
• 自由に使いたい、開発モチベーション。
ライセンス開発当時の議論(2)
「派生」を制限する方法についての案
- 差分ファイル(difference file)方式
• 例えば、UNIXのdiffなどを用いて、差分ファイルとpatchツールのみ派生を許諾する。
• 差分ファイル自身にファイルの更新機能を付加して配布してもよい。
→議論の結果「もとに戻せるようにする」という条文とした - 派生フォントは必ずコピーレフト
• ビジネスで用いるための高品質改訂フォントへコストをかけた改訂への敷居とする。 - 改変に伴って既存の市販流通フォントに類似してしまった場合、IPAは一切責 任を負わないことを明記。
• 既存バリエーションフォントとのバッティングにはIPAは責任をとらない姿勢を出す。
4.フォント名、フォントファイル名に対する使用制限
• 派生フォントにはIPAフォントの名称を使用してはいけない(SILのOFL精神と同じ)。
その心は。。。
- 表意文字
- わずかな形状変更が(意味に及ぶ)大きな影響
- 多数の異体字
- 文字に発展性がある
- 製品のシェアを背景として、変更された字形が普及してし まう恐れ
- 利用者の主体性が保証されることが重要
もう一つのポイント(小林)
IPAライセンス開発の背景については、この田代さんの資料で十全に尽くされていて、ぼくがあえて付け加えることはない。ただ、今回のWOFFをめぐる出来事で、思い知った、IPAライセンスの重要なポイントについてだけ、付記しておきたい。
フォントの知的所有権を巡る議論は、今も昔も、主として、書体デザインに係わるものがほとんどだ。
しかし、MJ明朝体フォントについては、文字情報一覧表に記載されている文字図形のすべてが、UCSの符号位置(IVSを含む)から視覚的に表現できる、ということがとても重要なのだ。例えば、JIS X 0213の範囲のフォントなら、それこそ枚挙に暇がないほどの種類がある。JIS X 0208やかつてのCP932相当にまで範囲を拡げれば、その数はさらに膨らむ。
しかし、少なくとも文字情報基盤整備事業が完了した2019年時点では、文字情報一覧表の全ての文字をカバーしたフォントは、MJ明朝体フォントしか存在しなかった。というか、文字情報一覧表すべての文字を網羅するフォント、というのが、 MJ明朝体フォントのいわばレゾンデートルそのものなのだ。
田代さんの資料からは、フォント名への強いこだわりが読み取れるが、そのこころは、MJフォントを標榜するからには、文字情報一覧表に記載されているすべての文字図形が含まれていなければならない、という決意というか責任感があった。
ぼくは、今回のWOFF化ツールを巡る問題で、いわば条件反射的に、「こればヤバイ!」と思ったのだが、その思いをブレイクダウンしていくと、まさに、この田代さんの思いに突き当たる。
MJフォントには、文字情報一覧表のすべての文字図形が含まれていなければならないのだ。
文字セットの表象としてのフォント
ちょっとややこしい話になるけれど。というか、このブログでも、何度か言及してきたことだが、現在のカオスのようなUCSの世界では、Annex Aでコレクションを切って、使用符号位置を制限し、(可能な限り)集合論でいうコンパクトセットを保持することが重要になっている。
元AdobeのフォントエンジニアのKen Lundeは、IVDの説明のところで、glyphic subsetという言葉をつかっているが、文字の抽象的な形としてのglyphに内包される具体的な図形の範囲は、文字集合全体が(コンパクトセットとして)定まっていなければ、定めることが出来ない。言い換えれば、文字集合の構成要素が変化すれば、あるglyphに含まれる具体図形の範囲も変化する、ということ。
かつて、JIS X 0213でJIS 0208では包摂されていた文字を分離した際に起こったことを思い起こせば、ピンとくるだろう。
MJフォントに戻って、WOFFやサブセット化の問題は、MJフォントから、一部のグリフイメージを切り取って、サブセットを作ってしまうと、その背後にある文字集合も変化し、ユニコードでいうところの、統合範囲も変化してしまう、ということ。
協議会としてのWOFFやサブセットフォント化の検討
とはいえ、文字情報基盤の運用上、その実装環境によっては、WOFF化やサブセット化が必要な局面があることは、十分承知している。
端的な例を挙げれば、現在、デジタル庁で検討が進められている、行政事務標準文字(いわゆるMJ+)でも、現在の文字情報基盤にこれらの文字を追加すると、現在のオープンタイプフォントの制限である16bitの範囲を超えてしまうので、複数のファイルに分離するか、何らかの形での文字一覧表のサブセット化が避けられない。
協議会としてのソリューションについては、会員となっているフォントベンダー各社によるビジネス化も含めて、鋭意検討が進められている。
その場合、現在のIPAフォントライセンスとは異なるライセンスによる使用許諾が必要になるかもしれない。その場合でも、上に掲げた田代さんの思いが継承されることは言うまでもないだろう。
IPAフォントライセンス v1.0(田代さん資料)
- 文案作成を野口祐子弁護士に依頼
- 商用利用を含み、無償で利用可能。
- コピー・再配布を自由とするが、再配布にあたっては同じIPAフォントライセンスを継承さ せなくてはならない。またフォントの名称(「IPAフォント」商標登録済み)の変更は認めない。
- IPAフォントを改変した「派生フォント」を再配布可能。 (条件)
- 利用者が、その意志により、派生フォントを オリジナルのフォントに戻せる方法を提供しなければならない。
- 派生フォントは、Web等のだれもがアクセスできる方法により 。
- 派生フォントには、それをさらに改変するために必要となる十分な情報を添付しなければならない。
- 派生フォントにも、同じIPAフォントライセンスを継承しなければならない。
オープンフォントの志(小林コメント)
このライセンスの文案を作成してくださった野口祐子弁護士は、クリエイティヴ・コモンズ・ジャパンの中心人物としてつとに有名な方。彼女に文案をお願いし、OSIとの密なやりとりを経て完成したのが、IPAフォントライセンスというわけ。
現在、当協議会から配布しているMJ明朝体フォントも、もちろん、このライセンスの元で配布している。当協議会は、独立行政法人情報処理推進機構から、文字情報基盤に係わる一切の成果物について、信託譲渡を受けているわけだけれど、その中核となる文字情報一覧表とMJ明朝体フォントとともに、このライセンスも、文字情報基盤の重要な成果物と言えるだろう。
IPAフォントライセンスを巡って
先般、当協議会所属のフォント技術のエキスパートから、MJ明朝体フォントをWOFF化するサービスを提供しているサイトがある、MJ明朝体フォントの使用許諾契約に違反しているのではないか、との指摘があった。事務局長や対外窓口をお願いしている理事の方とも相談して、このサイトのオーナーに連絡を取り、MJ明朝体決め打ちのサービスについては、公開を差し控えていただいた。
ぼく的には、フォントをWOFF化するサービスの必要性もよく分かるし、協議会としても、WOFF化やサブセットフォントの提供など、協議会として直接行うか、協議会メンバーのフォントベンダー各社にビジネスとしてやっていただくかも含めて、具体的な方策を検討しているところだ。
ちょうどいい機会なので、MJ明朝体フォントの使用許諾契約書の成立の経緯と、ついでに、フォントの知的所有権を巡るず〜っと以前のぼくの経験を書き記しておきたい。
そう考えて、経緯を思い起こそうと、過去のメールなどを掘っていたら、先般、開志専門職大学の田代秀一さんが、当協議会メンバーの勉強会でお話しくださった折の資料が出て来た。とてもよくまとまっているので、この資料を引用しながら、ぼくなりのコメントを添えていくことにしたい。
IPAフォントの歴史(田代さん)
2003年 タイプバンク社から権利を購入 (JIS X 0208相当の文字セット(約7千文字)) 2004年 IPAの委託により開発されたソフトで使用することを条件として公開
2007年 (ソフトにかかわらず)誰でも使えるライセンスを適用(改変は不可)
JIS X 0213相当の文字セット(約1万文字)へ拡張
2009年IPAフォントライセンスの適用
OSI(Open Source Initiative)から、同団体の定めるOpen Source Definitionに合致する オープンソースライセンスであるとの認定を受ける。
2010年文化庁が常用漢字改訂の検討に採用。同年11月に告示された常用漢字表はIPAフォント を活用して構成された。
2010年「文字情報基盤整備事業」開始
内閣官房IT総合戦略室、経済産業省と共に、行政の実務で求められる人名や地名等の正 確な表記をコンピュータで可能にするため、約6万文字の漢字について、文字フォント の整備や文字コードの国際規格化等を実施
2017年 ISO/IEC 10646 ed.5発行、IVD version 2017-12-1発行
2019年ISO/IEC10646ed.5追補2発行。提案していた全ての国際規格化が完了。
昔話(小林)
ぼくがIPAフォントに係わったのは、2007年あたりからかな。特に、2009年のOSIからのOSD認証は印象に残っている。電子書籍コンソーシアム時代からの盟友、沼田秀穂さんと池田佳代さんが、獅子奮迅の活躍をしてくれたっけ。
このライセンスがあったからこそ、後のMJ明朝体フォントの開発、公開が出来たと言っても、過言ではないだろう。
IPAフォントライセンスの背景(田代さん資料)
ライセンス開発当時の議論(1)
「何を」守るのか
- タイプバンク社との約束
- タイプバンクフォントのファミリー化(ウエイトのバリエーション)とバッティングさせない。
- フォント産業
- IPAフォントの存在がフォント産業の脅威とならない。
- 一般ユーザー
- 出所や仕様の明らかでないフォントが混在する状態を作らない。
• メンテナンスされたIPAフォントの評判をおとさないような改変フォント名規則が必要。
- IPA
- レピュテーション
- OSSコミュニティー
- 自由に使いたい、開発モチベーション。
ライセンス開発当時の議論(2)
「派生」を制限する方法についての案
1.差分ファイル(difference file)方式
- 例えば、UNIXのdiffなどを用いて、差分ファイルとpatchツールのみ派生を許諾する。
- 差分ファイル自身にファイルの更新機能を付加して配布してもよい。
→議論の結果「もとに戻せるようにする」という条文とした
2.派生フォントは必ずコピーレフト - ビジネスで用いるための高品質改訂フォントへコストをかけた改訂への敷居とする。
3.改変に伴って既存の市販流通フォントに類似してしまった場合、IPAは一切責 任を負わないことを明記。 - 既存バリエーションフォントとのバッティングにはIPAは責任をとらない姿勢を出す。
4.フォント名、フォントファイル名に対する使用制限
• 派生フォントにはIPAフォントの名称を使用してはいけない(SILのOFL精神と同じ)。
その心は。。。
- 表意文字
- わずかな形状変更が(意味に及ぶ)大きな影響
- 多数の異体字
- 文字に発展性がある
- 製品のシェアを背景として、変更された字形が普及してし まう恐れ
- 利用者の主体性が保証されることが重要
もう一つのポイント(小林)
IPAライセンス開発の背景については、この田代さんの資料で十全に尽くされていて、ぼくがあえて付け加えることはない。ただ、今回のWOFFをめぐる出来事で、思い知った、IPAライセンスの重要なポイントについてだけ、付記しておきたい。
フォントの知的所有権を巡る議論は、今も昔も、主として、書体デザインに係わるものがほとんどだ。
しかし、MJ明朝体フォントについては、文字情報一覧表に記載されている文字図形のすべてが、UCSの符号位置(IVSを含む)から視覚的に表現できる、ということがとても重要なのだ。例えば、JIS X 0213の範囲のフォントなら、それこそ枚挙に暇がないほどの種類がある。JIX X 0208やかつてのCP932相当にまで範囲を拡げれば、その数はさらに膨らむ。
しかし、少なくとも文字情報基盤整備事業が完了した2019年時点では、文字情報一覧表の全ての文字をカバーしたフォントは、MJ明朝体フォントしか存在しなかった。というか、文字情報一覧表すべての文字を網羅するフォント、というのが、 MJ明朝体フォントのいわばレゾンデートルそのものなのだ。
田代さんの資料からは、フォント名への強いこだわりが読み取れるが、そのこころは、MJフォントを標榜するからには、文字情報一覧表に記載されているすべての文字図形が含まれていなければならない、という決意というか責任感があった。
ぼくは、今回のWOFF化ツールを巡る問題で、いわば条件反射的に、「こればヤバイ!」と思ったのだが、その思いをブレイクダウンしていくと、まさに、この田代さんの思いに突き当たる。
MJフォントには、文字情報一覧表のすべての文字図形が含まれていなければならないのだ。
文字セットの表象としてのフォント
ちょっとややこしい話になるけれど。というか、このブログでも、何度か言及してきたことだが、現在のカオスのようなUCSの世界では、Annex Aでコレクションを切って、使用符号位置を制限し、(可能な限り)集合論でいうコンパクトセットを保持することが重要になっている。
元AdobeのフォントエンジニアのKen Lundeは、IVDの説明のところで、glyphic subsetという言葉をつかっているが、文字の抽象的な形としてのglyphに内包される具体的な図形の範囲は、文字集合全体が(コンパクトセットとして)定まっていなければ、定めることが出来ない。言い換えれば、文字集合の構成要素が変化すれば、あるglyphに含まれる具体図形の範囲も変化する、ということ。
かつて、JIS X 0213でJIS 0208では包摂されていた文字を分離した際に起こったことを思い起こせば、ピンとくるだろう。
MJフォントに戻って、WOFFやサブセット化の問題は、MJフォントから、一部のグリフイメージを切り取って、サブセットを作ってしまうと、その背後にある文字集合も変化し、ユニコードでいうところの、統合範囲も変化してしまう、ということ。
協議会としてのWOFFやサブセットフォント化の検討
とはいえ、文字情報基盤の運用上、その実装環境によっては、WOFF化やサブセット化が必要な局面があることは、十分承知している。
端的な例を挙げれば、現在、デジタル庁で検討が進められている、行政事務標準文字(いわゆるMJ+)でも、現在の文字情報基盤にこれらの文字を追加すると、現在のオープンタイプフォントの制限である16bitの範囲を超えてしまうので、複数のファイルに分離するか、何らかの形での文字一覧表のサブセット化が避けられない。
協議会としてのソリューションについては、会員となっているフォントベンダー各社によるビジネス化も含めて、鋭意検討が進められている。
その場合、現在のIPAフォントライセンスとは異なるライセンスによる使用許諾が必要になるかもしれない。その場合でも、上に掲げた田代さんの思いが継承されることは言うまでもないだろう。
IPAフォントライセンス v1.0(田代さん資料)
- 文案作成を野口祐子弁護士に依頼
- 商用利用を含み、無償で利用可能。
- コピー・再配布を自由とするが、再配布にあたっては同じIPAフォントライセンスを継承さ せなくてはならない。またフォントの名称(「IPAフォント」商標登録済み)の変更は認めない。
- IPAフォントを改変した「派生フォント」を再配布可能。 (条件)
- 利用者が、その意志により、派生フォントを オリジナルのフォントに戻せる方法を提供しなければならない。
- 派生フォントは、Web等のだれもがアクセスできる方法により 。
- 派生フォントには、それをさらに改変するために必要となる十分な情報を添付しなければならない。
- 派生フォントにも、同じIPAフォントライセンスを継承しなければならない。
オープンフォントの志(小林コメント)
このライセンスの文案を作成してくださった野口祐子弁護士は、クリエイティヴ・コモンズ・ジャパンの中心人物としてつとに有名な方。彼女に文案をお願いし、OSIとの密なやりとりを経て完成したのが、IPAフォントライセンスというわけ。
現在、当協議会から配布しているMJ明朝体フォントも、もちろん、このライセンスの元で配布している。当協議会は、独立行政法人情報処理推進機構から、文字情報基盤に係わる一切の成果物について、信託譲渡を受けているわけだけれど、その中核となる文字情報一覧表とMJ明朝体フォントとともに、このライセンスも、文字情報基盤の重要な成果物と言えるだろう。
特別講演会:日本のITと行政との接面での《外字とは何か》
例年、当協議会の総会を機に開催している特別セミナーの記録映像と発表資料が公開された。
[https://moji.or.jp/seminar/]
前半は、当協議会副会長の山本太郎さんによる、『文字サイズの標準化の歴史をたどる』というちょっとディープなお話。文字の大きさを指定するポイントの歴史を辿りながら、その話題自体が、活版印刷からDTPをへて、現在のデジタル出版に至る印刷技術史を俯瞰するものになっていて、秀逸。
後半は、『日本のITと行政との接面での《外字》とは何か』と題したパネル。
パネリストには、今、MJ+の議論でチョー話題となっているデジタル庁の前田みゆきさん、地方自治体の行政現場を知悉している一般財団法人全国地域情報化推進協(APPLIC) 企画部担当部長の吉本明平さん、そして、実装実務を担うベンダー代表みたいな感じで、当協議会事務局長で、日本マイクロソフトのNTO(National Technology Officer)のご存じ田丸健三郎さん。田丸さんは、デジ庁職員でもある。
ぼくも、モデレータとして登壇した。けれど、司会をしていて後悔した。自分で言いたいことが、山と出て来て、冷静に司会なんてやっていられなくなってしまった。まあ、反省と言えば反省だけれど、それだけ議論が熱かったってことかな。
委細は、記録映像をご覧いただくこととして、ぼく的には、このパネルを通して、感じたこと、考えたことを書いておこうと思う。
外字とは何か
前田さん、吉本さん、田丸さん、それぞれが、ポジショントークで述べてくれたことを、一言でまとめると。
前田さん:MJ文字情報一覧表に同定できない文字が外字。
吉本さん:複数のシステム(自治体)で、相互運用性がとれない文字が外字。
田丸さん:国際標準で標準化さんれていない文字が外字。
それぞれの立ち位置がはっきり表れていて、これだけでも面白いね。
で、ぼく的には、当然と言えば、当然だけれど、田丸さんに一票。
というか、前田さんのMJ+プロジェクトについては、ぼくも、有識者検討会の末席に加えていただいているので、もはや当事者の一人になってしまっているわけで。で、この有識者検討会には、将来の国際標準化に向けたアドバイスをする、みたいな役割分担を仰せつかっている。この有識者検討会で、ぼくが申し上げたことは、一言で言えば、MJ+プロジェクトのゴールは、現在のMJ文字情報一覧表からこぼれ落ちる文字を、国際標準(IVDを含めて)と紐付けることですよ、紐付けられないものの新規符号化提案も含めて、ということになる。検討会の時に、つい、口をすべらせて「国際標準との整合性がゴールで、まあ、MJとの関係なんてどうでもいいんです」などと、文字情報技術促進協議会会長としては、いささか問題発言もしてしまったけれど。
で、田丸さんの「国際標準で標準化されていない文字が外字」という立場について、もう少し敷衍すると(田丸さん自身が記録映像で話していることだけれど)、現今の情報システムでは、広い意味での国際標準に準拠していないシステムは事実上、開発出来ない、ということになる。事実上、というのは、コストの面とWTO/TBT的な意味での非関税障壁という両方の意味を持っている。
逆に言えば、国際標準になってしまえば、前田さん的な意味での、MJとの整合性も担保できる(文字情報基盤としてMJ+への拡張を行わないという選択肢はない!)し、吉本さん的な意味での、相互互換性も担保できる。
符号化文字集合屋がやるべきこと
一つ前のブログ(水平拡張提案の公開レビュー)にも書いたことだが、国際標準は、専門家(コンテンツエキスパートとプロシージャエキスパート)が少人数で原案を作り、それに対するコメントを広く求めて、練り上げていく、というやり方が一番高品質なものを短時間で作ることが出来る(とぼくは信じている)。MJ+について言えば、文字の検討については、すでに、早稲田大学の笹原宏之を筆頭に、当協議会の仲間である京都大学の安岡孝一さんや国立国語研究所の高田智和さんも係わってきておられるみたいだし、プロシージャに関しては、JSC2のメンバーの多くが当協議会のメンバーとも重なっているので、こちらの方も役者はそろっている。敢えて難があるとすると、みなさん、いい人過ぎるんだよな。
村田真ではないが、国際標準化活動には、ある種の悪巧み、というか、手練手管が必要な場面がないわけではない。
今回のMJ+について言えば、スピード最優先。
標準屋の一部には、というか、多くは、ぼく自身も含めて、ある種の美意識を持っている。標準(Standard)というよりも規格(Specification)としての側面。全体として一貫性と整合性があり、不必要な文言がない簡潔で十分な記述、みたいな。
しかし、この辺りを追求していくと、結構時間と手間がかかる。特に、符号化文字集合は、相手が言語や文字であるだけに、そもそも、体系そのものに矛盾や不整合満載。特に、CJKパートは、東アジア漢字文化圏全体(チュノムを用いるヴェトナムも含む)に係わっているため、台湾や香港を含む中国語の地域差や、歴史的変遷もあり、もうしっちゃかめっちゃか状態。
そうした中で、日本の現代社会における人名・地名を表すために用いられる漢字を、情報システムで扱うために必要最小限の整合性(文字集合として、その構成要素が固有名(符号列)と排他的に結びついていること)を担保しつつ、可及的速やかに国際標準化することが必要になる。
この文字集合としての整合性を担保することが困難だという問題は、じつは、今に始まったことではなく、潜在的にはUCSがCJK統合漢字というモデルを採用したときからあった問題で、ぼくが故樋浦秀樹さんらとともに提案したVS(variation selector)というメカニズムも、統合規則と国や地域によって異なる字体の弁別粒度との折り合いを付けるためのものだったりする。
もう一つのキーは、UCSのAnnex A(部分集合用図形文字の組)というヤツ。
ここには、Unicodeの過去のversionに対応する部分集合から、日本の常用漢字に対応する部分集合にいたるまで、さまざまなレベル、さまざまな性格の部分集合が収められている。部分集合といっても、単に、UCSの符号位置(と符号位置の列)を列挙しただけのものなのだが、UCSの一部の符号位置だけを使って、UCSへの準拠性を主張するときには、とても便利。このAnnex Aの規定がないと、使いたいUCSの符号位置をぜ〜んぶ列挙しなければならない。ヤレヤレ。
JSC2では、ここ数年にわたって、このAnnex Aに、JISの漢字集合を中心に、日本の現在の社会で必要だと思われる部分集合を積極的に提案している。この動きは、ある意味では、JISの漢字集合の記述内容を、JISを用いずにUCSだけで閉じた形で記述することでもある。JIS意外にも、常用漢字字体表など、じつは、Annex Aのコレクションとして記載されるまで、国内規格も含め、公的な標準規格情報としては、UCSの符号位置との対応関係の記述は存在していなかった。(ちょっとややこしい話だが、JIS X 0213には、ある面区点位置が常用漢字に含まれるという情報はあるが、それが常用漢字表のどの字であるかは、印刷された例示字形をヒントにして、結びつけるしかない。しかも、その例示字形は、参考情報であって規格本文ではない! とはいえ、現在の常用漢字表はMJ明朝体を用いて作成されているので、実質的には文字情報基盤文字情報一覧表の常用漢字についての記載内容で、UCSと常用漢字の対応関係は明確なのだけれど。)
一方、JISとUCSとの関係を見ていくと、ところどころ、包摂規準と統合規則のズレを中心に、矛盾する個所がある。
卑近な例を二つばかり挙げると、吉(U+5409, 1-21-40)と𠮷(U+20BB7,1-21-40)、髙(U+9AD8,1-25-66)と髙(U+9AD9,1-25-66)。括弧内の前の方がUCSの符号位置で、後の方がJIS X 0213の面区点位置。それぞれ、「土ヨシ」「はしごダカ」といった言い方で、姓などで区別して使われることが多いが、JIS X 0213では同一面区点位置に包摂されている。現状のJIS規格では、これらを区別して扱うことは事実上出来ないわけだ。
𠮷にしても、髙にしても、UCSに入っているのは、日本以外の国や地域から提案された結果であり、あくまでも日本の工業標準としては、吉と𠮷、高と髙の区別をしていない。(規格としての美しさ、という点では、これらの区別は、JIS X 0213の例示字形をベースキャラクターとして、VSで区別するのが理想的なのだけれど、今改めて文字情報一覧表を確認してみたら、現状ではIVDを用いずに、UCSの別符号位置を充てている。)
いずれにしても、今後のこととして、JIS X 0213では包摂されていて、IVDのコレクションで区別をしている字体が、他の国や地域から提案されて、別符号位置が付与される可能性は大いにありうることだ。このことは、日本の行政や社会生活上の漢字使用にとっては、大きな混乱の種となりうることだ。
パネルの際、吉本さんが強調しておられた相互運用性にとって、符号化文字集合に限って言えば、その文字集合が閉じている(集合論で言えばcompact setになっている)ことが、とても重要なことなのだ。
ところが、自然言語における文字は、変幻自在、国や地域、時代によって、さまざまに変化する。
そんなわけで、吉本さんと前田さんの立場の違いというのは、相互運用性のための文字集合としての厳密さを採るか、住民感情まで配慮した例外をも(ある程度)容認するか、といったところにあったのではないか。まあ、ぼくなりの偏見的独断かもしれないけれど。
現状のユニコードというのは、どちらかというと、前田さんの立場に近い。「だって、欲しいと言っている人がいるのだから入れてしまおうよ」みたいな。
随分と、些末、オタク的議論にはまり込んでしまったが。
上に挙げたような、地域や国、使用目的の違いによる、字体分別粒度の差異と、それに起因する文字集合としての破綻を最小限に留めるためには、できるだけ使用目的に則した部分集合を定めて、使用範囲をその部分集合に限定するのが手っ取り早い。
ぼくが、Annex Aにこだわっているのは、まさに、そのためなのだ。
このアーティクルの前の方に、MJ+の最終目的は、国際標準としてのUCSとの整合性を取ることだ、と書いた。しかし、もうお分かりのように、ゴールはもう一つある。Annex AにMJ+コレクションを追加すること。こうすることによって、中国をはじめとする他の東アジア漢字圏からの(日本の社会的要請とは衝突する)提案の影響を受けずに、相互運用性を担保することが可能となる。
日本の文字符号屋にも、まだまだやることがあるなあ。