いまさら、Unicodeの漢字をさらに増やそうとしているのですが…

Unicodeの漢字をさらに増やそうとしています。うまくいけば、CJK Unified Ideographs Extension F となる予定のものです。大正新脩大藏經に登場する外字をUnicodeで使えるようにしようとする話で、今回は3000字ほど提案しました。実は、すでに情報処理学会「人文科学とコンピュータ研究会」で研究発表も行っており、他でもあちこち呼ばれて話をしておりますので、詳しくはそちらをご覧下さい。あるいは、お声がけくだされば、ご用意いただいた時間に応じて話をいたします。…それはともかくとして、もちろん、私の属するグループだけでなく、世界の漢字利用者グループがそれぞれに提案を行っています。スラブ語を音写するためにかつて一部で使われた漢字も提案されたりしていますが、やはり主に出してきているのは、中国、韓国、日本からです。今回、台湾は残念なことに締切りに間に合わなかったために提案が受領されませんでした。そこのところは大変厳しいです。

Unicodeの漢字を増やすことに関しては、半年に一度、1週間かけて国際会議が行われ、そこでどの字を入れてよいかどうかといったことをはじめとして様々なことが審議されます。
そこで、今回は東京での開催ということで、前日の日曜日までは別の国際会議の開催者側で仕事&自分の発表も行った上、月曜日からは東京タワーのふもとにある機械振興会館で会議に出ています。生々しい会議の模様は、参加してみて少し驚いた部分もあるので(でも大学の教授会のようなものを知っていると、盛り上がり方自体は特に珍しいものではなく、むしろ若干物足りないところがありますが、国際標準を決める会議でもこういうことが、という点で少し驚きがありました)、とりあえず割愛いたします。そこら辺に興味がおありの方は『ユニコード戦記』を読んでいただくとよいと思います。

会議に出される資料は、逐一、議長である香港理工大学のLu qin先生がWebサイトに掲載してくださいます。このサイトは見た目は20世紀的ですが中身は10世紀以前の情報から…という話ではなく、中身は最新のUnicode漢字の情報に満ち満ちています。これまでの議論の経過の反省に基づき、とにかく誤った資料でもすべて掲載されていくようになっているようですので、妙なものも時々あったりして興味深いところです。また、特筆すべき点として、Lu先生の仕切りは大変上手なもので、おかげさまでうまく進んでいるところがたくさんあるように思われます。

さて、その資料群をみていただければわかると思いますが、今回は(も?)少し微妙な事がありました。韓国代表が出してきた漢字字形のエビデンスとしての手書き資料の一部に、写真資料の解像度が低すぎて読み取れないものが複数あったのです。ここでの対応に関するポリシーにはいくつかの選択肢があり得ました。一つは、今回から、stableなデータベースに掲載された字形については、紙のエビデンスがなくともデータベース自体をエビデンスとして認めることになっており、韓国からの今回の提案の主体は手書き資料からデータベースに掲載された字形であるということでしたので、stableなデータベースに掲載されているのであれば、手書き資料がなくともデータベースで以てエビデンスと認めてしまうという方法があり得るのではないかという点です。次に、手書き資料から起こした字形なのだから、手書き資料の解像度が低くて読み取れないとしても、その字形を起こした理由についてのドキュメンテーションがあれば、わざわざ再撮影・再スキャンなどをし直さなくてもいいのではないかという可能性もあります。外野として色々考えてみたのですが、しかし今回は結局、手書き文字資料の画像を出し直すということで宿題ということになったようです。なお、こういった手続きに関してはPrinceples and Procedures (PnP)と呼ばれる文書を適宜作成しながら進めており、これが会議における国際的な合意形成の柱となっているようです。現在はバージョン6となるようで、参加メンバーや提案される字形の性質等によって対応が変わってくる面もあるために色々な工夫が凝らされています。

韓国が出してきた読み取れない文字。ここで俄然、興味が湧いてきます。一日中会議に参加しており内職も難しいので、議論に参加するわけですが、ただ参加しているだけだともったいないということ、そして、私には、日本にも絶大なる影響を与えた韓国の偉大な文化資料であるところの高麗大蔵経のWebサイトでの漢字の探し方に関する通り一遍の知識と経験があります。そこで、韓国代表が困っている文字を少し探してみることにしました。なお、さらについでにちょっと困っていない文字に関しても確認してみたところ、高麗大蔵経にはこの時点で提案されるようなマニアックな字形に関しても結構載っていることがわかり、さすがの影響力であると改めて感嘆したところでしたが、とにかく、エビデンス不明瞭字を探していくと、なんと3文字、みつけることができました。あのWebサイトは、高麗大蔵経(=木版本)のきわめて高精細なデジタル画像を掲載していますので、拡大表示して切り取れば、立派な資料になります。というわけで、少しだけ、エキスパート・コミュニティとして会議に参加している意義を深めることができたのでした。

他にも色々なことがありましたが、とりあえず、高麗大蔵経がここで役立ったということが少しうれしかったのでメモしてみました。