僕はHicarix Badge(ヒカリックスバッジ)というスマーフトフォンから書き換えができる8×8のLEDバッジを作っている。
書き換えアプリは文字を入力すると8×8のパターンに自動的に変換。そのためのデータは恵梨沙フォントを許諾を得て使っている。
オリジナル文字を追加して10,000文字まで対応したのでその話。
恵梨沙フォントとは
恵梨沙フォントは1990年代に33人の有志によって作られたフォントで、当時のスマホのハシリのような機器PDAの狭い画面でも日本語が表示できた。
大手メーカーの機器にも採用された有名なフォントだ。
例えば、令和と入力すると恵梨沙フォントを使い8×8のドットに変換している。僕の作ったHicarix Badgeも8×8だったので僕の方から連絡をとり許諾を得て使わせてもらっている。(ほかにも美咲フォントもあるがこれは7×7に収まるように作られている)
恵梨沙フォントには数字、アルファベット、ひらがな、カタカナ、漢字が6,877文字含まれ、日本語はほとんど表示できる。
まず「凜」と「熙」を追加
恵梨沙フォントは当時主流の日本語のみを扱うJISコードという仕組みに基づいている。
しかし現在のスマホなどでは世界中のすべての文字を統一的に扱えるユニコードという仕組みが主流だ。
Hicarix Badgeのアプリに搭載するために、まずはJISコードとユニコードの変換を行ったが、ちょっと問題が発生。
実は恵梨沙フォントにはJIS(日本工業規格)が定めた「第二水準」の文字が基準となっているが、恵梨沙フォントが作られた後に第二水準に追加された「凜」と「熙」が含まれていなかった。(凛と煕とは字体が異なる)
昔の総理大臣の細川護熙の「熙」ね。
問い合わせたところ、含まない文字は追加してOKとのことだ。「凜」と「熙」の2文字を加え6,879文字(+2文字)とし、モダンなユニコードにも対応したのが2018年4月。アプリにも搭載できた。
ハングル対応の要望
その後、Hicarix BadgeはTwitter(X)でも何度かバズり、最高で国内トレンド9位入りを果たすなど好評をいただく。
そして日本語表示はお客さんの反応も良く、Hicarix Badgeの目玉機能となる。
日本語のひらがな、カタカナ、そして大半の日本語の漢字と、英語のアルファベットなどのラテン文字は恵梨沙フォントに含まれるが、販売イベントに来た韓国の人からハングルにも対応してほしいと声があった
ユニコードは世界中の文字を統一的に扱うことができる仕組みなのでハングル対応も可能だ。
加えて、ユニコードには絵文字も扱うことができる。最近みんな絵文字使ってるよね。
恵梨沙フォントプロジェクトは活動を終えているし、8×8フォントをいまだに使っているのは僕ぐらいじゃないかな。少しづつ自分で文字の追加し始めた。
約15万文字の気が遠くなるような作業
日本語のJIS第二水準6,879文字に対して、ユニコードは2023年9月時点で149,186文字もある。絵文字などどんどん追加されその文字数は膨脹し続けている。
ユニコードの中でも最も多く6割を占めるのは漢字で約93,000文字。「北」や「的」のように日本語と中国語共通の漢字もあるので、ユニコードに日本語や中国語の区別はない。次に多いのはハングルで約11,000文字。
中国の繁体字と簡体字を中心に文字を追加していき、約一年後の2019年6月1日の時点で対応する文字は7,411文字(+532文字)になった。
もっと効果的に
最初は闇雲に作っていたが、ユニコード上の漢字93,000文字のなかでよく使われる漢字はもっと少ない。
中国版のJISに相当するGB2312によると中国語の常用漢字は6,763文字。
日本語のJIS第二水準の6,879文字のうち漢字は6355文字(仝を含めると6356文字)あるが、(JIS第二水準では「仝」は「々」などと同様に記号扱いになっているが、GB2312やユニコードでは漢字として扱われている。)JIS第二水準とGB2312と共通の漢字は3,331文字(仝を含む)ある。
JIS第二水準にはないGB2312だけの漢字は3,432文字だ。
つまり恵梨沙フォントに3,000文字ほど追加すれば概ね中国語にも対応できる。(何文字がだぶっているかネットにも情報がなかったので自分で調べた)
またハングルは組み合わせの文字なので理論上は11,000文字あるが、韓国のJISに相当するKS X 1001に含まれるハングルは2,350文字。これが実質的な常用ハングルと考えられる。
これらを優先的に作っていくことでより効果的に作業できるぞ。
絵文字も追加し、ついに1万文字に
ユニコードには絵文字も登録されている。元々日本発祥の絵文字は国際基準のユニコードに含まれ、英語でもそのままEmojiと呼ばれる。
絵文字は多くの場合フルカラーなので単色の8×8に収めてなおかつ意味が分かるようにするのは更に難しい。可能なものから追加していき恵梨沙フォントとオリジナルとの合計が今年に入り10,000文字(+3,123文字)を超えた。
ユニコード15万文字に対してはまだ1/15に過ぎないが、1人で3千文字超はなかなかの数字だろう。(美咲フォントは一人でJIS第二水準6,879文字作ってるっぽい。すごすぎる)
GB2312のみ漢字はまだ1/4くらいしか出来てないが、中国語に関してはX(Twitter)から適当な中国語のポストを拾ってきて変換してみるとまあまあ変換できている。
ハングルや絵文字についてはまだまだで、中国語もまだ文字が足りないので次は2倍の13,754文字を目標にちょっとづつ進めていこうと思う。