SHOEISHA iD

※旧SEメンバーシップ会員の方は、同じ登録情報(メールアドレス&パスワード)でログインいただけます

連載記事

CodeZine編集部では、現場で活躍するデベロッパーをスターにするためのカンファレンス「Developers Summit」や、エンジニアの生きざまをブーストするためのイベント「Developers Boost」など、さまざまなカンファレンスを企画・運営しています。

翔泳社では、「独習」「徹底入門」「スラスラわかる」「絵で見てわかる」「一年生」などの人気シリーズをはじめ、言語や開発手法、最新技術を解説した書籍を多数手がけています。プロジェクトマネジメントやチームビルティングといった管理職向けの書籍も豊富です。

ITエンジニアとしてのスキルアップ・リスキリングに、ぜひお役立てください。

書籍に関する記事を見る

'); googletag.cmd.push(function() { googletag.pubads().addEventListener('slotRenderEnded', function(e) { var ad_id = e.slot.getSlotElementId(); if (ad_id == 'div-gpt-ad-1659428980688-0') { var ad = $('#'+ad_id).find('iframe'); if ($(ad).width() == 728) { var ww = $(window).width(); ww = ww*0.90; var style = document.createElement("style"); document.head.appendChild( style ); var sheet = style.sheet; sheet.insertRule( "#div-gpt-ad-1659428980688-0 iframe {-moz-transform: scale("+ww/728+","+ww/728+");-moz-transform-origin: 0 0;-webkit-transform: scale("+ww/728+","+ww/728+");-webkit-transform-origin: 0 0;-o-transform: scale("+ww/728+","+ww/728+");-o-transform-origin: 0 0;-ms-transform: scale("+ww/728+","+ww/728+");-ms-transform-origin: 0 0;}", 0 ); sheet.insertRule( "#div-gpt-ad-1659428980688-0 div{ height:"+(90*ww/728)+"px;width:"+728+"px;}", 0 ); } else { if ($(window).width() < 340) { var ww = $(window).width(); ww = ww*0.875; var style = document.createElement("style"); document.head.appendChild( style ); var sheet = style.sheet; sheet.insertRule( "#div-gpt-ad-1659428980688-0 iframe {-moz-transform: scale("+ww/320+","+ww/320+");-moz-transform-origin: 0 0;-webkit-transform: scale("+ww/320+","+ww/320+");-webkit-transform-origin: 0 0;-o-transform: scale("+ww/320+","+ww/320+");-o-transform-origin: 0 0;-ms-transform: scale("+ww/320+","+ww/320+");-ms-transform-origin: 0 0;}", 0 ); sheet.insertRule( "#div-gpt-ad-1659428980688-0 div{ height:"+(180*ww/320)+"px;width:"+320+"px;}", 0 ); } } } }); }); } else { document.write('
'); document.write('
'); }
特集記事

サロゲートペア入門

Vistaから増えたUnicode環境で使用できる日本語漢字の対応方法

  • X ポスト
  • このエントリーをはてなブックマークに追加

Windows VistaのJIS2004対応により、WindowsのUnicode環境で使用できる日本語漢字が907字追加されました。しかしこの中には「サロゲートペア」と呼ばれる文字が含まれており、文字を取り扱うには適切な処理が必要になります。

  • X ポスト
  • このエントリーをはてなブックマークに追加

はじめに

 Windows VistaのJIS2004対応により、WindowsのUnicode環境で使用できる日本語漢字の数が増えました。従来、12238字(Windows XP)だったのが13145字(Windows Vista)になり、907字追加されることになりました。これによって、JIS第3水準、JIS第4水準の漢字がすべてサポートされることになったのです(Windows XPまでは一部サポート)。

 またWindows XPでも、パッチさえ当てれば、Windows Vistaと同じように追加907字を加えた13145字の漢字が使用できるようになりました。

 ところが、この追加された907字の中には「サロゲートペア」という特殊な文字が304字あり、これらは今までのUnicodeの文字とは扱いが少し違います。この点について解説していきたいと思います。

対象読者

  • Unicodeでデータ処理をしている方
  • JIS第3水準、JIS第4水準の文字を扱っている方
  • ブラウザ上でたくさん漢字を使いたい方

 なお、この文書での「Unicode」とは、狭義のUnicode(Windows標準のUTF-16)を指します。他のUnicode符号化方式(UTF-8、UTF-32等)は含みません。

必要な環境

  • Windows Vista または Windows XP
  • サロゲートペアおよびJavaScriptに対応したWebブラウザ(IE7、FireFox2等)

 ただし、Windows XPの場合は、事前に以下のJIS2004対応パッチを適用しておいてください。

サロゲートペアとは?

 通常、Unicodeでは1文字あたり2バイトのデータ量を使います。2バイトですから65536通り(0x0000~0xFFFF)のビットを表現できます。この約6万字で世界中の文字を表現しようというのがUnicodeの本来の思想でした。

 さらに、日本語の処理について言うと、全角・半角に関係なく1文字あたり2バイトのデータ量を使います("a"ã‚‚"あ"ã‚‚2バイト)。このため「文字数 × 2 = 使用バイト数」という関係が常に成り立っていて、使用バイト数を2で割れば文字数を簡単に導き出せました。これは文字列からループ文で1文字ずつ処理する場合など、何かと都合がいいことも多かったのです。

 ところが、近年、Unicodeに組み込みたいという文字の要望がいろいろと増えてきました。結果的に従来の2バイト(65536文字)では文字が足りない状況になってしまったのです。そこで、解決策としてサロゲートペアという方法が導入されました。これは、「1文字=2バイト」の基本は維持しつつ、一部の文字については「1文字=4バイト」にする方法です。

 具体的には、従来のUnicodeでは未使用のだった0xD800~0xDBFF(1024通り)を「上位サロゲート」、0xDC00~0xDFFF(1024通り)を「下位サロゲート」と規定し、「上位サロゲート+下位サロゲート」の4バイトで文字を表現する方法です。

 「上位サロゲート」も「下位サロゲート」も従来のUnicodeでは未使用の領域なので、以前のUnicodeの文字コードと重複することはありません。

 このサロゲートペアの導入により1024×1024=1048576字の領域が追加されることになりました。

Windows Vistaで追加された文字

 Windows Vista(JIS2004)で追加された907字の中でサロゲートペアを使用する文字は304字あります。一覧を掲載しておきます。

Windows Vista(JIS2004)のサロゲートペア使用文字
Windows Vista(JIS2004)のサロゲートペア使用文字

 これを見て「おや?」と疑問を持たれた方がいるかもしれません。従来、Unicodeの文字コードは2バイトでしたから「4文字(16進数)」で表現していました。サロゲートペアは4バイトなわけですから、文字コードも倍の「8文字(16進数)」になりそうですが、そうではありません。サロゲートペアの文字コードは「5文字(16進数)」で表現します。

 5文字では4バイトのデータを表現するのには文字が足りないですが、問題はありません。なぜかと言うと、サロゲートペアの文字コードについては、独自の変換規則に従って4バイトのデータへ変換することになっているからです。この変換規則については後ほど説明しますが、とりあえず「サロゲートペアの文字は、文字コードは5文字だけどデータは4バイト」というぐらいで理解しておいてください。

Webブラウザでの表示

 HTMLでは

 "&#x" + [Unicodeの文字コードの16進数表記] + ";"

 と書くとUnicodeの文字コードから文字を表示することができます。

 例えば、「あ Unicode:0x3042」を表示したければ、

あ
&#x3042;

 とHTMLソースに書けば「あ」と表示されます。

 同様に、サロゲートペアを使用する文字についてもこの方法が使えます。

 例えば、「叱 Unicode:0x20B9F」の場合、

叱
&#x20B9F;

 と書けば表示されます。

文字コードからバイナリデータへの変換規則

 サロゲートペアの文字コードについては、独自の変換規則で4バイトのデータへ変換すると書きました。その変換方法について説明したいと思います。

 具体的には、以下の手順に従います。

  1. 文字コードから0x10000を引いて1番左の桁を"2"から"1"にする。これをXとする。
  2. Xを0x400で割ってその商を0xD800に足す。これを「上位サロゲート」とする。
  3. Xを0x400で割ってその剰余を0xDC00に足す。これを「下位サロゲート」とする。
  4. 上位サロゲート、下位サロゲートの順番で出力する。

 例としてJavaScriptでのサンプルコードを挙げます。

サロゲートペアを使用しない文字の場合:「あ Unicode:0x3042」をダイアログに表示
var x;
var s;
x = 0x3042;  //文字コードをセット
s = String.fromCharCode(x);
alert(s);
サロゲートペアを使用する文字の場合:「叱 Unicode:0x20B9F」をダイアログに表示
var x;
var s;
var a;  //上位サロゲート
var b;  //下位サロゲート
x = 0x20B9F;  //文字コードをセット
x -= 0x10000;
a = Math.floor(x / 0x400);  //Math.floor()で整数値に変換
a += 0xD800;
b = x % 0x400;
b += 0xDC00;
s = String.fromCharCode(a,b);
alert(s);

 このサンプルコードはJavaScriptですが、C言語などでサロゲートペアの文字を入出力する場合も同様の処理が必要になります。

まとめ

 以上で、解説を終わりますが、最後にプログラミングから見たサロゲートペアの問題点を挙げておきたいと思います。

 サロゲートペアを使用する文字は「1文字=4バイト」ですから、従来のUnicodeの特徴であった「文字数 × 2 = 使用バイト数」の原則が崩れてしまいます。そのため、Unicode対応の開発環境であったとしても、サロゲートペアが絡むと過去に作ったプログラムがうまく動かない場合が出てくると思われます。

 開発環境ごとに事情が違うので、そのあたりを確認しながらサロゲートペア対応のプログラムを作成してください。

参考資料

  1. Microsoft『Windows Vista における JIS2004 対応に関する詳細資料』
  2. Microsoft『JIS X 0213:2004 / Unicode 実装ガイド』(PDF)
  3. Wikipedia『Unicode』
  4. ITpro『Vistaで化ける字,化けない字』
  5. ITpro『Vistaで化ける字,化けない字(続報)』

この記事は参考になりましたか?

  • X ポスト
  • このエントリーをはてなブックマークに追加
特集記事連載記事一覧

もっと読む

この記事の著者

さなみ(サナミ)

※プロフィールは、執筆時点、または直近の記事の寄稿時点での内容です

この記事は参考になりましたか?

この記事をシェア

  • X ポスト
  • このエントリーをはてなブックマークに追加
CodeZine(コードジン)
https://codezine.jp/article/detail/1592 2007/08/28 14:00
" ); }

おすすめ

アクセスランキング

  1. 1
    「オブザーバー・パターン」 ~マンガでプログラミング用語解説
  2. 2
    フロントエンドの定番ライブラリ「React 19」の新機能を紹介──React Server Componentsとその他の改善点
  3. 3
    「おもしろそうドリブン」のキャリア形成、エンジニアとして成長を加速させるポイントとは? NEW
  4. 4
    ゲーム業界で働くプログラマ・エンジニア、8割超が現在の職場のスキル評価に満足
  5. 5
    3/5まで書籍全文が無料公開 『Pythonで動かして学ぶ!Kaggleデータ分析入門』
  1. 6
    日本IBM、自動車業界に関する調査レポート「2035年 自動車業界の将来展望」を公開 NEW
  2. 7
    マイクロソフト、VSCodeの新機能「Copilot Next Edit Suggestions」のプレビュー版公開
  3. 8
    【GitHub Actionsをはじめよう】GitHub Actionsとは? 実務での活用シーンを紹介
  4. 9
    Microsoft、オープンソースのプログラミング言語「TypeScript 5.8」をリリース
  5. 10
    GitHub Advanced Securityが、2つの独立したセキュリティ製品「Secret Protection」「Code Security」として利用可能に NEW

アクセスランキング

  1. 1
    「オブザーバー・パターン」 ~マンガでプログラミング用語解説
  2. 2
    フロントエンドの定番ライブラリ「React 19」の新機能を紹介──React Server Componentsとその他の改善点
  3. 3
    「おもしろそうドリブン」のキャリア形成、エンジニアとして成長を加速させるポイントとは? NEW
  4. 4
    ゲーム業界で働くプログラマ・エンジニア、8割超が現在の職場のスキル評価に満足
  5. 5
    3/5まで書籍全文が無料公開 『Pythonで動かして学ぶ!Kaggleデータ分析入門』
  6. 6
    日本IBM、自動車業界に関する調査レポート「2035年 自動車業界の将来展望」を公開 NEW
  7. 7
    マイクロソフト、VSCodeの新機能「Copilot Next Edit Suggestions」のプレビュー版公開
  8. 8
    【GitHub Actionsをはじめよう】GitHub Actionsとは? 実務での活用シーンを紹介
  9. 9
    Microsoft、オープンソースのプログラミング言語「TypeScript 5.8」をリリース
  10. 10
    GitHub Advanced Securityが、2つの独立したセキュリティ製品「Secret Protection」「Code Security」として利用可能に NEW
  1. 1
    ITエンジニア本大賞2025、技術書部門とビジネス書部門の大賞が決定!
  2. 2
    マイクロソフト、VSCodeの新機能「Copilot Next Edit Suggestions」のプレビュー版公開
  3. 3
    C# 13の新機能を理解する――暗黙的なインデックスアクセスとallows ref struct
  4. 4
    iOS・iPadOS 18.3がリリース
  5. 5
    3/5まで書籍全文が無料公開 『Pythonで動かして学ぶ!Kaggleデータ分析入門』
  6. 6
    AIや統計の数式を解説する美少女VTuber「AIcia Solid Project」生みの親が語る、継続できるアウトプット活動とは?
  7. 7
    Webはどんどん複雑になっている? これまでのWebシステムのトレンドを振り返る
  8. 8
    Linuxディストリビューション「EndeavourOS Mercury」が一般提供開始
  9. 9
    ITエンジニア本大賞2025のプレゼン大会をレポート、最終決戦に臨んだ本に込められた想いとは
  10. 10
    開発者のOSS活動が会社から評価される世の中にしたい──日立製作所が専門組織設立に込めた情熱

イベント

CodeZine編集部では、現場で活躍するデベロッパーをスターにするためのカンファレンス「Developers Summit」や、エンジニアの生きざまをブーストするためのイベント「Developers Boost」など、さまざまなカンファレンスを企画・運営しています。

新規会員登録無料のご案内

メールバックナンバー

アクセスランキング

  1. 1
    「オブザーバー・パターン」 ~マンガでプログラミング用語解説
  2. 2
    フロントエンドの定番ライブラリ「React 19」の新機能を紹介──React Server Componentsとその他の改善点
  3. 3
    「おもしろそうドリブン」のキャリア形成、エンジニアとして成長を加速させるポイントとは? NEW
  4. 4
    ゲーム業界で働くプログラマ・エンジニア、8割超が現在の職場のスキル評価に満足
  5. 5
    3/5まで書籍全文が無料公開 『Pythonで動かして学ぶ!Kaggleデータ分析入門』
  1. 6
    日本IBM、自動車業界に関する調査レポート「2035年 自動車業界の将来展望」を公開 NEW
  2. 7
    マイクロソフト、VSCodeの新機能「Copilot Next Edit Suggestions」のプレビュー版公開
  3. 8
    【GitHub Actionsをはじめよう】GitHub Actionsとは? 実務での活用シーンを紹介
  4. 9
    Microsoft、オープンソースのプログラミング言語「TypeScript 5.8」をリリース
  5. 10
    GitHub Advanced Securityが、2つの独立したセキュリティ製品「Secret Protection」「Code Security」として利用可能に NEW

アクセスランキング

  1. 1
    「オブザーバー・パターン」 ~マンガでプログラミング用語解説
  2. 2
    フロントエンドの定番ライブラリ「React 19」の新機能を紹介──React Server Componentsとその他の改善点
  3. 3
    「おもしろそうドリブン」のキャリア形成、エンジニアとして成長を加速させるポイントとは? NEW
  4. 4
    ゲーム業界で働くプログラマ・エンジニア、8割超が現在の職場のスキル評価に満足
  5. 5
    3/5まで書籍全文が無料公開 『Pythonで動かして学ぶ!Kaggleデータ分析入門』
  6. 6
    日本IBM、自動車業界に関する調査レポート「2035年 自動車業界の将来展望」を公開 NEW
  7. 7
    マイクロソフト、VSCodeの新機能「Copilot Next Edit Suggestions」のプレビュー版公開
  8. 8
    【GitHub Actionsをはじめよう】GitHub Actionsとは? 実務での活用シーンを紹介
  9. 9
    Microsoft、オープンソースのプログラミング言語「TypeScript 5.8」をリリース
  10. 10
    GitHub Advanced Securityが、2つの独立したセキュリティ製品「Secret Protection」「Code Security」として利用可能に NEW
  1. 1
    ITエンジニア本大賞2025、技術書部門とビジネス書部門の大賞が決定!
  2. 2
    マイクロソフト、VSCodeの新機能「Copilot Next Edit Suggestions」のプレビュー版公開
  3. 3
    C# 13の新機能を理解する――暗黙的なインデックスアクセスとallows ref struct
  4. 4
    iOS・iPadOS 18.3がリリース
  5. 5
    3/5まで書籍全文が無料公開 『Pythonで動かして学ぶ!Kaggleデータ分析入門』
  6. 6
    AIや統計の数式を解説する美少女VTuber「AIcia Solid Project」生みの親が語る、継続できるアウトプット活動とは?
  7. 7
    Webはどんどん複雑になっている? これまでのWebシステムのトレンドを振り返る
  8. 8
    Linuxディストリビューション「EndeavourOS Mercury」が一般提供開始
  9. 9
    ITエンジニア本大賞2025のプレゼン大会をレポート、最終決戦に臨んだ本に込められた想いとは
  10. 10
    開発者のOSS活動が会社から評価される世の中にしたい──日立製作所が専門組織設立に込めた情熱