特殊用途文字 (Unicodeのブロック)
特殊用途文字(とくしゅようともじ 英語: Specials)は、UnicodeにおいてU + FFF0 〜 FFFFの基本多言語面の最後に割り当てられる短いブロックである。 これらの16個のコードポイントのうち、5個がUnicode 3.0以降に割り当てられている。
Specials | |
---|---|
範囲 |
U+FFF0..U+FFFF (16 個の符号位置) |
面 | 基本多言語面 |
用字 | 共通 |
割当済 | 5 個の符号位置 |
未使用 |
9 個の保留 2 個の非文字 |
Unicodeのバージョン履歴 | |
1.0.0 | 1 (+1) |
2.1 | 2 (+1) |
3.0 | 5 (+3) |
公式ページ | |
コード表 ∣ ウェブページ | |
備考: [1][2] |
概要
編集- U+FFF9 interlinear annotation anchor
- 注釈付きテキストの開始を示す。
- U+FFFA interlinear annotation separator
- 注釈文字の開始
- U+FFFB interlinear annotation terminator
- 注釈ブロックの終わり
- U+FFFC  object replacement character
- 複合ドキュメントなど、指定されていない別のオブジェクトのテキスト内を置換する記号
- U+FFFD � replacement character
- 不明な文字、認識できない文字、表現できない文字を置き換えるために使用される
- U+FFFE <noncharacter-FFFE>
- 非文字
- U+FFFF <noncharacter-FFFF>
- 非文字
FFFEとFFFFは通常の意味で割り当てられていないが、Unicode文字ではないことが保証されている。これらはテキストの符号化を推測するために使用できる。これらの文字を含むテキストはすべて、正しく符号化されたUnicodeテキストではないとされる。Unicodeの U+FEFF byte order mark文字をUnicodeテキストの先頭に挿入してエンディアンを示すことができる。そのようなテキストを読み取り、0xFFFEに遭遇したプログラムは、次のすべての文字の符号の順序を切り替える必要があることを認識する。
�(多くの場合、白い疑問符の付いた黒い菱形または空の四角)は、 Unicode規格のSpecialsにおいてコードポイントU + FFFDに割り当てられている記号であり、システムがデータ内の文字列を正しいシンボルにレンダリングできない場合の問題を示すために使用される。通常はデータが無効であるか、どの文字とも一致しない場合に表示される。
仮に、UTF-8での入力を想定したテキストエディタで、ISO-8859-1エンコード( 0x66 0xFC 0x72
)でドイツ語の単語 "für"を含むテキストファイルを開いたとする。最初と最後のバイトはASCIIにおいて有効なUTF-8エンコードであるが、中間のバイト( 0xFC
)はUTF-8で有効なバイトではない。したがって、テキストエディターはこのバイトを置換文字記号に置き換えて、有効なUnicode コードポイントの文字列を生成できる。このときf�rと表示される。さらに、この状態でファイルの保存を行ったとき、正しく実装されていないテキストエディタにおいては、この置換文字符号のコードポイントが(UTF-8形式で)保存される可能性がある。このときテキストファイルのデータは0x66 0xEF 0xBF 0xBD 0x72
となり、ISO-8859-1では「fï¿1/2r」として表示される(文字化けを参照)。置換はすべてのエラーで同じであるため、元の文字を復元することはできない。
文字コード表
編集Specials[1][2][3] Official Unicode Consortium code chart (PDF) | ||||||||||||||||
0 | 1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 | A | B | C | D | E | F | |
U+FFFx | IA A |
IA S |
IA T |
� | ||||||||||||
備考 |
歴史
編集以下に示す文書群は、Specialsブロックに特定の文字を定義する目的と過程を示したものである。
バージョン | コードポイント[a] | 文字数 | UTC ID | L2 ID | WG2 ID | ドキュメント |
---|---|---|---|---|---|---|
1.0.0 | U+FFFD | 1 | (to be determined) | |||
U+FFFE..FFFF | 2 | (to be determined) | ||||
L2/01-295R | Moore, Lisa (2001-11-06), Minutes from the UTC/L2 meeting #88 | |||||
L2/01-355 | N2369 (html, doc) | Davis, Mark (2001-09-26), Request to allow FFFF, FFFE in UTF-8 in the text of ISO/IEC 10646 | ||||
L2/02-154 | N2403 | Umamaheswaran, V. S. (2002-04-22), Draft minutes of WG 2 meeting 41, Hotel Phoenix, Singapore, 2001-10-15/19 | ||||
2.1 | U+FFFC | 1 | UTC/1995-056 | Sargent, Murray (1995-12-06), Recommendation to encode a WCH_EMBEDDING character | ||
UTC/1996-002 | Aliprand, Joan; Hart, Edwin; Greenfield, Steve (1996-03-05), UTC #67 Minutes | |||||
N1365 | Sargent, Murray (1996-03-18), Proposal Summary – Object Replacement Character | |||||
N1353 | Umamaheswaran, V. S.; Ksar, Mike (1996-06-25), Draft minutes of WG2 Copenhagen Meeting # 30 | |||||
L2/97-288 | N1603 | Umamaheswaran, V. S. (1997-10-24), Unconfirmed Meeting Minutes, WG 2 Meeting # 33, Heraklion, Crete, Greece, 20 June – 4 July 1997 | ||||
L2/98-004R | N1681 | Text of ISO 10646 – AMD 18 for PDAM registration and FPDAM ballot, (1997-12-22) | ||||
L2/98-070 | Aliprand, Joan; Winkler, Arnold, Minutes of the joint UTC and L2 meeting from the meeting in Cupertino, February 25-27, 1998 | |||||
L2/98-318 | N1894 | Revised text of 10646-1/FPDAM 18, AMENDMENT 18: Symbols and Others, (1998-10-22) | ||||
3.0 | U+FFF9..FFFB | 3 | L2/97-255R | Aliprand, Joan (1997-12-03), Approved Minutes – UTC #73 & L2 #170 joint meeting, Palo Alto, CA – August 4-5, 1997 | ||
L2/98-055 | Freytag, Asmus (1998-02-22), Support for Implementing Inline and Interlinear Annotations | |||||
L2/98-070 | Aliprand, Joan; Winkler, Arnold, Minutes of the joint UTC and L2 meeting from the meeting in Cupertino, February 25-27, 1998 | |||||
L2/98-099 | N1727 | Freytag, Asmus (1998-03-18), Support for Implementing Interlinear Annotations as used in East Asian Typography | ||||
L2/98-158 | Aliprand, Joan; Winkler, Arnold (1998-05-26), Draft Minutes – UTC #76 & NCITS Subgroup L2 #173 joint meeting, Tredyffrin, Pennsylvania, April 20-22, 1998 | |||||
L2/98-286 | N1703 | Umamaheswaran, V. S.; Ksar, Mike (1998-07-02), Unconfirmed Meeting Minutes, WG 2 Meeting #34, Redmond, WA, USA; 1998-03-16--20 | ||||
L2/98-270 | Hiura, Hideki; Kobayashi, Tatsuo (1998-07-29), Suggestion to the inline and interlinear annotation proposal | |||||
L2/98-281R (pdf, html) | Aliprand, Joan (1998-07-31), Unconfirmed Minutes – UTC #77 & NCITS Subgroup L2 # 174 JOINT MEETING, Redmond, WA -- July 29-31, 1998 | |||||
L2/98-363 | N1861 | Sato, T. K. (1998-09-01), Ruby markers | ||||
L2/98-372 | N1884R2 (pdf, doc) | Whistler, Ken (1998-09-22), Additional Characters for the UCS | ||||
L2/98-416 | N1882.zip | Support for Implementing Interlinear Annotations, (1998-09-23) | ||||
L2/98-329 | N1920 | Combined PDAM registration and consideration ballot on WD for ISO/IEC 10646-1/Amd. 30, AMENDMENT 30: Additional Latin and other characters, (1998-10-28) | ||||
L2/98-421R | Suignard, Michel; Hiura, Hideki (1998-12-04), Notes concerning the PDAM 30 interlinear annotation characters | |||||
L2/99-010 | N1903 (pdf, html, doc) | Umamaheswaran, V. S. (1998-12-30), Minutes of WG 2 meeting 35, London, U.K.; 1998-09-21--25 | ||||
L2/98-419 (pdf, doc) | Aliprand, Joan (1999-02-05), Approved Minutes -- UTC #78 & NCITS Subgroup L2 # 175 Joint Meeting, San Jose, CA -- December 1-4, 1998 | |||||
UTC/1999-021 | Duerst, Martin; Bosak, Jon (1999-06-08), W3C XML CG statement on annotation characters | |||||
L2/99-176R | Moore, Lisa (1999-11-04), Minutes from the joint UTC/L2 meeting in Seattle, June 8-10, 1999 | |||||
L2/01-301 | Whistler, Ken (2001-08-01), Analysis of Character Deprecation in the Unicode Standard | |||||
|
参照
編集- Unicode文字
参考文献
編集- ^ “Unicode character database”. The Unicode Standard. 2016年7月9日閲覧。
- ^ “Enumerated Versions of The Unicode Standard”. The Unicode Standard. 2016年7月9日閲覧。