Unicode (or UCS) Transformation Format, 8-bit encoding form.
Unicodeでは Unicode Translation Format-8
ISO/IEC 10646では 8-bit UCS Transformation Format
Unicode、ISO/IEC 10646(UCS)のエンコーディング方法のひとつ。
ASCIIの範囲内にある文字は1バイトに、大抵の漢字や仮名は3バイトにエンコーディングする特徴がある。
RFC 2279で、UCS(Unicodeのコード値)からの変換方法が定義されている。
UCS-4 range (hex.) UTF-8 octet sequence (binary) 0000 0000-0000 007F 0xxxxxxx 0000 0080-0000 07FF 110xxxxx 10xxxxxx 0000 0800-0000 FFFF 1110xxxx 10xxxxxx 10xxxxxx 0001 0000-001F FFFF 11110xxx 10xxxxxx 10xxxxxx 10xxxxxx c.f. Invalid sequence 0020 0000-03FF FFFF 111110xx 10xxxxxx 10xxxxxx 10xxxxxx 10xxxxxx 0400 0000-7FFF FFFF 1111110x 10xxxxxx ... 10xxxxxx
詳しくはRFC 3629を参照してください。
IETFにより、STD番号(STD63)が割り振られている。