トップ 一覧 検索 ヘルプ RSS ログイン

検索

キーワード AND OR
  • BMP - BMP
  • CJK互換漢字 - JIS X 0213の文字がUnicodeに追加された際、これらの漢字のうちいくつかは、Unicodeでは、CJK統合漢字に既に包摂されている字体であるとして、独立した符号位置を与えられませんでした。しかしそれではJIS X 0213とのコード変換に問題を生じることから、互換漢字の符号位置が割り当てられています。互換漢字の符号位置はBMPでは U+FAxx のような位置にあるので、符号位置によってCJK統合漢字との見分けがつきます。
  • CJK統合漢字 - その後、CJK統合漢字拡張AがBMP内に追加され、ついで、面02にCJK統合漢字拡張Bが追加されました。現在、拡張Hまであります。拡張Bから拡張Fまでは面02にあり(つまり符号位置U+2xxxx)、拡張G, Hは面03 (U+3xxxx)に配置されています。
  • UTF-16 - 他方、Unicodeと同等の文字コード規格[[ISO/IEC 10646]]ではUCS-4という4バイトコードが定義されており、これを使うと65,536符号位置からなる面をいくつも扱うことが可能でした。Unicodeの16ビットの符号空間は面00, Basic Multilingual Plane (BMP) という位置付けです。
  • UTF-8 - ただし、いくつかの文字はBMP外にあるため、UTF-8では4バイトに対応していることが必要です。BMPの範囲はUTF-8で3バイトまでで表現でき、なおかつ昔はBMPにしか文字が割り当てられていなかったため、UTF-8といっても3バイトまでしか対応していないことがあります。例えばMySQLでは utf8 と指定すると3バイトまでしか対応しません。4バイトに対応するには utf8mb4 と指定する必要があります。
  • Unicode - JIS X 0213の一部の漢字はBMPでなく面02に追加されています。
  • 符号位置 - BMP内の符号位置は U+0000 から U+FFFF までの4桁で表せます。BMPを超える分については、面に対応する桁をつけて5桁あるいは6桁で表します。例えば、U+29E3D のように面02の中の位置を表します。