Unicode
[カテゴリ:仕様]
Unicodeは、Unicodeコンソーシアムという業界団体が策定している文字コードの国際規格です。世界中の文字を単一の文字コード(符号化文字集合)で扱うことをねらいとしています。
JIS X 0213との関係
Unicodeは、バージョン3.2で、JIS X 0213の文字を全て取り込みました。
JIS X 0213とUnicodeのコード変換表は当サイトで入手できます。
UnicodeでJIS X 0213の文字を扱うには、以下のようにいくつか問題があります。
結合文字の問題
Unicodeでは、JIS X 0213の全ての文字に対し単一の符号位置が割り当てられているわけではありません。結合文字を用いて複数の符号位置の並びで表現できる文字については、単一の符号位置は与えられていません。
例えば、鼻濁音を表すのに使われる半濁点つきの「か」は、JIS X 0213では一つの独立した符号位置が与えられています(面区点 1-04-87)。しかしUnicodeでは、「か」+「合成用半濁点(U+309A)」という2つの符号位置の並びによって表現する必要があります。
互換漢字の問題
JIS X 0213で追加された漢字のいくつかは、UnicodeではCJK互換漢字として扱われています。これは、従来のCJK統合漢字に包摂されている字体のものです。
例えば、「神」の示へんが「ネ」でなく「示」の字体は、Unicodeでは包摂されています(つまり区別せず同じ符号位置で表す)。JIS X 0213はこれに独立した符号位置を与えましたが(面区点 1-89-28)、UnicodeではCJK互換漢字として、JIS X 0213との往復変換用との扱いで追加されています(U+FA19)。これは、Unicode正規化の処理を適用すると、対応するCJK統合漢字に移されてしまいます。
サロゲートペアの問題
JIS X 0213の一部の漢字はBMPでなく面02に追加されています。このため、UTF-16でサロゲートペアによって、4バイトで1文字を表します。
またUTF-8では漢字は通常3バイトですが、面02の漢字は4バイトの長さになります。UTF-8を扱うソフトウェアが4バイトを正しく扱えるか注意が必要です。
参照情報
Unicode仕様書はUnicodeコンソーシアムのウェブサイトからPDF形式で入手できます。同サイトでは各文字の属性情報などを機械可読形式で記したテキストファイルも配布されています。
最終更新時間:2017年04月08日 22時55分20秒