トップ差分一覧ソース検索ヘルプ PDF RSS ログイン

Unicode

[カテゴリ:仕様]

Unicodeは、Unicodeコンソーシアムという業界団体が策定している文字コードの国際規格です。世界中の文字を単一の文字コード(符号化文字集合)で扱うことをねらいとしています。

JIS X 0213との関係

Unicodeは、バージョン3.2で、JIS X 0213の文字を全て取り込みました。

JIS X 0213とUnicodeのコード変換表は当サイトで入手できます。

JIS X 0213のコード対応表

UnicodeでJIS X 0213の文字を扱うには、以下のようにいくつか問題があります。

結合文字の問題

Unicodeでは、JIS X 0213の全ての文字に対し単一の符号位置が割り当てられているわけではありません。結合文字を用いて複数の符号位置の並びで表現できる文字については、単一の符号位置は与えられていません。

例えば、鼻濁音を表すのに使われる半濁点つきの「か」は、JIS X 0213では一つの独立した符号位置が与えられています(面区点 1-04-87)。しかしUnicodeでは、「か」+「合成用半濁点(U+309A)」という2つの符号位置の並びによって表現する必要があります。

互換 漢字の問題

JIS X 0213で追加された漢字のいくつかは、UnicodeではCJK互換漢字として扱われています。これは、従来のCJK統合漢字に包摂されている字体のものです。

例えば、「神」の示へんが「ネ」でなく「示」の字体は、Unicodeでは包摂されています(つまり区別せず同じ符号位置で表す)。JIS X 0213はこれに独立した符号位置を与えましたが(面区点 1-89-28)、UnicodeではCJK互換漢字として、JIS X 0213との往復変換用との扱いで追加されています(U+FA19)。これは、Unicode正規化の処理を適用すると、対応するCJK統合漢字に移されてしまいます。

サロゲートペアの問題

JIS X 0213の一部の漢字はBMPでなく面02に追加されています。このため、UTF-16でサロゲートペアによって、4バイトで1文字を表します。

またUTF-8では漢字は通常3バイトですが、面02の漢字は4バイトの長さになります。UTF-8を扱うソフトウェアが4バイトを正しく扱えるか注意が必要です。

参照情報

Unicode仕様書はUnicodeコンソーシアムのウェブサイトからPDF形式で入手できます。同サイトでは各文字の属性情報などを機械可読形式で記したテキストファイルも配布されています。

Unicode

JIS X 0213との関係

結合文字の問題

互換 漢字の問題

サロゲートペアの問題

参照情報

関連項目

メニュー

文字コード参考文献

重要な項目

更新履歴