トップ 新規 編集 差分 一覧 ソース 検索 ヘルプ PDF RSS ログイン

CJK統合漢字

[カテゴリ:仕様]

概要

CJK統合漢字とは、ISO/IEC 10646ならびにUnicodeにおいて、東アジアの漢字文化圏各国の漢字コード規格にある漢字を統合して作成された漢字集合です。CJKという呼び方はChina, Japan, Koreaの頭文字から来ています。

元々、20,902文字からなるCJK統合漢字Unicode/10646のために作成されました。その後、CJK統合漢字拡張AがBMP内に追加され、ついで、面02にCJK統合漢字拡張Bが追加されました。現在、拡張Eまであります。

CJK間の字体包摂

各国の漢字コード規格には、同じ漢字であっても、文字デザインの違い、あるいは字体に及ぶ違いが見受けられます。CJK統合漢字では、形の違いの大きくないものは区別せず包摂して単一の符号位置を与えています。例えば、「骨」という字の中のカギは中国簡体字の文字コード規格では左右逆についていますが、この差はCJK統合漢字は区別せずに同じ符号位置U+9AA8で表します。

原規格分離

ただし、最初にCJK統合漢字を作ったときに元になった原規格で分離されている字体は、CJK統合漢字でも包摂せずに分離されています。例えば、「説」の右上の点2つが下向きに開いた字体は、JIS X 0208では包摂されていますが、台湾の規格が異なる符号位置を与えていたためにCJK統合漢字でも分離されています。これを原規格分離規則(source separation rule)といいます。

互換漢字

CJK漢字統合の包摂対象となる字体であるが他の文字コードとの往復変換(round-trip conversion)のために必要なものは、互換漢字という形で対応されていることがあります。韓国KS規格で重複している漢字や、JIS X 0213人名用漢字の関係で追加された一部の漢字がこれに当たります。

JIS X 0213との関係

JIS X 0213の漢字は、CJK統合漢字CJK統合漢字拡張A、CJK統合漢字拡張Bに入っています。

特に、BMP外、面02の拡張Bにもあるため、JIS X 0213の文字全てを正しく扱うには、UTF-16ではサロゲート・ペアの、UTF-8では4バイトのコードの処理が正しく出来ることが必要です。

JIS X 0213の漢字の一部、「人名許容・康煕別掲」で包摂規準の適用除外となる符号位置CJK統合漢字でなく互換漢字としてUnicodeに取り込まれているものがあります。例えば「福」のへんが「ネ」でなく「示」の字体(面区点1-89-33)がこれに当たります。

関連項目

最終更新時間:2016年11月20日 08時49分41秒