JIS X 0213
[カテゴリ:仕様]
JIS X 0213は、日本の文字コード規格です。名称を「7ビット及び8ビットの2バイト情報交換用符号化拡張漢字集合」といいます。日本の漢字を含む2バイトコード規格のうち、日本のテキストの符号化に最も適したものです。
漢字、平仮名、片仮名、アルファベット、記号類など、11,233文字のコードを定義しています。制定年や改正年をとって、JIS2000やJIS2004とも呼ばれます。
符号化文字集合の概要
JIS X 0208に不足していた現代日本の文字を符号化することをねらいとし、JIS X 0208の上位互換として設計されています。ISO/IEC 2022に整合的な形の、漢字集合1面・漢字集合2面という2つの2バイト符号化文字集合が定義されています。
このうち漢字集合1面がJIS X 0208の上位互換です。平仮名・片仮名やダイアクリティカルマーク付きラテン文字、丸付き数字や記号類といった非漢字、それに比較的使用頻度の高い第3水準漢字が追加されています。漢字集合2面にはより使用頻度の少ない第4水準漢字が含まれています。
追加すべき文字の選定にあたっては学校の教科書も全数調査され、学術用語として学校教科書に載っていながらJIS X 0208には無かった漢字も、JIS X 0213でカバーされました。小学3年生で学習する日本語のローマ字綴りに用いられる長音符号付きの母音字は、JIS X 0208にはありませんでしたがJIS X 0213で対応しました。
その他、文字レパートリーの概要については、漢字集合1面、漢字集合2面の項をそれぞれ参照してください。
符号化方式の概要
ASCIIなど他の符号化文字集合と合わせた運用方式、いわゆる文字符号化方式について、JIS X 0213は、シフトJISやEUCといった、JIS X 0208の全ての符号化方式に対応しています。
規格本体に6種類を規定しているほか、附属書にて、下記の符号化方式を定義しています。
- Shift_JIS-2004 (附属書1)
- ISO-2022-JP-2004 (附属書2)
- EUC-JIS-2004 (附属書3)
それぞれ、JIS X 0208におけるShift_JIS, ISO-2022-JP, EUC-JPに対応する符号化方式(おおまかに言ってこれらの拡張版)です。
規格本体で規定される6種類の符号化方式は下記の通りです。これらはJIS X 0208:1997から踏襲されています。
- 漢字用7ビット符号 - 漢字集合1面・2面をSI/SOで切り替える7ビットの符号
- 漢字用8ビット符号 - 漢字集合1面をGL領域に、漢字集合2面をGR領域に割り当てる8ビット符号
- 国際基準版・漢字用7ビット符号 - ISO/IEC 646国際基準版と漢字集合1面をSI/SOで切り替え。SS3で漢字集合2面
- 国際基準版・漢字用8ビット符号 - ISO/IEC 646国際基準版をGLに、漢字集合1面をGRに。SS3で漢字集合2面 (EUC-JIS-2004とほぼ同じ)
- ラテン文字・漢字用7ビット符号 - JIS X 0201ラテン文字集合と漢字集合1面をSI/SOで切り替え。SS3で漢字集合2面
- ラテン文字・漢字用8ビット符号 - JIS X 0201ラテン文字集合をGLに、漢字集合1面をGRに。SS3で漢字集合2面
実装水準
上記の符号化方式には、それぞれ、実装水準3、実装水準4というふたつの実装水準が設けられています。実装水準3は、漢字集合2面に対応しない実装であり、実装水準4は漢字集合1面・漢字集合2面の両方に対応した完全版の実装です。実装水準3の場合は漢字は第1水準から第3水準までの対応で、一方実装水準4では第1水準から第4水準漢字まで全ての対応となります。
このような実装水準が設けられているのは、漢字集合2面の対応には、従来のJIS X 0208だけの実装には用いられなかった機構が要ることがあるためです。例えばEUCの場合ならシングルシフト3による対応が必要になりますし、SJISなら漢字集合2面は区点番号との計算方法が漢字集合1面のものとは異なります。
従来のJIS X 0208対応の実装に対して最小限の変更で済ませられるような簡易な適合性として実装水準3が用意されています。
UnicodeないしISO/IEC 10646との関係
JIS X 0213はその各文字について、Unicode (ISO/IEC 10646 UCS) の対応する文字名・符号位置を定めています。これに基づいて、Unicodeとの間でコード変換ができます。
JIS X 0213が2000年に制定された当初はUnicodeにない文字もありましたが、その後Unicode 3.2でJIS X 0213の全ての文字に対応しました。
ただし、Unicodeでは結合文字を使って複数の符号位置の並びとして表現する必要のある文字もあります。例えば鼻濁音表記用の平仮名・片仮名や、アイヌ語表記用の片仮名の一部がこれに当たります。
また、漢字の一部がCJK互換漢字による対応になっています。これらはUnicode正規化の処理によってCJK統合漢字に置き換えられてしまいます。例えば「福」のへんが「ネ」でなく「示」の字体(面区点1-89-33、第3水準)がこれに当たります。
制定・改正履歴
- 2000年 制定。
- 2004年 改正。追補1を発行。例示字形を表外漢字字体表に合わせる変更。これに伴い第3水準漢字に「表外漢字UCS互換」10文字を追加。
- 2012年 改正。追補2を発行。2010年に改正された常用漢字表との対応を参考情報として追加。
他の規格との関係
- JIS X 0208 - JIS X 0213はこれの拡張版。
- JIS X 0201, ISO/IEC 646 - これらの1バイトコードと同時に運用する符号化方式がJIS X 0213で定義されている。また、これらのコードの文字をJIS X 0213は全て含む。
- ISO/IEC 8859 - 第1部(Latin-1)、第2部(Latin-2)の文字をJIS X 0213は全て含む。
- ISO/IEC 10646 (JIS X 0221)またはUnicode - JIS X 0213は各文字についてこれに対応する符号位置を記述。(変換表として使用可能)
- ISO/IEC 2022 - JIS X 0213はこれに整合的な構造であり、符号拡張の方式を用いて他の文字コードと組み合わせて使用可能。
参考
- JIS X 0213の代表的な符号化方式 - 各符号化方式の説明。
- JIS X 0213のあまり代表的でないかもしれない符号化方式 - 規格本体の6種類の符号化方式の説明。
- JIS X 0213のコード対応表 - Unicodeとの変換表があります。
- 漢字集合1面の文字コード表
- 漢字集合2面の文字コード表
- JSA Webdesk - 規格票を紙またはPDFの形で購入できます。規格番号「X0213」で検索のこと。
- 当サイト全般
最終更新時間:2024年03月03日 15時25分17秒