検索
- ACMS B2B -
V.2.9.0から、ISO-2022-JP-2004/Shift_JIS-2004/EUC-JIS-2004及び Unicode 間で、相互に文字コードを変換することが可能になりました。
- ACMS EAIpro -
JIS X 0213:2004の符号化方式 ISO-2022-JP-2004/Shift_JIS-2004/EUC-JIS-2004及び Unicode 間で、相互に文字コードを変換することが可能になりました。
- ASCII -
ASCII (American Standard Code for Information Interchange)は、アメリカ合衆国の7ビットの1バイト文字コード規格です。世界的によく使われています。
- AnyTran -
V.5.5.0から、JIS X 0213:2004の符号化方式 ISO-2022-JP-2004/Shift_JIS-2004/EUC-JIS-2004及び Unicode 間で、相互に文字コードを変換することが可能になりました。
- BMP -
当初のUnicodeは、このうち群00の面00の65,536符号位置のみを用いる16ビットの文字コードとして設計されました。この面00がBMPです。
- CJK互換漢字 -
CJK互換漢字とは、Unicodeならびに[[ISO/IEC 10646]]において、CJK統合漢字とは別に、他の文字コードとの互換性のために用意されている漢字の符号位置です。
- CJK統合漢字 -
各国の漢字コード規格には、同じ漢字であっても、文字デザインの違い、あるいは字体に及ぶ違いが見受けられます。CJK統合漢字では、形の違いの大きくないものは区別せず包摂して単一の符号位置を与えています。例えば、「骨」という字の中のカギは中国簡体字の文字コード規格GB 2312の例示字形では左右逆についていますが、この差はCJK統合漢字は区別せずに同じ符号位置U+9AA8で表します。
- EUC -
EUC (Extended Unix Code)は、ASCIIと2バイト文字コードを一緒に運用する方式のひとつです。
- EUC-CN -
EUC-CNは、中国の漢字コードGB 2312をASCIIと同時に運用する文字コードです。
- EUC-JIS-2004 -
例えば、MacのコマンドラインやWindowsのCygwinでiconvを使ってUTF-8との間でコード変換するには下記のようにします。文字コード名「EUC-JISX0213」によってEUC-JIS-2004を指定できます。
- EUC-JP -
EUCはExtended Unix Codeという名のとおりUnix系OSでの日本語用文字コードとして開発されたもので、元々はJISで決められたものではありません。ただし、その中心部分、つまりASCIIとJIS X 0208の部分は、JIS X 0208:1997の「国際基準版・漢字用8ビット符号」と同一です。
- GB 2312 -
GB 2312は、中国 (中華人民共和国) の文字コード標準のひとつです。1980年に制定されました。
- GNU C Library -
バージョン2.3以降で、文字コード変換の関数・コマンドのiconvでJIS X 0213の符号化方式(EUC-JISX0213, ISO-2022-JP-3, Shift_JISX0213)をサポートしています。
- Help/FSWiki -
まずは[[InterWikiName]]にサーバを記述します。URLの別名アンカをリストとして記述します。必要に応じて別名アンカのあとに続けて文字コードを指定します。
- IEC -
文字コードを含む情報工学分野では、ISOと共同して標準化を行っています。
- ISO -
文字コードの分野では、ASCII相当の[[ISO/IEC 646]]、文字コードの構造と拡張法を定める[[ISO/IEC 2022]]、欧州言語の文字の8ビットコード[[ISO/IEC 8859]]、国際符号化文字集合[[ISO/IEC 10646]]といった主要な規格をIEC (国際電気標準会議)とともに開発しています。
- ISO-2022-JP -
名前が紛らわしいのですが、ISO-2022-JPはISOで定義されている文字コードではありません。[[ISO/IEC 2022]]の仕組みの一部を用いて日本の文字コードをASCIIとともに運用する一方式です。
- ISO-2022-JP-2004 -
テキストエディタのGNU Emacs, プログラミング言語のPython, PHP, 文字コード変換プログラムのiconv, AnyTran, RACCOON等はこの符号化方式に対応しています。
- ISO/IEC 10646 -
ISO/IEC 10646は、世界中の文字を対象とした文字コードの国際標準です。ISOとIECによって策定された公的標準です。Unicodeと同等の文字コードを定めています。
- ISO/IEC 2022 -
ISO/IEC 2022は、文字コード(符号化文字集合)の構造と拡張法を定めるISOとIECによる国際規格です。
- ISO/IEC 646 -
ISO/IEC 646は、7ビットの文字コードの国際規格です。
- ISO/IEC 8859 -
ISO/IEC 8859とは、ISOとIECが定めている1バイトの文字コード規格です。
- ISO/IEC 8859-1 -
ISO/IEC 8859-1は、ISOとIECによる文字コードの国際規格で、西ヨーロッパの諸言語の表記に使われるラテン文字を符号化するものです。[[ISO/IEC 8859]]という規格の第1部です。通称としてLatin-1ともいいます。最新版は1998年に発行されています。
- ISO/IEC 8859-2 -
ISO/IEC 8859-2は、中央ヨーロッパ(中欧)の言語の表記に用いられる文字に対応した1バイトの文字コード規格です。ISOとIECが定めています。ISO/IEC 8859というシリーズものの規格の第2部です。通称としてLatin-2とも呼ばれます。
- JIS -
1995年以降、WTO/TBT協定によって、国内規格はISOやIECのような国際規格と整合性が取られるよう改訂されています。日本の文字コード規格はもともと国際規格 [[ISO/IEC 2022]] と整合するよう規定されてきましたが、1995年以降の改訂では、規格の標題や構成のような形式的な面からも整合が図られています。また、[[ISO/IEC 10646]]と技術的に一致する(identicalな)国内規格JIS X 0221が制定されるなどしています。
- JIS X 0201 -
JIS X 0201は、日本の文字コード規格で、ASCIIに類似した1バイトコードを定めるものです。
- JIS X 0208 -
JIS X 0208は、日本の文字コード規格で、JIS X 0213の元になったものです。
- JIS X 0212 -
なお、UnicodeでJIS X 0212に対応したと主張する製品もありますが、それはUnicodeにJIS X 0212の文字が全て含まれているというだけのことで、JIS X 0212という文字コード規格に対応しているわけではありません。
- JIS X 0213 -
JIS X 0213は、日本の文字コード規格です。名称を
- JIS2004 -
例示字形の変更は、包摂規準の範囲内であることから、既存の実装に影響を与える変更にはなりません。文字コード規格の例示字形はあくまでも例示であり、厳密にその形でないといけないというものではありません。この字形の変更に追随してもしなくても適合性には影響ありません。符号化文字集合規格は文字の符号化表現を定めるものであって、フォントデザインを定めるものではありません。
- JISコード -
文字コードにおいてJISコードとは、下記の意味で使われる言葉です。
- JIS漢字 -
* JISの文字コード規格のうち、漢字を含むもの。JIS X 0208やJIS X 0213。
- JIS第3・第4水準漢字を用いる三国志人名リスト -
UTF-8, Shift_JIS-2004, EUC-JIS-2004の3つの文字コードで提供されています。
- Java -
文字コードを指定する場面においてこの文字列を指定すると、
- KS X 1001 -
KS X 1001は、韓国 (大韓民国) の文字コード標準のひとつです。1987年に現在の構造の符号になりました。当時の規格番号はKS C 5601でしたが、のちに現在の規格番号に改められました。
- MSB -
!!文字コードとMSB
- Menu -
!!文字コード参考文献
- PostgreSQL -
*[【PostgreSQLウォッチ】第35回 性能を大幅に改善するPostgreSQL 8.3の新機能「HOT」とは:ITpro|http://itpro.nikkeibp.co.jp/article/COLUMN/20070409/267852/] (4ページ目に文字コードの話が載っています)
- Python -
以前から、Pythonで日中韓の文字コードを扱うCJKCodecsというモジュールが
- RACCOON -
この製品はシステム間連携のためにデータを取得し変形・加工して読み込むために用いることができます。その際の処理のひとつとして文字コード変換ができます。
- Ruby -
文字コードの名前として "EUC-JIS-2004" という名前で入っています。
- Safari -
SafariはOSの文字コード変換サービスをそのまま使用しているため、Windows版はShift_JIS-2004に対応していません。
- Scala -
文字コードの名前として、"x-SJIS_0213" という文字列で登録されています。
- Shift_JIS-2004 -
Shift_JIS-2004は、JIS X 0213の符号化方式のひとつです。JIS X 0213の符号を計算式によって変形したものとJIS X 0201とを同時に用いる方式で、1バイトと2バイトの混在する文字コードです。
- Shift_JISX0213 -
コード変換のコマンドライン例を示します。UTF-8のテキストファイル utf8.txt を読み込んで文字コードを Shift_JISX0213 (Shift_JIS-2004)に変換し、ファイル sjis.txt に出力します。SJISに変換するのには、第2水準までしか対応しないSHIFT_JIS等でなく、常にこの指定を用いるのがおすすめです。
- UTF-16 -
当初、Unicodeは16ビット固定長で1文字を表すのが売り文句の文字コードでした。しかし、16ビットの符号空間では最大65,536文字しか扱えず、拡張が必要となりました。
- Unicode -
Unicodeは、Unicodeコンソーシアムという業界団体が策定している文字コードの国際規格です。世界中の文字を単一の文字コード(符号化文字集合)で扱うことをねらいとしています。
- gTef -
文字コード変換ソフトウェア[gTef|http://www.mirai-ii.co.jp/products/soft/gtef/]は、
- iconv -
iconvは、主にUnix環境で文字コードを変換するためのプログラム、またそのAPIです。WindowsのCygwinでも利用できます。
- libiconv -
GNU libiconvは、文字コード変換のライブラリおよびコマンドのiconvの実装のひとつです。Free Software Foundationによって、GNUプロジェクトの一環として開発・配布されています。
- libmoe, mbconv -
JIS X 0213:2000を含む多くの文字コードに対応しています。
- nkf -
入力・出力の文字コードを指定するオプションの --ic=<input_codeset --oc=<output_codeset>> において、
- エスケープシーケンス -
文字コードにおいてエスケープシーケンスとは、制御文字エスケープ (0x1B) とその後に続く何バイトかの列のことです。文字コードの構造と拡張法を定める国際規格[[ISO/IEC 2022]]において、符号化文字集合の切り替えに用いられます。
- キリル文字 -
!!キリル文字を含む主な文字コード
- ギリシャ文字 -
ラテン文字の元になっており、両者には形の共通する文字もあります。例えば、ギリシャ文字のアルファの大文字(Α)は、ラテン文字の対応する「A」(エー)と同じ形です。ただし文字コードでは、形の区別が困難であっても、ラテン文字とギリシャ文字という異なる文字体系(用字系, script)ではそれぞれに独立した符号位置を与えるのが普通です。
- ソフトハイフン -
Unicodeならびに[[ISO/IEC 10646]]はソフトハイフンを収めた文字コード規格ISO/IEC 8859-1 (Latin-1)の配列をそっくりコピーしているので、Latin-1の他の文字と同じ並びにこの特殊な記号も含まれています。
- ハイフンマイナス -
Unicodeないし[[ISO/IEC 10646]]では文字に対して一意な名前を与えて、他の文字コード規格との対応づけを図っています。UnicodeもJIS X 0208同様にハイフンとマイナスそれぞれに独立した符号位置を割り当てています。ここで、ASCIIをそっくりコピーしているBasic LatinブロックにあるU+002Dに対しては、「ハイフンにもマイナスにも用いられる曖昧な記号」として、便宜的にHYPHEN-MINUSという文字名が与えられました。
- ラテン文字 -
!!ラテン文字を収めた主な文字コード
- ローマ字 -
* [日本語ローマ字綴りのための拡張ラテン文字コード表|http://x0213.org/romaji-code/] - 当サイト。長音符号付きの母音字の機械可読な文字コード情報
- 改定された常用漢字とJIS漢字コード規格 -
JIS X 0213:2012にもとづいた常用漢字の文字コード表は、機械可読なCSV形式で当サイトから入手可能です。([常用漢字と文字コードの対応表|http://x0213.org/joyo-kanji-code/])
- 外字 -
* 文字コード表にない文字。
- 漢字コード -
漢字コードとは、文字コードのうち、漢字の符号化を主眼としたものを指します。
- 常用漢字表 -
* [常用漢字と文字コードの対応表|http://x0213.org/joyo-kanji-code/] (当サイト)
- 人名用漢字 -
* [人名用漢字と文字コードの対応表|http://x0213.org/jinmeiyou-kanji-code/] - 当サイト。機械可読形式のCSVファイル。
- 波ダッシュ問題 -
iconv以外で同様の指定をするには、文字コードを指定する場面で例えばJavaでは "x-SJIS_0213", Pythonでは "shift_jis-2004" とすると、Shift_JIS-2004を指定できます。
- 非漢字 -
非漢字とは、JIS X 0213やJIS X 0208等の文字コード規格において、漢字以外の文字を指す言葉です。これらJISの2バイトコード規格は漢字が量的に多いですが、仮名文字やアルファベットや記号なども含まれます。そこで漢字以外の文字・記号を指すために便宜的に非漢字という表現が使われます。
- 符号位置 -
符号位置(code point, code table position)とは、文字コード表の中の位置のことです。各位置には計算機上で用いられる符号化表現が対応します。
- 符号化文字集合 -
符号化文字集合とは、要するに文字コードのことです。文字とコードとの対応付けの
- 文字コード - 文字コード
- 文字名 -
1990年代以降、[[ISO/IEC 10646]]以外の文字コード規格も、各文字について上記のような文字名を与えるようになっています。2000年に制定されたJIS X 0213はもちろんの事、10646以前に制定された文字コード規格、例えばJIS X 0201やJIS X 0208は、1990年代の改正時に文字名を定義しています。国際標準の[[ISO/IEC 646]]や[[ISO/IEC 8859-1]]も各文字に10646に対応する文字名を定義しています。
- 包摂 -
文字コードにおいて包摂(ほうせつ)とは、ひとつの符号位置に複数の字体が対応することです。英語ではunificationといいます。
- 面区点番号 -
面区点番号とは、JIS X 0213の符号位置(文字コード表の中の位置)を表すための番号です。3つの整数、すなわち面番号、区番号、点番号の組として表されます。例えば、「1面16区11点」のように表します。しばしば「1-16-11」のように略記されます。1-16-11は「茜」という漢字が割り当てられている符号位置です。