Unicode
【ユニコード】
世界中の文字を統合して、単一の文字セットとして扱えるように決められた文字コードのこと。Unicode Consortiumによって規格化されている。もともとはXerox社などによって、世界各国(欧米だけでなく、アジア圏の漢字なども含む)の文字を、すべて固定長コード(16bit)として統一的に扱うために開発された文字コードであったが、その後各国の標準化機関やコンピュータ関連ベンダなどの協力を得て、Unicode 3.1として規格化されている。またこのUnicode規格をベースにして、通称UCS(Universal Multiple-Octet Coded Character Set)と呼ばれる、国際的な標準規格「ISO/IEC 10646-1:2000―Information Technology-Universal Multiple-Octet Coded Character Set(UCS)-Part1:Architecture and Basic Multilingual Plane」と、そのJIS規格である「JIS X 0221―国際符号化文字集合(UCS)第一部 体系及び基本多言語面」が制定されている。
Unicodeでは、アルファベットだけでなく、漢字(日中韓のすべての文字)やギリシャ文字、キリル(ロシア)文字、ヘブライ文字、ハングル文字、アラビア文字など現在世界中で使われているほとんどの文字や、コンピュータで使われている特殊な文字(記号類やベンダ独自の特殊文字など)をすべて16bitという固定長の文字コードとして扱うことになっている。すべての文字を固定長にして統一的に扱えるようにすることにより、プログラムが簡略化されるし、各国向けにローカライズする作業も容易になるというメリットがある。システムによっては、内部では文字をすべてUnicodeで表現し、移植性や互換性を高めている。例えばWindows NT/2000/XPでは、システム内部の文字列リソースやファイル・システム中で使用する名前文字列などにUnicodeを使用しており、同一のバイナリ・コードで世界各国のOSバージョンに対応したり、相互運用性を高めたりしている。またJavaでも、システム内部ではUnicode文字として扱うことにしている。システムの外部とデータをやりとりする際には、変換テーブルなどを介して従来の文字コード(Shift JISやEUCなど)と相互変換することにより、ユーザーはUnicodeを意識することなく利用することができる。
Unicodeでは、すべての文字を16bit以内で表現するために、日中韓(および台湾、香港)のそれぞれの地域で使われていた標準的な文字コード(日本ならJIS規格として制定されていた漢字コード)を、その字源に基づいて(同じ字体の文字を)統合するという手法を使っている。これらの文字をCJK(Chinese、Japanese、Koreanの略)統合文字という。この結果Unicodeの文字コード表には、日中韓の漢字文字が(一見ランダムに)混在することになったが、漢字の総数は2万8000字程度に抑えられている。
Unicodeにおける文字コードは、すべて「U+nnnn(nは16進数の1桁)」という形式で表記することになっている。例えば"漢"という文字は「U+6F57」と表記する。
Copyright (C) 2000-2007 Digital Advantage Corp.
関連用語
参考リンク
-
■The Unicode Consortium
Unicodeの規格制定団体であるUnicode Consortiumのホームページ