電子メールで使用される文字コードにはさまざまなものがあり、日本語メールでも複数のコードが使用されている。使用されているメールのコードはヘッダ中のContent-Type:フィールドに記録されている。メールの文字化けして正しく表示されない場合は、強制的にエンコーディング形式を変更するとよい。
対象ソフトウェア:Outlook/Outlook Express
電子メールで利用される文字コードには、言語ごとに異なっているのはもちろんのこと、同じ日本語であっても、複数の種類の文字コードが利用されている。本稿では、日本語メールで利用される文字コードの種類についてまとめておく。使用されている文字コードに対して、メールの表示設定があっていないと、いわゆる「文字化け」が発生し、正しくメールの内容を読むことができなくなる。メール・ソフトウェアは文字コードを自動で判別するが、場合によってはその機能が正しく動作しないこともあり、そうした場合には自分で文字コードを調べ、適切な表示コードを手動で選択させるとよいだろう。
日本語環境向けのメール・ソフトウェアでは、以下のような文字コードがサポートされている。歴史的な経緯などにより、さまざまな文字コードが利用され、現在ではこのようになっている。
文字コード | エンコード名 | 意味 |
---|---|---|
ANSIコード | us-ascii | 英数字記号文字を含む、7bitの基本的な文字コード。ほかの文字コードでも、英数字部分の文字コードはこのANSI文字コードをベースにしているものがほとんどである。ASCIIコードとも呼ばれる |
Latin 1コード | iso-8859-1 | 英語以外の、ラテン系の欧州言語(仏語や独語、伊語ほか)で使用されるコード |
JISコード | iso-2022-jp | ANSI文字コードと漢字文字コードを、「エスケープ・シーケンス」と呼ばれる特別な文字シーケンスで切り替えながら共存させている。ほとんどの場合、インターネット電子メールやニュースは、この文字コードで送受信される |
シフトJIS | shift_jis | MS-DOSの時代から広く使われている文字コード。漢字文字コードの「JISコード」をベースにして、ANSI文字と共存させている。PC環境では一般的な日本語文字コード |
EUC | euc-jp | UNIX環境で広く使われている日本語文字コード。シフトJISとは異なる方法でANSI文字と漢字文字を共存させている |
Unicode UTF-7 | utf-7 | Unicodeは、世界中の文字を16bitもしくは32bitの固定長の文字コードで統一的に扱うために作られたコード。16bitの方をUCS-2、32bitの方をUCS-4という。Unicodeをファイルへの保存や、通信回線上で送受信するためのエンコーディング方法の1つがUTF-7である。Unicode(UCS-2)を7bitのコードでのみ送信できるように、一部のUnicode文字をBase64でエンコーディングしている |
Unicode UTF-8 | utf-8 | Unicodeをファイルに保存したり、通信回線上で送受信したりするためのエンコーディング方法の1つがUTF-8である。2bytes以上の可変長データの組み合わせでUnicodeを表現する。非ASCII文字(U+0080以降の文字)では、各バイトの最上位bit(MSB)が1になるので、場合によっては(7bitデータしか通さないメール・システムだと)利用できないことがある |
日本語メールで利用される主な文字コード 日本語メール環境で利用できる主な文字コード(Latin 1以外にも多くの欧米系の言語がサポートされているが、ここでは取り上げない)。ただしシフトJISコードやEUCコードは現在のメールではほとんど利用されていない。これらのコードでは、日本語と英語を同時に表現できるが、それ以外の言語をさらに混在させるのが困難だし、昔のメール・システムでは8bitコードを送信できなかったからだ(最上位bitの情報が欠落してしまう)。エンコード名とは、文字コード種別を表すために、メール・ヘッダ中に記述される文字列のこと(大文字/小文字の違いは関係ない)。 |
このうち、現在日本語メールとして広く一般に利用されている文字コードはJISコードであり、ほとんどのメールではこれが利用されている。シフトJISやEUCは、Webページの制作などではまだ利用されているが、メール環境ではほとんど利用されていない。これらのコードは、ほかの言語との互換性や、多言語が同一メッセージ中に混在するようなメールではうまく利用できないからだ。また昔のメール・システムでは8bitコードを送信できなかったので(最上位bitは強制的に0にされてしまう)、8bitを全部使うようなコードは避けられている。
これ以外に、最近では文字コードとしてUnicode(UTF-7もしくはUTF-8)が利用されるケースも少なからずある。スパムを始めとした海外からのメールでよく利用されているようだし、サーバOSやサーバ・アプリケーションなどが送信してくる、動作確認や通知用のメッセージでも利用されていることが多い。
メール本文で使用されている文字コードは、メールのヘッダ中に記録されている。メール・メッセージが正しく表示されない場合は、エンコード方法を調査し、それに一致した表示エンコーディング方法を選択すればよい。
文字コードの種類(エンコーディング方法)は、ヘッダ中の「Content-Type:」フィールドに記録される。テキストのみのJISコードなら「Content-Type: text/plain; charset="ISO-2022-JP"」、UTF-8なら「Content-Type: text/plain; charset="UTF-8"」、英語メールなら「Content-Type: text/plain; charset="US-ASCII"」などとなる(「text/plain;」はテキスト形式を表す。HTML形式なら「text/html;」となる)。もしマルチパート・メール(複数のパートに分かれている、添付ファイルのあるメール、HTML形式のメールなど)なら、各パートごとにこのヘッダ情報が付けられている。
メール・ソフトウェアでは、使用されている文字コードを自動的に判別し、適切なエンコーディング方法でメッセージの内容を表示するようになっている。だが、エンコーディングの指定情報が欠落していたり(スパム・メールや自動送信メールなどでは欠落していることが多い)、コードの指定が間違っている、コードが誤認識されてしまったなどのさまざま理由により、自動的な判定がうまくいかない場合がある。そんな場合は手動で表示コード指定を変更すれば、正しく表示できる可能性がある。一般的な日本語メールなら、「自動選択」「シフトJIS」「Unicode(UTF-8)」「Unicode(UTF-7)」あたりを試してみればよいだろう。
■関連記事(Windows Server Insider)
■この記事と関連性の高い別の記事
Copyright© Digital Advantage Corp. All Rights Reserved.