Windows TIPS
[System Environment]
  Windows TIPS TOPへ
Windows TIPS全リストへ
内容別分類一覧へ

Webページを単独のファイルとして保存する方法(2)

デジタルアドバンテージ
2001/01/25
2002/07/30更新

「Webアーカイブ」の中身を見る

 それでは実際に、適当なWebページをWebアーカイブ形式で保存し、データの中身を覗いてみよう。今回は例として、本サイトで公開しているBook Reviewの1ページをWebアーカイブ形式で保存してみる。

保存元のWebページ
今回は例として、本サイトで公開しているBook Reviewの1ページを保存してみる。画面から分かるとおり、このページには、本文となる文字データのほかに、さまざまな画像データが含まれている。

 ここで[ファイル]−[名前を付けて保存]メニューを実行し、表示される[Webページの保存]ダイアログで、ファイルの保存形式として[Webアーカイブ、単一のファイル(*.mht)]を選択して、ファイルを保存してみる。ファイル名については、ページ・タイトルである「Windows 2000 Insider Book Review」をそのまま使用する。するとWebページのデータがマルチパートMIME形式でエンコードされ、保存先フォルダに「Windows 2000 Insider Book Review.mht」というファイルが生成される。

[Webアーカイブ、単一のファイル(*.mht)]を選択してページを保存する
保存したいWebページをIEで表示し、[ファイル]−[名前を付けて保存]メニューを実行して、[Webページの保存]ダイアログを表示させる。今回は、ファイル名にはWebタイトルの「Windows 2000 Insider Book Review」をそのまま指定し、[ファイルの種類]として[Webアーカイブ、単一のファイル(*.mht)]を選択する。こうして[保存]ボタンをクリックすると、WebページのデータがマルチパートMIME形式でエンコードされ、それらを含む単一のファイルが生成される。
  ファイル名には、Webページ・タイトルに指定されている「Windows 2000 Insider Book Review」をそのまま指定。
 
[ファイルの種類]としては、[Webアーカイブ、単一のファイル(*.mht)]を選択し、右の[保存]ボタンをクリックする。

 それでは、保存したファイルを正しくIEで表示できるかどうか試してみよう。今生成されたWindows 2000 Insider Book Review.mhtというファイルをマウスでダブル・クリックするか、IEにドラッグ&ドロップして表示させる。すると次のように、元の画面が完全に再現された。

保存したWebアーカイブ・ファイルをIEで表示したところ
保存したWebアーカイブ・ファイルをIEで表示してみると、このように元のページが完全に再現された。
 
先ほど保存したWebアーカイブ・ファイル。

 それでは、.mhtファイルの中身を覗いてみよう。保存した.mhtファイル(Windows 2000 Insider Book Review.mht)をメモ帳で表示すると、次のようになった。

.mhtファイルをメモ帳で表示したところ
一見すると、電子メールをテキスト形式で保存したファイルと見間違えそうなデータだ。保存された.mhtファイルには、「From」や「Subject」を始め、メールヘッダが記録されている。Webページのデータは、マルチパートMIME形式により、HTMLや画像データが、それぞれエンコードされて独立したパートに格納されている。

 このように、.mhtファイルは、メールのデータ形式を応用したものだということが分かる。今回の例では、HTMLデータは“quoted-printable”形式、画像データは“base64”形式でエンコードされていた。しかし他のWebページを保存したときには、HTMLデータを含めすべてのデータが“base64”形式で保存されることもあった。

 このようにWebアーカイブとして保存したファイルは、画像データを含め単独のファイルとなるので、メールに添付するときなどに便利である。

.mhtファイルのマメ知識

 前出の「Webアーカイブ」について、もう少し背景を探ってみよう。

 マイクロソフトのドキュメントによれば、「Webアーカイブ」形式は、Webページのデータをメールに添付して送るときに便利だとしている。実際、IE 5の時代には、形式の名称は単なる「Webアーカイブ」だけでなく、「電子メールのためのWebアーカイブ」と呼ばれていたようだ(IE 5の特徴を説明したマイクロソフトのWebページ)。このドキュメントによれば、「Webアーカイブ」は「Multipurpose Internet Mail Extension:MHTML形式」と呼ばれている。

 RFCを調査したところ、このMHTML形式については、“MIME E-mail Encapsulation of Aggregate Documents, such as HTML (MHTML)”というタイトルで、RFC 2110として、ストックホルム大学とMicrosoftの代表者の連名で仕様が公開されていた(RFC 2110のページ)。

 実際のところ、IEでWebアーカイブ形式を指定してWebページを保存した場合でも、Webページ・データのマルチパートMIME形式への変換は、メール・ソフトウェアのOutlook Expressのモジュール(inetcomm.dll)が実行している。このためOutlook Expressをインストールしないで、IEのみインストールしている環境では、inetcomm.dllがインストールされておらず、Webアーカイブ形式でのデータ保存ができないので注意が必要だ(この問題に関するマイクロソフトのサポート技術情報のページ)。

 .mhtファイルは、IE 5以降で表示できることはもちろん、編集部で試したところでは、Netscape Navigatorの4.73を使えば、先頭部分のヘッダ情報が文字として表示されてしまうことを除けば、ページ自体は正しく表示されることを確認した(ただし、4.7では表示できなかった)。ただしNavigatorでは、Webアーカイブ形式でページを保存することはできず、表示のみが可能である。

 

 INDEX
     Webページを単独のファイルとして保存する方法(1)
   Webページを単独のファイルとして保存する方法(2)
 
更新履歴
【2002/07/30】最新情報を反映して加筆・修正しました。

「Windows TIPS」


Windows Server Insider フォーラム 新着記事
@ITメールマガジン 新着情報やスタッフのコラムがメールで届きます(無料)

注目のテーマ

Windows Server Insider 記事ランキング

本日 月間