- PR -

wgetで取得したパスに勝手にindex.htmlという名前が付く

1
投稿者投稿内容
biz
会議室デビュー日: 2005/02/09
投稿数: 7
投稿日時: 2005-03-01 21:17
続けざまの質問すみません。bizです。
wgetというHTTPで巡回し、ファイルを取ってくるツールを使っていますが、wgetを実行する際に取得するサイトのドメインを指定しているのですが、勝手にindex.htmlという名前で取得してきます。
(http://hoge.co.jp/ と指定するとこのサイトのTOPが何であろうとhttp://hoge.co.jp/index.htmlというファイルになってしまいます。)
この現象の回避方法をご存知の方がいらっしゃいましたらよろしくお願いします。

--環境--
OS:LinuxRedHat9(GNOME,Xwindow使用)
Apache ver1.3.33
Namazu ver2.0.14
wget  ver1.9.1
あんとれ
ぬし
会議室デビュー日: 2004/01/14
投稿数: 556
投稿日時: 2005-03-01 23:53
中身を確認したわけではないのではっきりした回答をすることはできませんが、wget の仕様のような気がします。

http://hoge.co.jp/

へのアクセスで返されるコンテンツのファイル名が index.html なのか xyz.html なのかをクライアントは知るすべがないものの、ファイル名なしで保存するわけにはいかないので、index.html という名称を使用しているだけのように思います。

幸い、wget はソースコードもそれほど大きくないので、ソースツリー内を「index.html」で検索してみるとこの辺りがはっきりするかもしれません。
biz
会議室デビュー日: 2005/02/09
投稿数: 7
投稿日時: 2005-03-02 10:38
あんとれ様
ご返答ありがとうございました。

やはり仕様っぽいですか・・・。そんな感じもしていました。
wgetが変換して取得してきたhtmlファイルに関して何か区別が付けばよいのですが、またそれは調べてみることにします。
ありがとうございました。
1

スキルアップ/キャリアアップ(JOB@IT)