- PR -

wgetで取得できないファイルがある

1
投稿者投稿内容
biz
会議室デビュー日: 2005/02/09
投稿数: 7
投稿日時: 2005-03-01 15:58
こんにちはbizと申します。
当方はLinuxRedHatでNamazuを使ったシステム構築を行っております。
Namazuを使う際にwgetを行ってファイルを取得しているのですが、
取れないファイルがあります。
ファイル種類はdoc、pdfですが、違う階層に有るdocやpdfは取得できています。
なお、wgetのコマンドでは階層の制限もしていません。(実際その階層と同じ階層にあるhtmlは取得できています。)

├ [Dir_1]
│ └ [Dir_1_1]
│ └ aaa.pdf

├ [Dir2]
│ └ bbb.pdf

上図の[Dir_1_1]も含むそれ以下が取得できません。[Dir2]を含む以下のファイルは取得できています。
何か心当たりの方がいらっしゃいましたらご教授いただけますでしょうか?
よろしくお願いいたします。

参考に実行しているwgetのコマンドを以下に書きます。
★/usr/bin/wget -m -R .txt,.css,.js,.log,.jpg,.jpeg,.gif,.png,.bmp,.jtd,.swf,.rm,.mpg,.mp3,.cgi,.pl,.exe,.lzh,.zip,.au,.ppt,.xls,.xml,.php,.TXT,.CSS,.JS,.LOG,.JPG,.JPEG,.GIF,.PNG,.BMP,.JTD,.SWF,.RM,.MPG,.MP3,.CGI,.PL,.EXE,.LZH,.ZIP,.AU,.PPT,.XLS,.XML,.PHP -i /home/nmzusr/wget/conf/listfile -t 1 -T 5 -nv -o /home/nmzusr/wget/logs/wget.log
biz
会議室デビュー日: 2005/02/09
投稿数: 7
投稿日時: 2005-03-01 16:02
自己レスです。
開発環境を書き忘れましたので追記いたします。
よろしくお願いいたします。

--環境--
OS:LinuxRedHat9(GNOME,Xwindow使用)
Apache ver1.3.33
Namazu ver2.0.14
wget  ver1.9.1
biz
会議室デビュー日: 2005/02/09
投稿数: 7
投稿日時: 2005-03-10 19:29
自己レスです。少し状況がわかりました。
wgetで取得しているhtmlファイル内にコメントタグがいくつかあります。
このコメントタグの
1.長さを代える
2.外す
等の事を行うとwgetで取得できたりできなかったりします。
コメントタグは通常の<!---->や、<!-- 2005.03.10 -->等記述があるものもあります。wgetの仕様、またはバグの中で、コメントタグの記述方法に関するものをご存知でしたら教えていただきたいのです。
皆様よろしくお願いいたします。
biz
会議室デビュー日: 2005/02/09
投稿数: 7
投稿日時: 2005-03-30 12:15
こんにちは。bizです。
解決・・というか問題の状況がわかったのでフィードバックします。
環境は
LinuxRedHat9
wget 1.8.2
です。

wgetのバグかもしれないと思うのですが、取得するHTMLファイル内にコメントタグ<!----->がある任意の長さの場合に、表示上は問題なくてもそのタグ以下がwgetはコメントとみなし取得しない現象があります。
わかりにくいですが、検証した結果コメントタグ内の--が。たとえば"-"が10個は取得不可。11個〜14個は取得可。15〜17個は不可(あくまでも説明上の例で実際の数値ではありません)といったような状況が確認できました。
確実な回避方法として--のどこかに半角ブランクがひとつでも入ると上記のような現象は起きずに<!--- --->はコメントタグとしてwgetは認識します。

このような現象を開発元のGNUにメールで送ったのですが会員専用(?)のようでメールが帰ってきてしまいます。(メールアドレスはwgetのhelpに表示された「バグ報告はこちら」と書いてあるアドレスに送付しました)
ほかにwgetのバグ報告先をご存知の方がいらっしゃいましたら教えていただけると幸いです。
走り書きの乱雑文でしつれいしました。
以上
1

スキルアップ/キャリアアップ(JOB@IT)