- PR -

C#で、ウェブブラウザからHTMLの本文のみの抽出について

投稿者

投稿内容

むーすけ: 会議室デビュー日: 2008/08/03; 投稿数: 6

投稿日時: 2008-08-03 21:42

お世話になります。
現在、WebBrowserに表示されたページのHTMLからbody本文のみをテキストファイルに出力するプログラムを作っているのですが、参照しているURLは違うのに同じ内容のテキストファイルが複数出来てしまったりと、苦戦しております…。
配列url[0～9]に計10個のURLが入っているのですが、

int sUrl=0;
webBrowser1.Navigate(url[sUrl]);

private void webBrowser1_DocumentCompleted(object sender, WebBrowserDocumentCompletedEventArgs e)
{
if (sUrl <= 9)
{
bunnsyou = "";
HtmlDocument doc = webBrowser1.Document;
if (doc.Body.InnerText == null)
{
bunnsyou = "　";
}
else
{
bunnsyou = doc.Body.InnerText;
}
StreamWriter writer = new StreamWriter("text" + sUrl + ".txt");
writer.Write(bunnsyou);
writer.Close();
sUrl++;
webBrowser1.Navigate(url[sUrl]);
}
}

と、まず配列url[0]から始めて、DocumentCompletedの中でまたNavigateしています。
本文がNULLであった場合は、空白を入れて、絶対10個のテキストを作るようにしております。
text7.txtとtext8.txtが、違うURLなので違うHTMLのはずなのに、同じ内容のテキストになってしまうということがおきてしまいます…。
Navigateを行うと、DocumentCompletedに行ってくれると思っているのですが、それが勘違いなのでしょうか…？

ご指導のほど、よろしくお願いいたします。

unibon: ぬし; 会議室デビュー日: 2002/08/22; 投稿数: 1532; お住まい・勤務地: 美人谷　　　　　　　　良回答(20pt)

投稿日時: 2008-08-03 23:35

引用:
むーすけさんの書き込み (2008-08-03 21:42) より: Navigateを行うと、DocumentCompletedに行ってくれると思っているのですが、それが勘違いなのでしょうか…？

その認識で基本的には間違ってはいないません。しかし、フレーム(frame)構造になっていると、フレームに関与するコンテンツの個数分 DocumentCompleted が発生します。

もしかしたら、フレーム構造になっているページに Navigate しているのではないでしょうか？(良くは知りませんが iframe でもなるのかもしれません。)
DocumentCompleted の引数 WebBrowserDocumentCompletedEventArgs の中に Url の情報が入っていますので、それで確認はできます。
ただ、WebBrowser の仕様はフレームの取り扱いのことをあまり考えてくれないようであり、アプリケーションできちんと処理しようとするとかなり苦労します。

「件名：WebBrowser コントロールを使用し、URL を見ずにどの frame かを識別することは可能ですか？」
http://www.atmarkit.co.jp/bbs/phpBB/viewtopic.php?topic=43920&forum=7
のような問題です。

むーすけ: 会議室デビュー日: 2008/08/03; 投稿数: 6

投稿日時: 2008-08-05 16:01

回答ありがとうございます。

確認してみたところ、フレーム構造で作られているページのURLも配列の中に含まれていました…。
事前に、
配列の中身のURLをリストボックスに表示して、クリックされたURLのHTMLの本文をテキストボックスに表示する。
という1個ずつの手動的な実験が上手くいっていたので、sUrl++で自動的に行ってくれるようにしてテキストファイルに出力も、出来るものだと思っていました…。

フレームに関与するコンテンツの個数分 DocumentCompleted が発生するということも知らず、まだまだ未熟者ですみませんでした…。
APIの検索結果上位10件を配列にいれているので、フレーム構造のページが含まれるかどうかは、その時によって違いますし、
その10件のURLのHTMLの本文のみをテキストファイルに出力しなければならないので、これからは、フレームにどう対応していくかということと闘うことになりそうです…。

unibonさん、とても早い回答、本当にありがとうございました。

＠IT SpecialPR

C#で、ウェブブラウザからHTMLの本文のみの抽出について

スキルアップ／キャリアアップ（JOB@IT）