- PR -

JAVAで検索

1
投稿者投稿内容
浩一
会議室デビュー日: 2001/10/25
投稿数: 15
投稿日時: 2001-11-20 12:40
htmlソース内の文字列をJAVAで検索したいと思うのですが、
探索木を使って、どのようにしてhtml内に探索をかけるかが解かりません。
どのように書けばいいのかを教えて下さい。
サンプルソースのあるWebサイトでも
この部分にこのプログラム文を挿入するだけでいいですというのでも
その他の方法でもかまいません。
H2
ぬし
会議室デビュー日: 2001/09/06
投稿数: 586
お住まい・勤務地: 港
投稿日時: 2001-11-20 16:57

文書の検索に探索木って向かないような気がします。探索木を使用するにはまず木を作らないといけませんよね。その場合、一度文書を読み込み文章を切り分ける必要があります。文章を切り分けるというのは結構大変ですよ。(英語なら単語ごとというのができますが、日本語の場合単語の区切りが難しい)

結局文書を読み込む必要があるので、文書の上から下まで順に検索をかけていくのが一番シンプルな方法だと思いますよ。IEやAcrobat Readerでも上から下まで順番に検索してるんじゃないかなぁと思います。(間違ってたらごめんなさい)

java.lang.Threadを使い複数のスレッドで文書を分割検索するというのもできるような気がします。

ちょっとずるいですがソースの探索などは結構面倒なので、grepのような外部関数をjava.lang.Runtimeクラスで呼び出すというのも手ですね。
しょむ
ぬし
会議室デビュー日: 2001/09/06
投稿数: 430
投稿日時: 2001-11-20 16:58
何をしたいのかわかりません。

文字列中の文字を探すなら、単純に String#indexOf() を使えばいいですし、
HTML の構造解析をしてどうの、だったら、XML パーザにかけるなりして、
あとは XML のノード内検索の話になりますね。
# XML 的に invalid な HTML を食わせてもいけるようにするのは至難の技
1

スキルアップ/キャリアアップ(JOB@IT)