- - PR -
全文検索 (インデックスサービス)
1
投稿者 | 投稿内容 |
---|---|
|
投稿日時: 2006-09-19 12:13
Window XP に標準搭載のインデックスサービスについて
どうしても分からないため、投稿させていただきました。 よろしくお願いします。 現在、ASP.NETとインデックスサービスを利用して、全文検索を行う システムを作成しようとしているのですが、 Word の日本語文書の検索結果が非常に悪いのです。 http://support.microsoft.com/default.aspx?scid=kb;ja;820105 上のページを参考にして作成していますが、 Word の文書が全部ではないものの、ほとんど語句で 検索結果に現れてきません。 同文書をテキスト(Shift-JIS)またはExcelに記入して検索を行うと、 検索結果に現れてきます。 コントロールパネル内->コンピュータの管理->インデックスサービス-> カタログのクエリでも結果は同じです。 インデックスサービスはこのようなものなのでしょうか? それとも、何か設定が足りないのでしょうか? (設定というものは特に無さそうですが) またはWordの文書の作り方に影響があるのか? 良く分かりません・・・。 -- 環境 -- Windows XP Professional Word2002 , 2003 Visual Studio 2005 どなたか教えていただければと思います。 よろしくお願いいたします。 [ メッセージ編集済み 編集者: りょう 編集日時 2006-09-19 12:14 ] [ メッセージ編集済み 編集者: りょう 編集日時 2006-09-19 12:27 ] [ メッセージ編集済み 編集者: りょう 編集日時 2006-09-19 14:04 ] |
|
投稿日時: 2006-09-19 21:48
インデックスサービスの機能が「そんなもの」なのかは知りませんが・・・
インデックスサービスが直接WORDの文章を解析している訳ではありません。インデックスサービスはWord Breakerと呼ばれるCOMコンポーネントを呼び出します。WORD等の文章ファイルから内容を単語に分解して取り出す処理をWord Breakerが行っています。ExcelにはExcel用の、WORDにはWord用の、テキストファイルにはテキストファイル用のWord Brekerが提供されているわけです。もちろんWord Breakerは言語によっても違うものが提供されているはずです。 で、ここで問題になるのは、Word Breakerが旨く単語を切り出せているかです。これは自前でWord BrakerのCOMコンポーネントを呼び出せば試すことが出来ます。実際のWORDファイルを対象にWord Breakerを呼び出して、どのような単語が取り出されているかを確認しては如何でしょう? |
|
投稿日時: 2006-09-19 23:05
ご返事ありがとうございます。
ご指摘のように、実際どのような語句で切り出しているか 確認したいと思っていたのですが、その方法が分かりませんでした・・・。 Office文書は offfilt.dll というフィルタを使っていると 書かれていましたので、これを利用して確認できないか調べてみましたが、 サンプル等を見つけることができません・・・。 (どのようなメソッドがあるかもわかりません) やはり、語句がうまく切り出せていないことが原因だとは思うのですが、 この程度の精度では利用できません。 しかし、ネット上で「使えない」という意見も見つけることができないんですよね〜。 利用されている方々は、使えてるのでしょうか。。。 |
1