- PR -

全文検索 (インデックスサービス)

1
投稿者投稿内容
りょう
会議室デビュー日: 2006/09/19
投稿数: 2
投稿日時: 2006-09-19 12:13
Window XP に標準搭載のインデックスサービスについて
どうしても分からないため、投稿させていただきました。
よろしくお願いします。

現在、ASP.NETとインデックスサービスを利用して、全文検索を行う
システムを作成しようとしているのですが、
Word の日本語文書の検索結果が非常に悪いのです。

http://support.microsoft.com/default.aspx?scid=kb;ja;820105

上のページを参考にして作成していますが、
Word の文書が全部ではないものの、ほとんど語句で
検索結果に現れてきません。
同文書をテキスト(Shift-JIS)またはExcelに記入して検索を行うと、
検索結果に現れてきます。
コントロールパネル内->コンピュータの管理->インデックスサービス->
カタログのクエリでも結果は同じです。

インデックスサービスはこのようなものなのでしょうか?
それとも、何か設定が足りないのでしょうか?
(設定というものは特に無さそうですが)
またはWordの文書の作り方に影響があるのか?
良く分かりません・・・。

-- 環境 --
Windows XP Professional
Word2002 , 2003
Visual Studio 2005

どなたか教えていただければと思います。
よろしくお願いいたします。


[ メッセージ編集済み 編集者: りょう 編集日時 2006-09-19 12:14 ]

[ メッセージ編集済み 編集者: りょう 編集日時 2006-09-19 12:27 ]

[ メッセージ編集済み 編集者: りょう 編集日時 2006-09-19 14:04 ]
甕星
ぬし
会議室デビュー日: 2003/03/07
投稿数: 1185
お住まい・勤務地: 湖の見える丘の上
投稿日時: 2006-09-19 21:48
インデックスサービスの機能が「そんなもの」なのかは知りませんが・・・

インデックスサービスが直接WORDの文章を解析している訳ではありません。インデックスサービスはWord Breakerと呼ばれるCOMコンポーネントを呼び出します。WORD等の文章ファイルから内容を単語に分解して取り出す処理をWord Breakerが行っています。ExcelにはExcel用の、WORDにはWord用の、テキストファイルにはテキストファイル用のWord Brekerが提供されているわけです。もちろんWord Breakerは言語によっても違うものが提供されているはずです。

で、ここで問題になるのは、Word Breakerが旨く単語を切り出せているかです。これは自前でWord BrakerのCOMコンポーネントを呼び出せば試すことが出来ます。実際のWORDファイルを対象にWord Breakerを呼び出して、どのような単語が取り出されているかを確認しては如何でしょう?
りょう
会議室デビュー日: 2006/09/19
投稿数: 2
投稿日時: 2006-09-19 23:05
ご返事ありがとうございます。

ご指摘のように、実際どのような語句で切り出しているか
確認したいと思っていたのですが、その方法が分かりませんでした・・・。
Office文書は offfilt.dll というフィルタを使っていると
書かれていましたので、これを利用して確認できないか調べてみましたが、
サンプル等を見つけることができません・・・。
(どのようなメソッドがあるかもわかりません)
やはり、語句がうまく切り出せていないことが原因だとは思うのですが、
この程度の精度では利用できません。
しかし、ネット上で「使えない」という意見も見つけることができないんですよね〜。
利用されている方々は、使えてるのでしょうか。。。
1

スキルアップ/キャリアアップ(JOB@IT)