- PR -

WordやExcel文書を全文検索出来るJavaのライブラリはありませんか?

1
投稿者投稿内容
koji
大ベテラン
会議室デビュー日: 2002/12/25
投稿数: 100
投稿日時: 2004-01-30 11:20
現在、PostgreSQLのbytea型にWordやExcelのファイルを格納しています。
Servletから、格納されているWordやExcel文書の全文検索をしたいのです
が、そのようなJavaのライブラリ等はありますでしょうか?無いですよね。。。?
SQL Serverにはフルテキストインデックスという機能があって、それを使
って全文検索出来たのですが、PostgreSQLでは全文検索は無理でしょうか?
narucissus
会議室デビュー日: 2003/07/25
投稿数: 11
投稿日時: 2004-01-30 13:27
全文検索などができるかはちょっとわかりませんが、
JavaからMicrosoftのファイルを操作できるAPIがJakartaプロジェクトで開発されています。

http://jakarta.apache.org/poi/index.html

ここを詳しく見てみたらどうでしょうか。
koji
大ベテラン
会議室デビュー日: 2002/12/25
投稿数: 100
投稿日時: 2004-01-30 14:48
narucissusさん、ありがとうございます。

何やら出来る可能性がありそうですね。
しかし英語ですね。。。翻訳サイト等を利用して、読解にチャレンジしてみます!
koji
大ベテラン
会議室デビュー日: 2002/12/25
投稿数: 100
投稿日時: 2004-01-30 15:02
教えていただいたPOIは、
ワードやエクセルファイルへの読み書きは出来るみたいです。ただ、
「データベースから全ファイルデータを読込んでキーワードを検索
して、、、」なんてやると、ちょっとパフォーマンス的にも問題あ
りそうですね。登録時にキーワード一覧を作成してDBやファイル等
に文字列で登録しておく、なんて手もありますかね。しかしそれを
実装するのはかなり大変そうですかねぇ。
narucissus
会議室デビュー日: 2003/07/25
投稿数: 11
投稿日時: 2004-01-31 23:29
登録時にインデックスを作って検索をするといえば、先日こんな記事を見ました。
フリーの検索アルゴリズムのようです。

http://www.itmedia.co.jp/news/0308/19/ne00_nutch.html

これもまたkojiさんの状況に利用できるかはまったくわかりませんが、
検索アルゴリズムも公開されるとは考えが及びませんでした。
このNutchという検索エンジンはJavaで書かれているとあるので、
時間があるときにいろいろ調べてみようかと思っています。

巨大なJTableやListを扱うときに応用できるような技術だったら
普通のSEにも使う機会はあるかも知れませんしね。
MMX
ぬし
会議室デビュー日: 2001/10/26
投稿数: 861
投稿日時: 2004-02-02 00:01
デ変研AKエンジン
http://www.begi.net/news/data/200308/0304.html
Javaから検索機能を呼び出すことのできるJava検索ツールオプション
いろいろ、あるようです。

ジェット音サーバーが余っているなら
Excel/Wordを Office2003 で開いて変換してXML形式保存して
XML-DB にして格納しておく
XPath式で検索するなど、(今はすぐできないが)

[ メッセージ編集済み 編集者: MMX 編集日時 2004-02-02 00:08 ]
koji
大ベテラン
会議室デビュー日: 2002/12/25
投稿数: 100
投稿日時: 2004-02-02 10:39
narucissusさん、MMXさん、ありがとうございます。

>narucissusさん
基本的にWebの検索機能のオープンソースのようですね。しかし、ワード文書等の検
索が出き、Java等から利用できたりするのかもしれませんね。しかし、検索機能の
オープンソースとは、非常に興味がありますね。

>MMXさん
文書ファイルをそのままサーバのあるディレクトリに格納して、PostgreSQLには
パス等を格納しておく、といった感じでも使えそうですね。

PostgreSQLに格納した文書ファイルを全文検索するような物、その物は今のとこ
ろ無さそうですね。しかし、ファイルの保存形式等を考慮すれば、なんとかなりそ
うですね。ありがとうございました。
1

スキルアップ/キャリアアップ(JOB@IT)