- - PR -
WordやExcel文書を全文検索出来るJavaのライブラリはありませんか?
1
| 投稿者 | 投稿内容 |
|---|---|
|
投稿日時: 2004-01-30 11:20
現在、PostgreSQLのbytea型にWordやExcelのファイルを格納しています。
Servletから、格納されているWordやExcel文書の全文検索をしたいのです が、そのようなJavaのライブラリ等はありますでしょうか?無いですよね。。。? SQL Serverにはフルテキストインデックスという機能があって、それを使 って全文検索出来たのですが、PostgreSQLでは全文検索は無理でしょうか? |
|
投稿日時: 2004-01-30 13:27
全文検索などができるかはちょっとわかりませんが、
JavaからMicrosoftのファイルを操作できるAPIがJakartaプロジェクトで開発されています。 http://jakarta.apache.org/poi/index.html ここを詳しく見てみたらどうでしょうか。 |
|
投稿日時: 2004-01-30 14:48
narucissusさん、ありがとうございます。
何やら出来る可能性がありそうですね。 しかし英語ですね。。。翻訳サイト等を利用して、読解にチャレンジしてみます! |
|
投稿日時: 2004-01-30 15:02
教えていただいたPOIは、
ワードやエクセルファイルへの読み書きは出来るみたいです。ただ、 「データベースから全ファイルデータを読込んでキーワードを検索 して、、、」なんてやると、ちょっとパフォーマンス的にも問題あ りそうですね。登録時にキーワード一覧を作成してDBやファイル等 に文字列で登録しておく、なんて手もありますかね。しかしそれを 実装するのはかなり大変そうですかねぇ。 |
|
投稿日時: 2004-01-31 23:29
登録時にインデックスを作って検索をするといえば、先日こんな記事を見ました。
フリーの検索アルゴリズムのようです。 http://www.itmedia.co.jp/news/0308/19/ne00_nutch.html これもまたkojiさんの状況に利用できるかはまったくわかりませんが、 検索アルゴリズムも公開されるとは考えが及びませんでした。 このNutchという検索エンジンはJavaで書かれているとあるので、 時間があるときにいろいろ調べてみようかと思っています。 巨大なJTableやListを扱うときに応用できるような技術だったら 普通のSEにも使う機会はあるかも知れませんしね。 |
|
投稿日時: 2004-02-02 00:01
デ変研AKエンジン
http://www.begi.net/news/data/200308/0304.html Javaから検索機能を呼び出すことのできるJava検索ツールオプション いろいろ、あるようです。 ジェット音サーバーが余っているなら Excel/Wordを Office2003 で開いて変換してXML形式保存して XML-DB にして格納しておく XPath式で検索するなど、(今はすぐできないが) [ メッセージ編集済み 編集者: MMX 編集日時 2004-02-02 00:08 ] |
|
投稿日時: 2004-02-02 10:39
narucissusさん、MMXさん、ありがとうございます。
>narucissusさん 基本的にWebの検索機能のオープンソースのようですね。しかし、ワード文書等の検 索が出き、Java等から利用できたりするのかもしれませんね。しかし、検索機能の オープンソースとは、非常に興味がありますね。 >MMXさん 文書ファイルをそのままサーバのあるディレクトリに格納して、PostgreSQLには パス等を格納しておく、といった感じでも使えそうですね。 PostgreSQLに格納した文書ファイルを全文検索するような物、その物は今のとこ ろ無さそうですね。しかし、ファイルの保存形式等を考慮すれば、なんとかなりそ うですね。ありがとうございました。 |
1
