- PR -

イラストレータなどのeps・aiからテキストデータを抽出したいのです。

1
投稿者投稿内容
たて
常連さん
会議室デビュー日: 2003/12/18
投稿数: 39
お住まい・勤務地: 沖縄
投稿日時: 2004-12-28 22:57
皆さんこんばんわ。いぜんnamazuで検索結果が文字化けする件で助けていただきました。
今回もよろしくお願いいたします。

以前はうまくいったと思ったのですが、リンクをクリックしても検索結果のファイルに飛べないので却下となりました。(ウチの環境だと、あちらを立てればこちらがたたずの状態でした。スキルがひくいだけですが・・・)

そこでよさげな全文検索ソフトを見つけたので再挑戦しています。

以下環境+++++++++++++++++++++++

全文検索  Estraier1.2.25(分かち書きにmecab0.80)
ウェブサーバ Apache2.0.52(WebDav+mod_encording)
ファイル共有 SAMBA3.0.10とnetatalk2.0.1
OS  MomongaLinux1(kernel2.4.28)
xpdf 3.0.0
libiconv-1.9.2(cp932のpath済み)
zlib1.2.1

+++++++++++++++++++++++以上環境

でlinux上のsambaとnetatalkが共有しているディレクトリにテキストファイル、PDFファイル、EPS・AIファイルをごっそり保管しています。(何百万ファイルとあります)

テキストファイルとPDFファイルに関しては期待道理の動作(検索されたファイル名をクリックすると日本語のファイル名でもダウンロードできる)いたします。

のこりのEPSファイルとAIファイルに関しても全文検索をかけたく思っております。
私の認識ではこれらの種類のファイルは、ポストスクリプトファイルと思っておりますので、ps2pdfなどのソフトでPDFにしてからさらにテキストを抜き出してEstraierにインデックスを作らせば良いと考えていました。

しかしファイル数が膨大なのと、epsやらaiはそのまま(pdfに変換せずに)保管しておきたいので断念しました。

そこで何か良い方法があれば皆さんのお知恵を借りたいと思います。
epsやaiから直接テキスト(日本語)が抽出できるソフトがあれば・・・


[ メッセージ編集済み 編集者: たて 編集日時 2004-12-28 22:58 ]
1

スキルアップ/キャリアアップ(JOB@IT)