- PR -

PDFの特定の部分を抽出してくるには?(再)

1
投稿者投稿内容
田舎の開発者
会議室デビュー日: 2007/02/20
投稿数: 18
投稿日時: 2007-04-23 12:34
%表題%の件、やはり正攻法ではまだこれといって情報を得られていないのですが、手元にAcrobat Standardがある、ということで、以下のようなことは出来ないかと思いつきました。

1.任意のPDFファイルをAcrobat Standardに読み込ませる
2.任意の位置・幅・高さで「文章→ページ→トリミング」を実行
3.(可能なら任意の別ファイル名で)PDFを保存

この処理を手動でやれば、今回必要なPDFが得られる事は確認できました。これをバッチ(的)に行う方法は無いでしょうか? 開発環境の都合上、これも全てJavaで作れればベストですが、ファイル名や位置情報などがJavaから制御できれば実装方法は問いません。Windowsプラットフォームで動けばOKです。

以上、何か情報をお持ちの方がいらっしゃれば、アドバイスを頂ければ幸いです。度々で申し訳ありませんが、よろしくお願いします
やじゅう
常連さん
会議室デビュー日: 2005/08/10
投稿数: 34
お住まい・勤務地: 野獣の住処
投稿日時: 2007-04-23 15:36
Acrobat SDKか、Haru Free PDF Library辺りを使うことになるのではないかと。
但しいずれも、Java用のAPIは無いみたいです。
山本 裕介
ぬし
会議室デビュー日: 2003/05/22
投稿数: 2415
お住まい・勤務地: 恵比寿
投稿日時: 2007-04-23 16:07
現実的かどうかはともかくとして、java.awt.Robot を使えば "任意のデスクトップアプリケーションをバッチ的に操作" する事が出来ます。
冬寂
ぬし
会議室デビュー日: 2002/09/17
投稿数: 449
投稿日時: 2007-04-23 16:36
いや・・・とりあえず、PDFの仕様というか、仕組みを理解した方がいいのでは?
どこかに仕様書があったはずだから読んで見るといいですよ。
(手書きPDF入門という文書が結構見やすかったんだけど、なんか見つかりませんね。)

その仕組みを理解した上でなら「%表題%の件」とやらがどう実現可能なのかが分かってくるはず。

# 最初に、ある程度枠組みを決めた上で作られたPDFでなら簡単なんですけどね。そういったもの無しに作るのは、ものすごく難しいと思う。
田舎の開発者
会議室デビュー日: 2007/02/20
投稿数: 18
投稿日時: 2007-04-23 17:13
早速のお返事、ありがとうございます。

:やじゅう さん
何時もすみません(^^;
>Acrobat SDKか、Haru Free PDF Library辺りを使うことになるのではないかと。
やはりそういう話になってしまいますか……

:インギ さん
こちらも引き続きありがとうございます
>java.awt.Robot を使えば "任意のデスクトップアプリケーションをバッチ的に操作" する事が出来ます。
本当の「リモート操作」ですね(^^; 本当に最後の最後の手段ですが、どーにもならなくなったら少し調べて見ましょう

:冬寂 さん
すみません(^^; 一応、
・行の高さは固定
・ただし切り取る行数は可変であり、その行の中に図表が入ることもある。
 つまり、「三段抜きの図表+文章」もあり。しかしその高さは必ず1行分の整数倍であり、予め(この部分は何行分切り取るべし、という)高さも判ってる。
・用紙はA4縦で固定。余白も固定
という条件は付いていますが、やはり厳しいでしょうかね……。
1

スキルアップ/キャリアアップ(JOB@IT)