Popplerはpdfの閲覧等に用いられるフリーライブラリ
ubuntuではpoppler-utilsをインストールすることで、pdfに対するライブラリ群をインストールできる
pdfto~系統を使用すれば容易にpdfを異なるファイル形式に変換できる
- pdftotext
- pdfのテキストを抽出
- pdftohtml
- pdfをhtmlに変換。
- pdf内のイメージファイルは、デフォルトだと一つ一つ抽出されるが、 -i オプションで無視できる。
- pdftoppm
- pdfをppm画像に変換
etc
pdf内のテキストをhtmlやtxtに変換できるので、pdf内のテキストに対して処理を行いたい時に便利
パスワード等が設定されているpdfに対しては、変換しようとすると以下のようなエラーが発生する。
Error: Incorrect password
Error: Couldn't read xref table
Error: Printing this document is not allowed.
こういった場合、 -upw や -opw といったオプションでパスワードを指定してやればよい。
「Couldn't read xref table」の方はupwでユーザサイドでのドキュメントを開く際に求められるパスワードを、
「Printing this document is not allowed.」の方はopwで編集サイドのドキュメントを編集する際に求められるパスワードを入力する必要がある。
もしくは、pdfto…のソースを直接いじることで対応することもできるよう
参考
ただし、情報が古いので内容が未だに有効かは不明
最終更新:2012年12月10日 03:02