Technology

PDFからテキストを抽出する

pdftotextコマンドを使うとPDFからテキストを抽出できます。

$ pdftotext hoge.pdf

このまま実行すれば、hoge.txtにテキストが出力されます。また、pdfファイルのファイル名の後に適当なファイル名を入力すると、そのファイル名にテキストを出力します。

-layoutオプションをつけると、レイアウトを維持したテキストが出力されます。

hoge.pdfをレイアウトを維持したままhogehoge.txtに出力する場合は、次のようにコマンドを入力します。

$ pdftotext -layout hoge.pdf hogehoge.txt

参考になると思うので、-hオプションの結果を以下に示しておきます。

pdftotext version 0.18.4
Copyright 2005-2011 The Poppler Developers - http://poppler.freedesktop.org
Copyright 1996-2004 Glyph & Cog, LLC
Usage: pdftotext [options] <PDF-file> [<text-file>]
  -f           : first page to convert
  -l           : last page to convert
  -r            : resolution, in DPI (default is 72)
  -x           : x-coordinate of the crop area top left corner
  -y           : y-coordinate of the crop area top left corner
  -W           : width of crop area in pixels (default is 0)
  -H           : height of crop area in pixels (default is 0)
  -layout           : maintain original physical layout
  -raw              : keep strings in content stream order
  -htmlmeta         : generate a simple HTML file, including the meta information
  -enc      : output text encoding name
  -listenc          : list available encodings
  -eol      : output end-of-line convention (unix, dos, or mac)
  -nopgbrk          : don't insert page breaks between pages
  -bbox             : output bounding box for each word and page size to html.  Sets -htmlmeta
  -opw      : owner password (for encrypted files)
  -upw      : user password (for encrypted files)
  -q                : don't print any messages or errors
  -v                : print copyright and version info
  -h                : print usage information
  -help             : print usage information
  --help            : print usage information
  -?                : print usage information

Topic