フレイヤの日記

とあるIT企業で働く新人エンジニアの技術&書評ブログです。

【Python】PDFから文字列を抜き出す方法

今回はPythonでPDFからテキストを抽出する方法について紹介します。

PythonでPDFからテキストを抽出するには、PDFMiner.sixが使えます。

インストール

$ pip install pdfminer.six                              

 

上記のコマンドでインストールできなかった場合

$wget https://pypi.python.org/packages/source/p/pdfminer.six/pdfminer.six-20160202.zip

$unzip pdfminer.six-20160202.zip 

$cd pdfminer.six-20160202

$python setup.py install                            

 

インストールが完了すると、pdf2txt.pyが使えるようになります。

今回はこちらのサンプルPDFから文字列を取り出してみたいと思います。

f:id:hureiya278:20210211161127p:plain

実行結果

f:id:hureiya278:20210211161204p:plain

無事、文字列を取り出す事ができました!