【Python】PDFから文字列を抜き出す方法
今回はPythonでPDFからテキストを抽出する方法について紹介します。
PythonでPDFからテキストを抽出するには、PDFMiner.sixが使えます。
インストール
$ pip install pdfminer.six |
上記のコマンドでインストールできなかった場合
$wget https://pypi.python.org/packages/source/p/pdfminer.six/pdfminer.six-20160202.zip $unzip pdfminer.six-20160202.zip $cd pdfminer.six-20160202 $python setup.py install |
インストールが完了すると、pdf2txt.pyが使えるようになります。
今回はこちらのサンプルPDFから文字列を取り出してみたいと思います。
実行結果
無事、文字列を取り出す事ができました!