【Power Automate Desktop】PDF からテキストを抽出

PAD

「Power Automate Desktop」のアクション「PDF からテキストを抽出」について、具体例をつかって解説をします。

スポンサーリンク

具体的なアクションの使い方

PDF ファイルからテキストを抽出します。

PDF ファイル

こちらで指定したPDF ファイルからテキストを抽出します。

抽出するページ

パラメーターの選択「抽出するページ」では、以下の項目からひとつを選択します。

選択項目内容
すべて指定したPDFファイルのすべての画像を対象とします。
単一画像取得の対象とするPDFファイルの「単一ページ番号」を指定します。
範囲画像取得の対象とするPDFファイルの「開始ページ番号」と「終了ページ番号」を指定します。

パスワード

PDFがパスワードで保護されている場合は、PDFファイルのパスワードを入力します。パスワードで保護されていない場合は、空白で問題ありません。

構造化データに最適化

ドキュメント内の書式設定されたレイアウトを検出し、テキストを抽出するかどうかを指定します。

構造化データに最適化の「ON」「OFF」のちがいは、以下の例を参照ください。


こちらのPDFを使用して動作確認をします。

  • 「ON」の場合

  • 「OFF」の場合

活用事例

こちらのPDF ファイル(ファイル名「SAMPLE.pdf」)を使ってご紹介します。

先ほどのアクションでこちらのファイルを指定して結果を確認します。

こちらが実行結果です
テキストのみを抽出することができました。

画像内に含まれるテキスト情報は、テキストではなく画像として認識されます。

上記の例の場合では、画像内に含まれる文字「アクション」などは画像として認識されるためテキストとしては抽出されません。