【Power Automate Desktop】PDF からテキストを抽出

「Power Automate Desktop」のアクション「PDF からテキストを抽出」について、具体例をつかって解説をします。

具体的なアクションの使い方

PDF ファイルからテキストを抽出します。

こちらで指定したPDF ファイルからテキストを抽出します。

パラメーターの選択「抽出するページ」では、以下の項目からひとつを選択します。

選択項目	内容
すべて	指定したPDFファイルのすべての画像を対象とします。
単一	画像取得の対象とするPDFファイルの「単一ページ番号」を指定します。
範囲	画像取得の対象とするPDFファイルの「開始ページ番号」と「終了ページ番号」を指定します。

PDFがパスワードで保護されている場合は、PDFファイルのパスワードを入力します。パスワードで保護されていない場合は、空白で問題ありません。

ドキュメント内の書式設定されたレイアウトを検出し、テキストを抽出するかどうかを指定します。

構造化データに最適化の「ON」「OFF」のちがいは、以下の例を参照ください。

こちらのPDFを使用して動作確認をします。

こちらのPDF ファイル（ファイル名「SAMPLE.pdf」）を使ってご紹介します。

先ほどのアクションでこちらのファイルを指定して結果を確認します。

こちらが実行結果です
テキストのみを抽出することができました。

画像内に含まれるテキスト情報は、テキストではなく画像として認識されます。

上記の例の場合では、画像内に含まれる文字「アクション」などは画像として認識されるためテキストとしては抽出されません。

その他の「PDF」に関するアクションはこちらをご覧ください。