【Power Automate Desktop】高機能OCRの使い方|Googleの画像認識

PAD

「PRAをつかってできることを増やしたい」
「手軽に高精度なOCRを使ってみたい」
「高機能なOCRの導入は手間がかかりそうで面倒」

今回はこういった方に向けてのご紹介です。

こちらをご確認いただくことによって次の効果が期待できますので、ぜひ最後までご覧ください。

  • RPAをつかって他のシステムとの連携ができる
  • 機械学習による高精度な文字読み取りをカンタンにつかえる
  • 低コストで高機能OCRを導入できる

スポンサーリンク

はじめに

まず今回ご紹介するカンタンな流れはこちらです。

  1. まずは画像認識のサンプル結果を事前確認
  2. 満足のいく結果であれば「Google Cloud Platform」に登録
  3. RPAをつかった文字情報の抽出設定

さきに今回こちらでご紹介するRPAをつかった文字読み取りの精度をご確認ください。

「スマートフォンをつかって撮影したレシート」の読み取り結果です。
一部、完全に読み取れていない部分があるものの、十分に実用的なレベルではないかと思います。

画像認識のサンプル結果を事前確認

まずは読み取り精度を事前に確認します。

結果確認

今回ご紹介する内容は、「従量課金制」で利用料が発生するサービスを含んでいます
そのため、「利用できるかどうか」をサンプル資料を使ってあらかじめ確認することをオススメします。

こちらがサンプル確認中の画面です。
画像ファイル(レシート.png)をドラッグ アンド ドロップするだけですぐに結果を得ることができます。

もちろん、サンプルをつかったテスト利用は無料です。

確認方法

詳細は後述しますが、Googleの「Cloud Vision API」というサービスを使用します。

使い方はとてもシンプルです。

まずは、「Cloud Vision API」を開いて以下の赤枠内「Try the API」と書かれている部分に写真データをドラッグ アンド ドロップします。

つぎに、表示される画面の「私はロボットではありません」の左横にチェックマークを入れます。

さいごに、「Text」タブを選択します。

まずはこの工程でOCRの読み取りが「使えそうかどうか」をご判断ください。

スポンサーリンク

「Google Cloud Platform」に登録

問題がなければつぎの工程に進みます。

「Google Cloud Platform」とは

「Google Cloud Platform」とは、Googleがクラウド上で提供しているサービスです。

今回は、数ある「Google Cloud Platform」のサービスなかでも、機械学習に関連するサービスである「Cloud Vision」を使っています。

「Cloud Vision」では、例えばこちらのような機能を利用することができます。

  • 画像ラベリング
  • 顔やランドマークの検出
  • 光学式文字認識(OCR)
  • 露骨な表現のあるコンテンツのタグ付け

料金体系をチェック

「Google Cloud Platform」は他社(Amazonの「AWS」やMicrosoftの「Azure」など)の利用料よりも低価格に設定されていますが、「従量課金制」での利用料が発生します。

初期費用や解約金などは必要ありませんので、利用に応じた支払いをすることになりますが、小規模であれば「無料枠」でサービスを利用することができます。

詳細については「Cloud Vision の料金」をご確認ください。

「Vision API」の設定

「Vision API」は次の手順で設定をします。

  1. プロジェクトを作成
  2. 課金を有効にする
  3. APIを有効にする
  4. 認証を設定する

詳細については「クイックスタート: Vision API を設定する 」をご確認ください。

手順1|プロジェクトを作成

プロジェクト セレクタに移動」から「Google Cloud Platform」のダッシュボードにアクセスします。

Googleアカウントでのログインします。
(すでにログインしている場合は不要です。)

赤枠の「プロジェクトを作成」を選択します。

任意の「プロジェクト名」を入力して「作成」をクリックします。

手順2|課金を有効にする

具体的な設定方法は以下のとおりです。
「Cloud 請求先アカウント」の作成と選択の設定をします。

「Cloud 請求先アカウント」の作成

まずは「Cloud 請求先アカウント」を作成します。

すでにアカウントを作成している場合はこちらの手順をスキップしてください。

「Cloud 請求先アカウント」を作成していない場合は、以下の手順で設定をします。

請求先アカウントを管理」からログインします。

「アカウントを作成」をクリックします。

「名前」を入力して、「国」を選択して「続行」をクリックします。

お支払いプロファイルを選択して「送信して課金を有効にする」をクリックします。

「Cloud 請求先アカウント」の選択

新しくプロジェクトを作成した場合、プロジェクトにリンクする「Cloud 請求先アカウント」を選択するように求められますので、画面にしたがって設定します。

既存のプロジェクトを使用される場合は、以下の手順で設定をします。

「ナビゲーション メニュー」から「お支払い」を選択します。

「請求先アカウントをリンク」を選択します。

請求先アカウントを選択して「アカウントを設定」をクリックします。

詳細は「プロジェクトの課金の有効化、無効化、変更」をご確認ください。

手順3|APIを有効にする

APIを有効にする」から画面にそって「有効にする」をクリックします。

手順4|認証を設定する

「Google Cloud Platform」のナビゲーションメニュー(画面左上の赤枠)から「APIとサービス」「認証情報」の順番に選択します。

「認証情報を作成」「APIキー」の順番に選択をします。

以下のような画面にAPIキーが表示されます。

スポンサーリンク

RPAをつかった文字情報の抽出

「Power Automate Desktop」をつかったフローをご紹介します。

以下のとおり2つのアクションのみでOCRをつかった文字情報を取得することができます。

こちらが実行結果です。
あらためて抽出元となった写真をあわせて掲載します。

手順1|テキスト検出

アクション「テキスト検出」を使います。

こちらアクションは「Google コグニティブ」のなかに格納されています。

先ほどご紹介した方法で取得した「APIキー」を入力します。
また、対象の画像ファイルを指定します。

手順2|変数の設定

アクション「変数の設定」をつかって必要なテキスト情報のみを抽出します。

以下のとおり、先ほどの手順で取得した変数「JSONResponse」のあとにこちらを追加してください。

詳細説明は省略しますが、この記述によってテキスト情報を指定することができます。

['responses'][0]['fullTextAnnotation']['text']

まとめ

RPAをもちいた高機能OCRについてご紹介いたしましたが、いかがでしたでしょうか。

さまざまなシステムとの連携を活用すれば、より高度なRPAの使い方ができると思いますので、まずは今回ご紹介した内容をぜひ一度お試しください。

タイトルとURLをコピーしました