【Power Automate Desktop】マウス操作や画像認識を使い方を紹介

PAD

無償化された「Power Automate Desktop」の基本的な使い方や、マウス操作や画像認識でできることを具体例をつかってご紹介します。

スポンサーリンク

アクション|マウスとキーボードの操作一覧

「Power Automate Desktop」で設定できるマウスとキーボードを操作するためのアクションです。

項目内容
入力のブロックユーザーのマウスとキーボードの入力をブロックし、フローがユーザーの干渉を受けることなく、マウスとキーボードのアクションを実行できるようにします
マウスの位置を取得します画面上でのマウス カーソルの現在の位置を、ピクセル座標で取得します
マウスの移動指定された位置にマウスを移動します
マウスを画像に移動します画面またはフォアグラウンド ウィンドウで見つかった画像にマウスを移動します
画像上のテキストにマウスを移動する(OCR)画像またはフォアグラウンド ウィンドウで、OCRを使用して見つかったテキストにマウスを移動します
マウス クリックの送信マウス クリック イベントを送信します
キーの送信現在アクティブなアプリケーションにキーを送信します
キーを押す/離す1つ以上の修飾キー(Alt、Ctrl、またはShift)を押して保持するか、または離します
キーの送信状態を設定CapsLock、NumLock、ScrollLock のキーの状態(オンまたはオフ)を設定します
キーボード識別子を取得するマシンのレジストリからアクティブなキーボード識別子を取得する
ショートカット キーを待機する特定のショートカット キーを押すまでフローの実行を一時停止します。ショートカット キーには少なくとも1つのキー、または1つのキーと(Alt、Ctrl、Shift)のいずれかを指定します。複数のショートカット キーを定義する場合はコンマで区切ります。

実例|マウスとキーボードの自動操作

こちらのフローにて具体的なつかい方をご紹介します。
今回の例では、Webページから「ニュース」を検索して、検索トップをクリックする動作をおこないます。

実行結果はこちらです。
「YAHOO! ニュース」のトップページに自動的にアクセスすることができました。

手順1|新しい Chrome を起動する

まずはWebブラウザを起動します。
今回は、ChromeをつかってGoogleの検索ページを表示させます。

参考:【Power Automate Desktop】Web オートメーションでできることを紹介

手順2|入力のブロック

フローの実行中に誤作動を起こさないように、入力のブロックを設定します。

手順3|キーの送信

送信するテキストに「ニュース」の文字を入力します。

手順4|キーの送信

つぎに、エンターキーの押下を指定します。
「特殊キーの挿入」→「その他」→「Enter」を選択すると、テキスト入力欄に「{Return}」と入力されます。

手順5|マウスの移動

クリックさせたい任意の場所を、XY座標をつかって指定します。

今回は、「アクティブなウィンドウ」を基準として座標指定をしています。
画面の左上端にたいする相対値を座標をつかって指定しますが、設定方法はかんたんです。

  1. パラメーターの選択で「相対」で「アクティブなウィンドウ」を選択
  2. クリックしたい場所までマウスを移動させてから「Ctrl + Shift」を押下

以上の設定で、XY座標が自動的に入力されます。

< マウスの移動方法の設定について >

こちらの例では 、Webブラウザの動作がフローの動作についていけず、クリックが正しく認識されない場合に備えて 「アニメーション付き(高速)」で設定をしています。

手順6|マウス クリックの送信

さいごに、マウスの左クリックを押します。

「マウスとキーボード」の具体的な使い方

マウスを画像に移動します

画像またはフォアグラウンド ウィンドウで見つかった画像にマウスを移動します。

設定の詳細方法についてはつぎにご説明するとおりですが、こちらで指定した画像をつかってマウス操作をおこないます。

画像のキャプチャ

こちらでマウスの移動先となる画像を指定します。

「画像のキャプチャ」を選択すると以下のような虫眼鏡が表示されますので、指定したい画像範囲をドラッグします。

以下のようにマウスカーソルの選択部分が拡大表示されます。
円の中心(十字で重なっている部分)がマウスカーソルの先端部分です。

具体的な設定方法はこちらです。

1.「画像のキャプチャ」をクリック(虫眼鏡が表示されます)

2.指定したい画像の範囲をドラッグ

3.名前をつけて「OK」をクリック

※こちらの例の場合、以下のように表示されていれば問題ありません。

マウスの移動スタイル

指定した画像にむかってマウスを移動させる方法を選択できます。

  • すぐに
  • アニメーション付き (低速)
  • アニメーション付き (標準速)
  • アニメーション付き (高速)

発生回数

マウスの移動先となる見つかった画像の数を指定します。

画面上に複数のおなじ画像が出てきた場合、「発生回数」で画像を識別することができるようです。

以下、公式ドキュメントでは具体的な設定方法が紹介されていませんでしたので、あくまでもわたしの検証の結果としての使い方をご紹介します。

例えば、それぞれの画像そのものに違いがないものの、自動化をするうえで『上から2番目の「矢印の画像」を選びたい』といった状況があるかと思います。

まず、画像のキャプチャをつかってひとつだけ「矢印の画像」を指定します。

あとは、つぎの表にあわせて指定したい画像にあわせて「発生回数」を指定します。

発生回数選択した画像
1上から1番目の矢印
2上から1番目の矢印
3上から1番目の矢印
4上から2番目の矢印
5上から2番目の矢印
6上から2番目の矢印
7上から3番目の矢印
8上から3番目の矢印
9上から3番目の矢印
10上から4番目の矢印
11上から4番目の矢印
12上から4番目の矢印
13~(エラー)

こちらでご紹介した例は、あくまでも個人的な検証にもとづいたものとなっていますので、ご利用されるさいには事前にテストをお願いしますね。

詳細|許容値

こちらでは画像の読み取り精度を設定します。

許容値「0」で完全一致のみを読み取り対象として認識します。
許容値を大きくするほど「あいまいな検索」がおこなわれます。

画像の読み取りがうまくいかない場合、こちらの数値を変更することによってある程度は改善させることができます。

許容値を少しずつ上げながら検証をしてみましょう。

画面上のテキストにマウスを移動する(OCR)

画面またはフォアグラウンド ウィンドウで見つかった画像にマウスを移動します。

今回は、こちらのフローをつかって実際の使い方をご紹介をします。

実行結果はこちらです。
画面上に表示されている文字「keybord」の上にマウスカーソルが移動しました。

手順1|ファイルからテキストを読み取ります

読み取り対象となるテキストファイルを指定します。

なお、今回の対象となるテキストファイルはこちらです。
「keybord」という文字が入力されています。

手順2|Tesseract OCR エンジンを作成

OCR エンジンを設定します。

なお、読み取り対象の文字「keybord」にあわせて「英語」を選択していますが、「日本語」を指定される場合はこちらをご覧ください。

参考:【Power Automate Desktop】OCRの日本語比較|「Tesseract OCR」と「MODI OCR」

手順3| 画面上のテキストにマウスを移動する(OCR)

さきほどの手順で設定した「変数」を入力します。

手順パラメータ変数変数の値
1検索するテキストFileContentsTesseract Engine
2OCR エンジンOCREnginekeybord

まとめ

マウス操作と画像認識についてご紹介をいたしました。

他のアクションについてはこちらでご紹介しておりますので、よろしければご活用ください。

タイトルとURLをコピーしました