Power Automate Desktopに含まれるOCRエンジン「Tesseract OCR」と「MODI OCR」の概要と日本語の比較結果についてご紹介をします。
なお詳細は後述しますが、今回の比較には「MODI OCR」の代替手段である「Microsoft OneNote」をつかっています。
Tesseract OCRとは
Tesseract OCRとは、Googleがオープンソースで開発しているOCRエンジンです。
OCRとは「Optical Character Reader」の略称で、PDFや写真データなどのテキスト部分を認識して、文字データに変換することができる光学文字認識のことです。
いままで紙に書かれたテキスト文字を手作業で入力していた場合、OCRを上手につかえばテキスト文字の抽出を自動化できる可能性がありますのでぜひお試しください。
Tesseract OCRに日本語の追加
こちらではTesseract OCRへの日本語の追加方法をご紹介します。
初期設定では、「英語」「ドイツ語」「スペイン語」「フランス語」「イタリア語」の5種類の言語設定ができますが、「日本語」は含まれていません。
こちらが初期設定の選択画面です。
手順1|インストーラーをダウンロード
GitHubで公開されているこちらのページからダウンロードをします。
(参照:https://github.com/UB-Mannheim/tesseract/wiki)
以下、赤枠部分から「32ビット」もしくは「64ビット」の最新のインストーラーをダウンロードします。
手順2|インストール
画面の指示にしたがってインストールをします。
ライセンス契約(License Agreement)を確認します。
使用者を選択します。
「Additional language data(download)」にチェックをつけます。
インストール先を指定します。
後ほど入力しますのでメモ帳などで控えておいてください。
スタートメニューのフォルダーを選択します。
インストールが開始されます。
インストールが完了します。
手順3|使用方法
アクション「Tesseract OCR エンジンを作成」で日本語の設定をします。
- 「他の言語を使う」をオンにする
- 「言語の省略形」に「jpn」と入力する
- 「言語データ パス」にインストール先を入力する(メモ帳参照)
こちらでTesseract OCRの日本語の設定ができました。
スポンサーリンク
MODI OCRとは
MODI OCRとは、「Office XP」、「Office2003」、「Office2007」に含まれていたOCRエンジンです。ちなみに「MODI」は「Microsoft Office Document Imaging」の略称です。
「Office2010」以降は削除されているため、MODIを使用するためにはSharePoint Designer 2007 からインストールをする必要があります。
ただし、2021年5月の調査時点ではサポートが終了しているためMicrosoftからインストールすることができないようです。
ちなみにインストール方法としてMicrosoftより以下の3つが紹介されています。
(参考:Microsoft Office 2010 で使用する MODI のインストール)
- MDI to TIFF File Converterをダウンロードしてインストール
- SharePoint Designer 2007 の一部をインストール
- 2007 Office system のメディアを使用して MODI をインストール
Power Automate DesktopのOCRアクションでは、「Tesseract OCR エンジン」と「MODI OCR エンジン」の選択ができますが、上記3.の方法でメディアを使用しない限り「MODI OCR」が使用できない可能性があります。
スポンサーリンク
「Tesseract OCR」と「MODI OCR」の比較
OCR エンジンは読込対象によって結果がまちまちですが、わたしの環境でかんたんに「Tesseract OCR」と「MODI OCR」の比較をしましたのでご紹介します。
MODIの代替手段|「Microsoft OneNote」
現時点で「MODI OCR」のインストールができないため、MODIの代替手段としてMicrosoftから紹介されている方法である、「Microsoft OneNote」の一部機能をつかってのテストとなりますのでご了承ください。
この資料の「解決方法」に記載されているいずれかの方法を使用しても MODI をインストールできない場合は、Microsoft Office Document Imaging で提供されていた一部の機能を使用できるようにするための代替の方法がいくつかあります。
(参考:Microsoft Office 2010 で使用する MODI のインストール)
以下、「代替の方法」の一覧です。
このなかでOCRについては「Microsoft OneNote 2010」の使用があげられています。
- [Microsoft Office Document Scanning]
- Microsoft Office Document Image Writer プリンター ドライバー
- .tiff ファイルまたは .mdi ファイルを表示する
- 光学式文字認識
- iFilter
- Live Meeting
具体的な比較|5つの例をご紹介
適当に選択した5つの画像でそれぞれのOCRの結果をご紹介します。
例1|Yhoo!ニュース
Tesseract OCR
金融緩和策の維持を日銀決定、長短金利探作・コロナ対応
の資金繰り支援策は継続 gzgaz-=ィ=
日本銀行は2 7 日の金融政策決定会合で、現在の大規模な金融緩和策の維持を決めた
合後に公表した「経
数 (生鮮食品を除く) の上昇率の見通しをプラス 1 ・0%とした
決定会
物価情勢の展望 (展望リボート) 」では、 2 0 2 3年度の消費者物価指
Microsoft OneNote
日 銀 金 融 暖 和 あ 維 を 決 定 房 肉 ・ ・ 。 ・ ・ : , , , 」
, 匚 ; 毳 第 長
数 ( 生 鮮 食 品 を 除 く ) の 上 昇 率 の 見 通 し を プ ラ ス 1 ・ 0 % と し た 。
合 後 に 公 表 し た 「 経 済 ・ 物 価 情 の 展 望 ( 展 望 リ ポ ー ト ) 」 で は 、 2 0 2 3 年 度 の 消 費 者 物 価 指
日 本 銀 行 は 2 7 日 の 金 融 政 策 決 定 会 合 で 、 現 在 の 大 規 模 な 金 融 緩 和 策 の 維 持 を 決 め た 。 決 定 会
読 ん 新 聞 ン ラ イ ン ・ 326
の 資 金 繰 り 支 援 策 は 継 続
金 融 緩 和 策 の 維 持 を 日 銀 決 定 、 長 短 金 利 操 作 ・ コ ロ ナ 対 応
例2|Yhoo!ニュース
Tesseract OCR
首都園鉄道各社 GW平日朝夕に列車本数削減 山手線・京浜
東北線などは通常の8割程度にき:。
JR東日本で大きい減便
新型コロナウイルスの感染拡大に伴う緊急事態宣言の発令、国や関係自治体からの要請を踏ま
え、ゴールデンウィーク期間中の平日 (4月30日、5月6日、7日) に列車本数を削減をすると、
鉄道各社局が2021年4月27日 (火) 、発表しました。
Microsoft OneNote
首 都 圏 鉄 道 各 社 GW 平 日 朝 夕 に 列 車 本 数 削 減 山 手 線 ・ 京 浜
東 北 線 な ど は 通 常 の 8 割 程 度 に
乗 り も の 二 ュ ー ス ・ 699
] R 東 日 本 で 大 き い 減 便
新 型 コ ロ ナ ウ イ ル ス の 感 染 拡 大 に 伴 う 緊 急 事 態 宣 言 の 発 令 、 国 や 関 係 自 治 体 か ら の 要 請 を 踏 ま
え 、 ゴ ー ル デ ン ウ ィ ー ク 期 問 中 の 平 日 ( 4 月 30 日 、 5 月 6 日 、 7 日 ) に 列 車 本 数 を 削 減 を す る と 、
首 都 圏 の 鉄 道 各 社 局 が 2021 年 4 月 27 日 ( 火 ) 、 発 表 し ま し た 。
例3|Power Automate Desktopのサイト(Microsoft)
Tesseract OCR
“Power Automate Desktop の活用により品質
と顧客満足度を改善するチャンスがたくさん
生まれました。ごこれにより当社の社員は、患
者やサービスを提供する看護師にとって最も
重要な業務に集中できます。”
Yanzhen ui
Director of Continuous Improvement、PharmScript LLC
Microsoft OneNote
” POW 印 Autom ョ teDeskto 卩 の 活 用 に よ り 品 首
と 客 満 足 度 を 改 す る チ ャ ン ス が た く さ ん
生 ま れ ま し た . こ れ に よ り 当 社 の 社 員 は 、 患
者 や サ ー ヒ ス を 提 供 す る 看 護 師 に と っ て 最 も
重 要 な 業 務 に 集 中 で き ま す .
0 ー ー 当 ( 0 賴 し 当 ・ 一 0 ′ ・ m れ ・ h m 、 ‘t. は こ
例4|ウィキペディア
Tesseract OCR
結時 ,。 ウィキペディアへようこそ
(》) ウィキペディアは誰でも編集できるブリー百科事計です
W 請
.プ
聞 選り抜き記事
撤化塊質とは、抗酸化剤とも呼ばれ、生体内、食品、晶用品、工業原料において酸素が関与する有和
の49% な反応を減弱もしくは除去する物質の総称である。特に生物化学あるいは栄義学において、 狭義には脂
質の人本化反応を抑制する物損指し広義にはさらに生体の悪化ストレスあるいは食品の変の原因
となる活性酸素種 (酸素フリーラジカル、ヒドロキシルラジカル、スーパーオキシドアニオン、過酸化
水素等) を捕捉することによって無青化する反応に寄与する物質を含むお。この反応において、抗酸化物質自体は酸化されるた
め、抗到人物質であるチオール、アスコルビン琶またはポリフェノール類は、しばしば吉元剤として作用する。……
秀逸な記事 / おまかゼ表示 / つまみ読み / 選考
Microsoft OneNote
0
ウ イ キ ペ デ ィ ア へ よ う こ そ
ウ イ キ ペ デ ィ ア は ま て も 編 ま て き る フ リ ー 白 ロ 事 典 で す
☆
選 り 抜 き 記 事
抗 酸 化 物 質 と は 、 伉 酸 化 剤 と も 呼 ば れ 、 生 体 内 、 食 品 、 日 用 品 、 工 業 原 料 に お い て 酸 素 が 関 与 す る 有 言
な 反 応 を ミ 弱 も し く は 除 去 す る 物 質 の 総 称 で あ る 。 特 に 生 物 化 学 あ る い は 栄 養 学 に お い て 、 狭 義 に は 指
質 の 過 酸 化 反 応 を 抑 制 す る 物 質 を 指 し 、 広 義 に は さ ら に 生 体 の 酸 化 ス ト レ ス あ る い は 食 品 の 変 質 の 原 因
と な る 活 性 酸 素 種 ( 酸 素 フ リ ー ラ ジ カ ル 、 ヒ ド ロ キ シ ル ラ ジ カ ル 、 ス ー バ ー オ キ シ ド ア 二 オ ン 、 過 酸 化
水 素 等 ) を 捕 捉 す る こ と に よ っ て 無 害 化 す る 反 応 に 高 与 す る 物 質 を 含 む 、 こ の 反 応 に お い て 、 航 酸 化 物 質 自 体 は 酸 化 さ れ る た
め 、 抗 化 物 置 で あ る チ オ – ル 、 ア ス コ ル ヒ ン 酸 ま た は ポ リ フ ェ ノ – ル 類 は 、 し は し は 元 剤 と し て 作 用 す る 。
秀 逸 な 記 事 / お ま か せ 表 示 / つ ま み 読 み / 選 考
例5|Yahoo!天気・災害
Tesseract OCR
地方概況
ー-東京都-
ョ小笠原談分では、急強い雨や革、濃務による視程際寺に注意してください。
東日本は気圧の谷となかっています。
東京地方は、曇りで、雨の降っている所があります。
11日は、 気圧の谷や湿った補気の影響を受けますが、次第に日本海の高気圧に本われる見込みです。ご
のため、暑りで、昼過ぎまでは雨の降る所があるでしょう。
12日は、高気圧に覆われますが、 気圧の谷や湿った空気の影響を受ける見込みです。このため、呈りで
昼前までは時々晴れとなるでしょう。
【関東甲信地方】 関東甲信地方は、時りで、雨の降っている所があります。
11日は、 気圧の谷や湿った空気の影響を受けますが、次第に日本海の高気圧に本われる見込みです。ご
のため、暑りや晴れで、雨の降る所があるでしょう。
12日は、高気圧に覆われますが、 気圧の谷や湿った空気の影響により、暑りや晴れとなる見込みです。
伊豆諸島では前線の影響で、夜は雨とおるでしょう。
関東地方と伊豆諸島の海上では、11日は波がやや高く、12日は波が高い見込みです。船舶は高波に注意
してください。
Microsoft OneNote
地 方 概 況
- – 東 京 都 —
■ 小 笠 原 諸 島 で は 、 急 な 強 い 雨 や 、 濃 霧 に よ る 視 程 障 言 に 注 意 し て く だ さ い 。
東 日 本 は 気 圧 の 谷 と な っ て い ま す 。
東 京 地 方 は 、 り で 、 雨 の 降 っ て い る 所 が あ り ま す 。
11 日 は 、 気 圧 の 谷 や 湿 っ た 空 気 の 影 当 を 受 け ま す が 、 次 第 に 日 本 海 の 高 気 圧 に 覆 わ れ る 見 込 み で す 。 こ
の た め 、 曇 り で 、 昼 過 ぎ ま で は 雨 の 降 る 所 が あ る で し よ う 。
12 日 は 、 高 気 圧 に 覆 わ れ ま す が 、 気 圧 の 谷 や 湿 っ た 空 気 の 影 響 を 受 け る 見 込 み で す 。 こ の た め 、 朝 り で
昼 前 ま で は 時 々 晴 れ と な る で し よ う 。
【 関 東 甲 信 地 方 】 関 東 甲 信 地 方 は 、 曇 り で 、 雨 の 降 っ て い る 所 が あ り ま す 。
11 日 は 、 気 圧 の 谷 や 湿 っ た 空 気 の 影 響 を 受 け ま す が 、 次 第 に 日 本 海 の 高 気 圧 に 覆 わ れ る 見 込 み で す 。 こ
の た め 、 曇 り や 晴 れ で 、 雨 の 降 る 所 が あ る で し よ う 。
12 日 は 、 高 気 旺 に 覆 わ れ ま す が 、 気 圧 の 谷 や 湿 っ た 空 気 の 影 響 に よ り 、 曇 り や 晴 れ と な る 見 込 み で す 。
伊 豆 諸 島 で は 前 線 の 影 響 で 、 夜 は 雨 と な る で し よ う 。
関 東 地 方 と 伊 豆 諸 島 の 海 上 で は 、 11 日 は 波 が や や 高 く 、 12 日 は 波 が 高 い 見 込 み で す 。 船 船 は 高 波 に 注 意
し て く だ さ い 。
スポンサーリンク
まとめ
今回はOCRエンジンによる日本語の具体的な比較検証をおこないました。
こちらでご紹介したアクションだけではなく、他のアクションと組み合わせてフローを作成する流れになるかと思います。
また、一部Googleの有料コンテンツをふくみますが、高機能OCRについて「【Power Automate Desktop】高機能OCRの使い方|Googleの画像認識」にてご紹介していますので、OCRを積極的に活用される場合は一度ご確認ください。
他のアクションについてはこちらでご紹介しておりますので、よろしければご活用ください。
こちらに「Power Automate Desktop」でできることや基本的な操作方法をまとめていますので、もしご興味がございましたら一度ご覧ください。