Power Automate Desktop PDFの内容をテキストファイルに保存

2021年10月23日2023年8月10日

E n g l i s h version.

PDFファイル内のテキストを抽出してテキストファイルに保存する方法を紹介します。

1. フロー作成
- 1.1. テキスト情報の場合
- 1.2. 画像からテキストを抽出する場合
2. Power Automate Desktopを効率的に習得したい方へ
3. 関連記事
- 3.1. 実用例の記事一覧

フロー作成

テキスト情報の場合

まず最初に「PDF からテキストを抽出」を設置し、対象のPDFを指定します。

次に「テキストをファイルに書き込みます」を設置すれば完了です。

オプションには保存先のテキストファイル、

書き込むテキストに%ExtractedPDFText%を指定します。

（生成された変数の名前を変えていない場合）

画像からテキストを抽出する場合

画像からもある程度、テキストを抽出可能です。

ただしOCRのためうまく読み込めない場合があります。

またテキストと画像は別々に抽出するため

テキスト・画像を通して順番通りにはできません。

（ページ番号でループさせればある程度は可能ですが）

フローを作成するには、まず「PDF から画像を抽出します」を設置します。

次に「フォルダー内のファイルを取得する」を設置して、

「PDF から画像を抽出します」の保存先フォルダを指定します。

次に For eachを設置し、反復を行う値に%Files%を指定します。

（「フォルダー内のファイルを取得する」で生成された変数）

次に For eachの中に「OCRを使ってテキストを抽出」を設置します。

（日本語で利用する際には事前準備が必要です。詳細はアクションのページで解説しています）

オプションは次のように設定します。

項目	設定値	備考
OCRエンジンの種類	Tesseract エンジン
OCR ソース	ディスク上の画像
画像ファイルパス	%CurrentItem%	For eachの生成された変数
検索モード	指定されたすべてのソース
他の言語を使う	ON
言語コード	jpn
言語データパス	jpn.traineddataとjpn_vert.traineddataが保存されているディレクトリ

次にFor eachの中に「テキストに行を追加」を設置します。

オプションは次のように設定します。

項目	設定値	備考
元のテキスト	%PdfImgText%	任意の変数名。
追加するテキスト	%OcrText%	「OCRを使ってテキストを抽出」の生成された変数

最後にFor eachの中に「変数の設定」を設置します。

オプションは次のように設定します。

項目	設定値	備考
設定	%PdfImgText%	「テキストに行を追加」の元のテキストで指定した変数。
宛先	%Result%	「テキストに行を追加」の生成された変数

フロー完了後、 %PdfImgText% に対象とした全画像を

OCRで解釈して結合した結果が設定されます。

Power Automate Desktopを効率的に習得したい方へ

当サイトの情報を電子書籍用に読み易く整理したコンテンツを

買い切り950円またはKindle Unlimited (読み放題) で提供中です。

Word-A4サイズ：1,700ページの情報量で

（実際のページ数はデバイスで変わります）

基本的な使い方から各アクションの詳細な使い方、

頻出テクニック、実用例を紹介。（目次）

体系的に学びたい方は是非ご検討ください。

アップデートなどの更新事項があれば随時反映しています。（更新履歴）

なお購入後に最新版をダウンロードするには

Amazonへの問い合わせが必要です。

購入はこちら

実用例の記事一覧

Power Automate Desktop 活用事例集

Power Automate Desktop 実用例

フロー作成

テキスト情報の場合

画像からテキストを抽出する場合

Power Automate Desktopを効率的に習得したい方へ

関連記事

実用例の記事一覧