Power Automate Desktop PDFの内容をテキストファイルに保存

2023年8月10日

English version.

PDFファイル内のテキストを抽出してテキストファイルに保存する方法を紹介します。

フロー作成

テキスト情報の場合

まず最初に「PDF からテキストを抽出」を設置し、対象のPDFを指定します。

次に「テキストをファイルに書き込みます」を設置すれば完了です。

オプションには保存先のテキストファイル、

書き込むテキストに%ExtractedPDFText%を指定します。

(生成された変数の名前を変えていない場合)

画像からテキストを抽出する場合

画像からもある程度、テキストを抽出可能です。

ただしOCRのためうまく読み込めない場合があります。

またテキストと画像は別々に抽出するため

テキスト・画像を通して順番通りにはできません。

(ページ番号でループさせればある程度は可能ですが)

フローを作成するには、まず「PDF から画像を抽出します」を設置します。

次に「フォルダー内のファイルを取得する」を設置して、

PDF から画像を抽出します」 の保存先フォルダを指定します。

次にFor eachを設置し、反復を行う値に%Files%を指定します。

(「フォルダー内のファイルを取得する」で生成された変数)

次にFor eachの中に「OCRを使ってテキストを抽出」を設置します。

(日本語で利用する際には事前準備が必要です。詳細はアクションのページで解説しています)

オプションは次のように設定します。

項目設定値備考
OCRエンジンの種類Tesseract エンジン
OCR ソースディスク上の画像
画像ファイル パス%CurrentItem%For eachの生成された変数
検索モード指定されたすべてのソース
他の言語を使うON
言語コードjpn
言語データ パスjpn.traineddatajpn_vert.traineddata
保存されているディレクトリ

次にFor eachの中に「テキストに行を追加」を設置します。

オプションは次のように設定します。

項目設定値備考
元のテキスト%PdfImgText%任意の変数名。
追加するテキスト%OcrText%OCRを使ってテキストを抽出」の生成された変数

最後にFor eachの中に「変数の設定」を設置します。

オプションは次のように設定します。

項目設定値備考
設定%PdfImgText%テキストに行を追加」の元のテキストで指定した変数。
宛先%Result%テキストに行を追加」の 生成された変数

フロー完了後、 %PdfImgText% に対象とした全画像を

OCRで解釈して結合した結果が設定されます。

Power Automate Desktopを効率的に習得したい方へ

当サイトの情報を電子書籍用に読み易く整理したコンテンツを

買い切り950円またはKindle Unlimited (読み放題) で提供中です。

Word-A4サイズ:1,700ページの情報量で

(実際のページ数はデバイスで変わります)

基本的な使い方から各アクションの詳細な使い方、

頻出テクニック、実用例を紹介。(目次

体系的に学びたい方は是非ご検討ください。

アップデートなどの更新事項があれば随時反映しています。(更新履歴

なお購入後に最新版をダウンロードするには

Amazonへの問い合わせが必要です。

関連記事

実用例の記事一覧