Power Automate Desktop「PDFからテーブルを抽出する」アクション

2022年3月4日2023年7月21日

English version.

PDFに含まれている表を抽出してデータテーブルのリストに格納するアクションです。

1. 利用方法
- 1.1. 生成された変数
  - 1.1.1. ExtractedPDFTables
- 1.2. パラメータ
2. Power Automate Desktopを「最短」で習得したい方へ
3. 記事一覧
- 3.1. 「PDF」の使い方の記事一覧

利用方法

「アクション」の「PDF」より「PDFからテーブルを抽出する」をドラッグします。

パラメータの設定画面が表示されるので値を指定します。

生成された変数

ExtractedPDFTables

取り込んだ表をデータテーブルのリスト形式で取得します。

例えば総務省の「都道府県コード及び市区町村コード」のPDFは

大きく二つの表に分かれています。

このPDF全体を取り込むと次のようなリストになります。

ExtractedPDFTables[0].DataTableが1つ目の表、

ExtractedPDFTables[1].DataTableが2つ目の表のデータテーブルになります。

プロパティ
.DataTable	データテーブル形式の表本体です。
.TableStartingPage	PDF中の開始ページ位置です。
.TableEndingPage	PDF中の終了ページ位置です。

PDFテーブル情報のプロパティ

例えば一つ目の表を行ループする場合は、

%ExtractedPDFTables[0].DataTable%を指定します。

列名を取り込む設定の場合は表の先頭行が列名になります。

「都道府県コード及び市区町村コード」改正一覧表のように

ヘッダが複数行あるPDFの場合は先頭行のみ列名となり、

2行目以降はデータ行になってしまいます。

行ループの中でヘッダーを判定して除外する必要があります。

パラメータ

PDF ファイル

抽出対象のPDFファイルを指定します。

表があれば大抵のPDFは取り込めますが

サンプルとして総務省の「都道府県コード及び市区町村コード」のような

列が1行のPDFが取り込みやすいです。

抽出するページ

PDFの中で表を抽出する対象のページを指定します。

「すべて」の場合は追加指定なし

パスワード

PDFの読み取りにパスワードが必要な場合に指定します。

ページの余白を超えるテーブルをマージする

表の途中にページ区切りがある場合に、

チェックしていると同じデータテーブルに抽出しますが、

チェックなしの場合、分割して設定します。

最初の行に列名含める

チェックした場合は先頭行が列名として扱われます。

チェックなしの場合は先頭行もデータ行として扱い、

Column1～が列名として自動設定されます。

Power Automate Desktopを「最短」で習得したい方へ

「Webで情報を探す時間がもったいない」と感じていませんか

当サイトの人気記事を体系的に整理し、一冊の電子書籍にまとめました。

ページをめくるだけで、基礎から応用まで階段を登るようにスキルアップできます。

オフラインでも読めるため、通勤時間や移動中の学習にも最適です。

【本書で学べること】

基本操作とフローの作成手順
Excel、Outlook、Webブラウザの自動化 * 実務で必須のエラー処理と頻出テクニック

Kindle Unlimited会員なら追加料金なし（0円）でお読みいただけます。

購入はこちら

記事一覧

「PDF」の使い方の記事一覧

Power Automate Desktop 「PDF」の使い方の記事一覧

Power Automate Desktop アクション