Excel Power Queryを活用したPDFデータ変換の全容

小川喜句

ペパコミ株式会社代表取締役小川 喜句

ペパコミ株式会社代表取締役。youtubeにて「kintone活用ちゃんねる」と、kintoneのプラグインメディア運営。kintoneの構築や内製化を伴走支援を行なっており、kintone運営会社「サイボウズ社」のビジネスにおいて、顕著な実績を上げたパートナー企業や個人を表彰する制度である「CYBOZU AWARD 2022」を受賞。サイボウズ評価制度3年連続2つ星を受賞し、セールス部門(2023~2024年) インテグレーション部門(2022~2024年)も受賞。

小川喜句X 小川喜句Youtube

従来、PDFデータをExcelで集計するためには、Excelに入力する必要がありました。

しかし、Excel Power Queryを活用すると、PDFデータを変換することができるため、入力の時間短縮や入力ミスを防げます。

PDFデータを多用する方は、ぜひご参照ください。

なお、ペパコミ株式会社では、脱Excelとして「kintone」を活用した業務支援を行っています。業務効率化にお悩みの方は、ぜひ以下からお気軽にご相談ください。

ペパコミ株式会社へ無料で相談する

kintone構築・運用でお困りの方へ無料相談でお悩みを解決!
目次

Excel Power Queryとは

Excel Power Queryとは

Excel Power Queryは、Excelの内部に組み込まれた機能であり、データ収集や変換、結合などの業務を自動化するために利用できます。

この機能を使うことで、PDFファイルに記載された情報をExcelへ読み込み、データ化する作業を進められるでしょう。

手作業によるデータ入力の負担を減らし、業務を効率的に実行するために役立ちます。

Power QueryでPDFからデータを読み取る仕組み

Power QueryでPDFからデータを読み取る仕組み

Power QueryがPDFを読み取る際、OCR(光学文字認識)技術は使用しません。

ExcelのデータがPDFに変換された場合、ExcelデータがPDFに読み込まれているため、PDF上で各項目が選択できる状態であれば、Power Queryはその情報を読み取り可能です。

また、PDF上のテキストをマウスでドラッグした際に、項目ごとに色がついて選択できる状態が読み込みの条件です。

PDFを印刷し、手動で目視でデータを入力するような作業は時間と手間がかかるため、Power QueryでPDFの情報を取得する機能は、業務効率化に貢献します。

PDFデータ読み込みの注意点

PDFデータ読み込みの注意点

Power QueryによるPDFデータ読み込みには、主に以下2つの注意点があります。

  • 画像形式のPDFは読み込めない
  • 元のExcelデータが不適切な場合の影響

それぞれ解説します。

画像形式のPDFは読み込めない

画像形式のPDFは読み込めない

PDFファイルには、テキスト情報が含まれるPDFと、画像として保存されたPDFがあります。

Power Queryがデータを読み込めるのは、テキスト情報を含むPDFであり、画像形式のPDFは読み込めません。

PDF上でマウスを当ててドラッグした際に、1枚の画像として全体が選択される場合は画像形式のPDFであるため、読み込みできないので注意が必要です。一方、各項目ごとに選択できる場合は、読み込める可能性が高いです。

元のExcelデータが不適切な場合の影響

元のExcelデータが不適切な場合の影響

PDFの元データがExcelで、そのExcelファイルの形式が適切でない場合、PDFに変換された後もデータの読み取りが困難なケースがあります。

例えば、PDFからデータを読み取った際に、そのデータがそのままでは利用しにくい形式になる場合があります。この場合、Power Queryで読み取れる可能性はありますが、読み取った後のデータの整形作業が必要になるかもしれません。

データが一部欠けることは基本的には発生しませんが、列がずれてしまうなどの現象が起こる可能性があります。このようなエラーは稀に発生する可能性があるため、事前に読み取りが可能かどうかを試すことを推奨します。

なお、OCRで発生しやすいゼロとオーの読み間違いは、Power Queryではあまり発生しません。

Excel Power QueryによるPDFデータ変換の実演

Excel Power QueryによるPDFデータ変換の実演①

Excel Power QueryによるPDFデータ変換の実演②

ここでは、発注書データをPDFからExcelへ変換する手順を具体的に説明します。

  1. Excelを開き、「データ」タブを選択します。
  2. 「データの取得」をクリックし、「ファイルから」の中の「フォルダから」を選択します。
  3. 発注書が保存されているフォルダを選択し、「開く」をクリックします。
  4. フォルダ内のPDFファイルが表示されるので、「データの変換」を選択します。

それぞれ詳しく説明します。

データの変換と項目の選択

データの変換と項目の選択

「データの変換」を選択すると、Power Queryエディターが開きます。以下の方法で、PDF内のどの項目を読み込むかを指定します。

  1. 表示された画面で、コンテント列の下矢印をクリック
  2. 読み込みたいデータが格納されている塊を選択

ExcelはPDF内の情報を塊として認識します。例えば、型番や数量、単価、金額などのデータがあるテーブルを選択します。

全てのページを読み込む選択肢もありますが、エラーが発生しやすいため、特定のデータ塊の選択しましょう。

ファイル名からの日付情報取得

ファイル名からの日付情報取得①

ファイル名からの日付情報取得②

PDFのファイル名に日付情報が含まれている場合、以下の方法でExcelデータとして取得できます。

  1. Power Queryエディターで、「ソースネーム」列を選択し、「列の分割」ボタンをクリックし、「区切り記号による分割」を選択
  2. ファイル名に含まれるアンダーバーやドットなどの区切り記号を指定して、日付部分を抽出
  3. 抽出された日付の列を選択し、データ型を「日付」に設定

なお、Power Queryは自動的に日付形式を認識する場合もあります。

不要なデータの整形と削除

不要なデータの整形と削除①

不要なデータの整形と削除②

抽出したデータには、小計、合計、消費税など、不要な行が含まれる場合があります。その場合は、以下の手順でフィルター機能を使って削除することで、データを整理します。

  1. 「単価」列のフィルター矢印をクリックする
  2. 表示されるリストから「小計」「合計」「消費税」のチェックを外す
  3. 「OK」をクリックすると、不要な行が削除される

なお、データの型が「テキスト」になっている列がある場合(例: 単価)は、後で計算に利用できる状態にするために「整数」へ変換します。また、必要ない列は削除しておきましょう。

上記の操作を終えた後、「閉じて読み込む」をクリックすると、整形されたデータがExcelシートに反映されます。

Power Queryで自動化を進める

Power Queryで自動化を進める

一度Power Queryで設定をすれば、同じ形式のPDFが追加された際に、手動での操作なしにデータを更新できます。

データ更新機能の活用

データ更新機能の活用

同じ形式の発注書PDFがフォルダに追加された場合、Excelの「データ」タブにある「すべて更新」ボタンをクリックするだけで、新しいPDFのデータが既存のシートに自動的に追加されます。

Power Queryの設定は記憶されているため、同様の操作で更新可能です。しかし、異なる形式のファイル(例:Excelファイル)を同じフォルダに入れると、予期せぬエラーが発生する可能性があります。

ファイル名からの会社名取得

ファイル名からの会社名取得

PDFのファイル名に会社名を含めることで、日付情報と同じようにPower Queryで会社名をデータとして取得可能です。

ファイル名を「発注書_会社名_日付」のように工夫して命名すると、Power Queryが読み取りやすい形式になります。この方法を使えば、会社名や工事番号など、様々な情報をファイル名から取得し、Excelデータとして活用できます。

読み込み時のエラーパターン

読み込み時のエラーパターン

Power QueryによるPDFデータ読み取りは便利ですが、全てを完璧に読み取ることはできません。

例えば、入力するデータの列がずれている場合、本来入るべきデータが別の列に入力されている際に起こります。元のPDFの形式やデータの構成が原因で発生する場合があります。データが欠損することはほとんどありませんが、列のずれは発生しえます。

エラーが発生した場合、Power Queryエディターの「適用したステップ」を確認することで、どのステップでエラーが発生したかを特定可能です。

ただし、場合によっては、クエリを最初から作り直した方が早く解決するケースもあります。

kintone連携への応用

kintone連携への応用

Power Queryを使ってPDFデータをExcelに変換した後、データをkintone(キントーン)に取り込むことも可能です。PDFで受け取った請求書や発注書の情報を、手入力することなくkintoneのデータベースに連携できます。

PDFで届く文書をkintoneに入力する運用をしている企業は多く存在します。

Power Queryを導入すれば、データ入力の手間を大幅に削減し、業務を自動化できるでしょう。

kintoneとPower Queryを連携して有効活用しよう

kintoneとPower Queryを連携して有効活用しよう

Excel Power Queryは、PDFファイルのデータを効率的にExcelに変換し、業務の自動化を促進するツールです。

画像形式のPDFには対応できないなどの注意点はありますが、正しい形式のPDFであれば、請求書や発注書のデータ化を大幅に効率化できます。

今回紹介したPower Queryの機能は、kintoneなどの他システムとの連携にも応用可能です。手動入力に費やしていた時間を削減し、より生産的な業務に集中するために、活用を検討してください。

なお、ペパコミ株式会社では、脱Excelとして「kintone」を活用した業務支援を行っています。業務効率化にお悩みの方は、ぜひ以下からお気軽にご相談ください。

ペパコミ株式会社へ無料で相談する

 

小川喜句

ペパコミ株式会社代表取締役小川 喜句

ペパコミ株式会社代表取締役。youtubeにて「kintone活用ちゃんねる」と、kintoneのプラグインメディア運営。kintoneの構築や内製化を伴走支援を行なっており、kintone運営会社「サイボウズ社」のビジネスにおいて、顕著な実績を上げたパートナー企業や個人を表彰する制度である「CYBOZU AWARD 2022」を受賞。サイボウズ評価制度3年連続2つ星を受賞し、セールス部門(2023~2024年) インテグレーション部門(2022~2024年)も受賞。

小川喜句X 小川喜句Youtube
よかったらシェアしてね!

コメント

コメントする

kintoneのお悩み
一発解決します!

無料相談をする
目次
閉じる