従来、PDFデータをExcelで集計するためには、Excelに入力する必要がありました。
しかし、Excel Power Queryを活用すると、PDFデータを変換することができるため、入力の時間短縮や入力ミスを防げます。
PDFデータを多用する方は、ぜひご参照ください。
なお、ペパコミ株式会社では、脱Excelとして「kintone」を活用した業務支援を行っています。業務効率化にお悩みの方は、ぜひ以下からお気軽にご相談ください。
Excel Power Queryとは
Excel Power Queryは、Excelの内部に組み込まれた機能であり、データ収集や変換、結合などの業務を自動化するために利用できます。
この機能を使うことで、PDFファイルに記載された情報をExcelへ読み込み、データ化する作業を進められるでしょう。
手作業によるデータ入力の負担を減らし、業務を効率的に実行するために役立ちます。
Power QueryでPDFからデータを読み取る仕組み
Power QueryがPDFを読み取る際、OCR(光学文字認識)技術は使用しません。
ExcelのデータがPDFに変換された場合、ExcelデータがPDFに読み込まれているため、PDF上で各項目が選択できる状態であれば、Power Queryはその情報を読み取り可能です。
また、PDF上のテキストをマウスでドラッグした際に、項目ごとに色がついて選択できる状態が読み込みの条件です。
PDFを印刷し、手動で目視でデータを入力するような作業は時間と手間がかかるため、Power QueryでPDFの情報を取得する機能は、業務効率化に貢献します。
PDFデータ読み込みの注意点
Power QueryによるPDFデータ読み込みには、主に以下2つの注意点があります。
- 画像形式のPDFは読み込めない
- 元のExcelデータが不適切な場合の影響
それぞれ解説します。
画像形式のPDFは読み込めない
PDFファイルには、テキスト情報が含まれるPDFと、画像として保存されたPDFがあります。
Power Queryがデータを読み込めるのは、テキスト情報を含むPDFであり、画像形式のPDFは読み込めません。
PDF上でマウスを当ててドラッグした際に、1枚の画像として全体が選択される場合は画像形式のPDFであるため、読み込みできないので注意が必要です。一方、各項目ごとに選択できる場合は、読み込める可能性が高いです。
元のExcelデータが不適切な場合の影響
PDFの元データがExcelで、そのExcelファイルの形式が適切でない場合、PDFに変換された後もデータの読み取りが困難なケースがあります。
例えば、PDFからデータを読み取った際に、そのデータがそのままでは利用しにくい形式になる場合があります。この場合、Power Queryで読み取れる可能性はありますが、読み取った後のデータの整形作業が必要になるかもしれません。
データが一部欠けることは基本的には発生しませんが、列がずれてしまうなどの現象が起こる可能性があります。このようなエラーは稀に発生する可能性があるため、事前に読み取りが可能かどうかを試すことを推奨します。
なお、OCRで発生しやすいゼロとオーの読み間違いは、Power Queryではあまり発生しません。
Excel Power QueryによるPDFデータ変換の実演
ここでは、発注書データをPDFからExcelへ変換する手順を具体的に説明します。
- Excelを開き、「データ」タブを選択します。
- 「データの取得」をクリックし、「ファイルから」の中の「フォルダから」を選択します。
- 発注書が保存されているフォルダを選択し、「開く」をクリックします。
- フォルダ内のPDFファイルが表示されるので、「データの変換」を選択します。
それぞれ詳しく説明します。
データの変換と項目の選択
「データの変換」を選択すると、Power Queryエディターが開きます。以下の方法で、PDF内のどの項目を読み込むかを指定します。
- 表示された画面で、コンテント列の下矢印をクリック
- 読み込みたいデータが格納されている塊を選択
ExcelはPDF内の情報を塊として認識します。例えば、型番や数量、単価、金額などのデータがあるテーブルを選択します。
全てのページを読み込む選択肢もありますが、エラーが発生しやすいため、特定のデータ塊の選択しましょう。
ファイル名からの日付情報取得
PDFのファイル名に日付情報が含まれている場合、以下の方法でExcelデータとして取得できます。
- Power Queryエディターで、「ソースネーム」列を選択し、「列の分割」ボタンをクリックし、「区切り記号による分割」を選択
- ファイル名に含まれるアンダーバーやドットなどの区切り記号を指定して、日付部分を抽出
- 抽出された日付の列を選択し、データ型を「日付」に設定
なお、Power Queryは自動的に日付形式を認識する場合もあります。
不要なデータの整形と削除
抽出したデータには、小計、合計、消費税など、不要な行が含まれる場合があります。その場合は、以下の手順でフィルター機能を使って削除することで、データを整理します。
- 「単価」列のフィルター矢印をクリックする
- 表示されるリストから「小計」「合計」「消費税」のチェックを外す
- 「OK」をクリックすると、不要な行が削除される
なお、データの型が「テキスト」になっている列がある場合(例: 単価)は、後で計算に利用できる状態にするために「整数」へ変換します。また、必要ない列は削除しておきましょう。
上記の操作を終えた後、「閉じて読み込む」をクリックすると、整形されたデータがExcelシートに反映されます。
Power Queryで自動化を進める
一度Power Queryで設定をすれば、同じ形式のPDFが追加された際に、手動での操作なしにデータを更新できます。
データ更新機能の活用
同じ形式の発注書PDFがフォルダに追加された場合、Excelの「データ」タブにある「すべて更新」ボタンをクリックするだけで、新しいPDFのデータが既存のシートに自動的に追加されます。
Power Queryの設定は記憶されているため、同様の操作で更新可能です。しかし、異なる形式のファイル(例:Excelファイル)を同じフォルダに入れると、予期せぬエラーが発生する可能性があります。
ファイル名からの会社名取得
PDFのファイル名に会社名を含めることで、日付情報と同じようにPower Queryで会社名をデータとして取得可能です。
ファイル名を「発注書_会社名_日付」のように工夫して命名すると、Power Queryが読み取りやすい形式になります。この方法を使えば、会社名や工事番号など、様々な情報をファイル名から取得し、Excelデータとして活用できます。
読み込み時のエラーパターン
Power QueryによるPDFデータ読み取りは便利ですが、全てを完璧に読み取ることはできません。
例えば、入力するデータの列がずれている場合、本来入るべきデータが別の列に入力されている際に起こります。元のPDFの形式やデータの構成が原因で発生する場合があります。データが欠損することはほとんどありませんが、列のずれは発生しえます。
エラーが発生した場合、Power Queryエディターの「適用したステップ」を確認することで、どのステップでエラーが発生したかを特定可能です。
ただし、場合によっては、クエリを最初から作り直した方が早く解決するケースもあります。
kintone連携への応用
Power Queryを使ってPDFデータをExcelに変換した後、データをkintone(キントーン)に取り込むことも可能です。PDFで受け取った請求書や発注書の情報を、手入力することなくkintoneのデータベースに連携できます。
PDFで届く文書をkintoneに入力する運用をしている企業は多く存在します。
Power Queryを導入すれば、データ入力の手間を大幅に削減し、業務を自動化できるでしょう。
kintoneとPower Queryを連携して有効活用しよう
Excel Power Queryは、PDFファイルのデータを効率的にExcelに変換し、業務の自動化を促進するツールです。
画像形式のPDFには対応できないなどの注意点はありますが、正しい形式のPDFであれば、請求書や発注書のデータ化を大幅に効率化できます。
今回紹介したPower Queryの機能は、kintoneなどの他システムとの連携にも応用可能です。手動入力に費やしていた時間を削減し、より生産的な業務に集中するために、活用を検討してください。
なお、ペパコミ株式会社では、脱Excelとして「kintone」を活用した業務支援を行っています。業務効率化にお悩みの方は、ぜひ以下からお気軽にご相談ください。
コメント