n8nとGemini API連携によってPDFの要約や分析を行う設定手順を解説

n8nとGemini APIを連携させ、PDF資料の要約や分析を自動化する手順を解説。OCR不要で画像PDFを処理する方法から、APIキー取得・ワークフロー構築まで効率化のポイントをまとめます。

日常業務では、請求書や契約書、報告書などのPDF確認に多くの時間が割かれています。内容の目視確認や転記、要点整理は単純作業でありながら、担当者の負担になりやすい業務です。

こうした定型業務を効率化する手段として、ワークフロー自動化ツール「n8n」とGoogleの生成AI「Gemini API」を連携させる方法が注目されています。プログラミングの専門知識がない担当者でも、適切な設定を行うことで、PDFの読み込みから分析・要約までの一連の流れを自動化する仕組みの構築が目指せます。

本記事では、n8nとGemini APIを連携させ、PDF資料を自動で分析・要約するワークフローの作成手順を詳しく解説します。

※画像はすべてイメージです。

n8nとGemini APIで構築するPDF自動分析の仕組みとは

n8nとGemini APIを組み合わせることで、従来は人が行っていた「ファイルを開く」「読む」「判断する」「記録する」という作業の一部を、システム上で処理する流れを作ります。

n8nは、さまざまなアプリやWebサービスを接続し、データの受け渡しを自動化するためのツールです。一方、Gemini APIは、テキストだけでなく画像やPDFの内容も解析できるGoogleのAIモデルです。これらを連携させることで、データ移動に加えて、ファイルの内容をもとにした処理をシステム上で進められるでしょう。

契約書や請求書の必要項目を抽出する処理の流れを整理する

契約書や請求書を例に挙げると、具体的な利用イメージがつかみやすいでしょう。ここでは、取引先から受け取ったPDFがGoogle Driveの特定フォルダに保存される状況を想定します。

ここで注意したいのは、Google Drive TriggerがWebhookではなくポーリングで動作する点です。

Google Drive TriggerはWebhook形式ではなくポーリングで動作します。設定された間隔ごとにフォルダの更新を確認する方式のため、保存後すぐに反応する仕組みではありません。環境によっては数分から十数分程度の遅延が生じるケースもあり、即時性が必要なワークフローには適さない可能性があります。

対象PDFを取得してGemini APIへ送信し、「請求日・請求金額・振込先を抽出する」といった指示を記述してください。

Geminiはプロンプトに沿ってPDFを解析し、抽出された情報を返します。n8n側で返却データを受け取り、Googleシートへの追加やSlackへ通知するといった処理につなげることも可能です。こうした流れを整えることで、担当者はスムーズに後続の確認作業へ移行できるでしょう。

個別にOCRを設定せずに画像を含むPDFを処理対象にできる

従来、文字情報を含まない画像型PDFを扱うには、別途OCR工程が必要となるケースが一般的でした。

一方、マルチモーダル解析に対応したGemini API(Gemini 1.5 ProやFlashなど)であれば、画像を含むPDFを直接読み取れる場合があります。個別のOCRツールを挟まずに解析できる点は大きなメリットでしょう。

ただし、画質やレイアウトにより認識精度が変動するため、事前の検証が必要です。すべてのファイルで安定した結果が得られるとは限らないため、事前にサンプルで挙動を検証し、必要に応じて補助的なOCRツールの併用も検討してください。

連携に必要な事前準備とAPIキーの取得

ワークフローを作成する前に、Gemini APIを利用するための環境設定を行う必要があります。Googleが提供する環境でAPIキーを取得し、それをn8nに登録するという手順を踏みます。

Google AI StudioからAPIキーを取得し管理する

Gemini APIを利用する際は、Google AI Studioへアクセスし、APIキーを発行する操作を行います。Googleアカウントがあれば利用を開始できる場合がありますが、使用可能な範囲はプランにより異なります。

Google AI Studioにログインした後、画面上のメニューからAPIキー作成に進む構成が一般的です。プロジェクトを選択する画面が表示されるほか、新規プロジェクトの作成が求められるケースもあります。

発行されたAPIキーは英数字の文字列で構成されています。権限を持つ操作に利用されるため、外部へ漏れないよう適切に管理することが重要です。画面に表示されたキーをコピーし、後でn8nへ登録できるよう控えておきます。

n8n「Credentials」メニューでGemini用APIキーを登録する

取得したAPIキーは、n8n側でCredentialとして登録することで利用可能になります。具体的には、n8nの画面を開き、メニューにある「Credentials(認証情報)」から追加操作へ進んでください。

Credential追加画面の検索欄に「Gemini」や「Google Gemini」と入力すると、関連する候補が表示されます。該当項目を選択し、APIキーの入力欄を表示させましょう。

Google AI Studioで控えておいたAPIキーを入力して保存すれば、設定は完了です。この登録情報は他のワークフローからも参照できる仕組みになっているため、今後の設定時にも同じCredentialを使い回すことができます。

【実践】PDFを読み込み要約するワークフローの作成手順

ここからは、実際にn8nのキャンバス上でノード(処理の単位)を配置し、自動化のフローを構築する手順を解説します。例として、Google Driveへ追加されたPDFをもとにGeminiへ解析を依頼し、結果を通知する形式を取り上げます。

ステップ1:Google Drive Triggerで指定フォルダを監視

まず、ワークフローのきっかけとなる「トリガー」を設定します。ここでは、Google Drive内の更新をきっかけとしてワークフローを開始させるための準備を行います。

Google Driveノードの追加と接続設定

n8nのキャンバスで「+」を選択し、Google Drive関連のTriggerノードを検索して追加してください。設定画面が開いたら、まずGoogle Driveへの接続認証を行います。これは初回のみ必要な作業で、Googleアカウントとの連携承認を済ませることで、n8nがドライブ内のファイルへアクセスできるようになります。認証が完了したら、監視するイベントとして「File Created(ファイルが作成されたとき)」を選択します。

監視フォルダとファイル形式(MIMEタイプ)の指定

次に、どのフォルダを監視するかを指定します。「Folder to Watch」などの項目で、請求書や資料がアップロードされる特定のフォルダID、またはフォルダパスを入力します。さらに、すべてのファイルに反応しないようフィルター設定を行うと効率的です。

フィルターオプションでMIMEタイプを「application/pdf」に指定しておくと、PDFファイルが保存されたときだけワークフローが動作するように制御できます。

テスト実行によるファイル検知の確認

設定が一通り完了したら、「Listen for Event」ボタンを押して待機状態にします。この状態で、実際に指定したGoogle Driveのフォルダへテスト用のPDFをアップロードしてみましょう。n8nの画面上でファイル名やファイルIDなどの情報が取得できれば、トリガーの設定は成功です。

ステップ2:GeminiノードにPDFのMIMEタイプとプロンプトを設定

次に、取得したPDFファイルをAIに解析させる設定を行います。ここでGeminiのマルチモーダル機能を活用するための重要な設定が含まれます。

AIモデルの選択と認証情報の紐付け

Google Gemini関連のノードを配置し、事前に登録したCredentialを選択します。モデル名の選択欄では複数の選択肢が提示されるため、用途に合わせて適切なものを選択します。処理特性はモデルごとに異なるケースもあるので、実際の挙動をテストしながら調整していくと良いでしょう。

PDFを直接読み込ませるためのバイナリデータ設定

n8nでは、Google Driveノードが取得したPDFをバイナリ形式で渡します。通常は「data」などの固定のプロパティ名が割り当てられますが、利用しているノード構成により名称が異なるケースもあります。Geminiノードでは、このバイナリフィールドを適切に指定する必要があります。

また、Gemini APIにはファイルサイズやコンテキスト量の上限があり、大きなPDFを送信するとエラーを招く恐れがあります。事前にAPI制限を確認し、必要に応じてファイル分割などの対策を検討してください。

分析精度を高めるプロンプトの記述

続いて、AIへの指示となる「Prompt(プロンプト)」を入力してください。例えば、「以下のPDF資料の内容を、300文字程度の日本語で要約してください。重要な決定事項があれば箇条書きにすること」といった具体的な指示を記述します。

曖昧な指示ではなく、文字数や出力形式を指定することで、意図した回答が得られやすくなるでしょう。

ステップ3:生成した要約テキストをSlackまたはChatworkへ通知

最後に、AIが生成した内容を確認するための通知設定を行います。ここではSlackを例に、設定の流れを整理します。

通知先ツールの設定とチャンネル指定

Geminiノードの右側に、「Slack」ノードを接続します。Slackとの連携認証を行った後、通知先のチャンネルIDまたはチャンネル名を指定します。自分だけのテスト用チャンネルを作成しておくのも1つの方法です。

AIの生成テキストをメッセージに埋め込む設定

「Text」や「Message」の欄には、Geminiノードが出力した結果(Generated Text)を埋め込みます。n8nでは「Expression(式)」機能を使うことで、前のノードの出力値を動的に引用可能です。Slackへ通知する際に使用するファイル名は、Google Drive Triggerの出力構造によって取得フィールドが異なります。n8nのバージョンやDrive APIの挙動によりname、fileName、titleなど異なる値が返されるため、実際の出力JSONを確認したうえで適切なフィールドを指定してください。

ワークフローの保存と有効化(Activate)

すべての設定が完了したら、ワークフロー全体を保存(Save)します。最後に、画面右上などにある「Activate」スイッチをオンにして稼働状態にします。これで、指定フォルダにPDFを入れるだけで、自動的にAIによる要約がSlackに届くシステムの完成です。

精度を向上させるためのプロンプトと設定のコツ

基本的な連携設定に加え、業務で実用的なレベルに引き上げるためには、AIへの指示出し(プロンプト)の工夫や、エラー発生時の対策を講じておくことが推奨されます。AIの回答精度を高め、安定した運用を行うためのポイントを整理します。

条項抽出など具体的な指示文の例を整理する

Geminiへの指示内容は、求める結果を具体化することで意図に沿った出力に近づきやすくなります。「このファイルを要約する」という簡易な指示では焦点が分散しやすく、概要のみが返ってくるケースも珍しくありません。目的を明確に示すことで、内容の偏りを抑えられるでしょう。

契約書のリスク条項を特定するプロンプト例

契約書を対象とする場合は、確認したい項目を絞って指示を出してください。例えば、「この契約書から損害賠償と契約解除に関する条項を抽出し、関連する論点を分かりやすい表現にまとめて」といった形式での指定が効果的です。

このように目的を明確化することで、必要な観点が整理されやすくなるでしょう。

システム連携を意識したJSON形式での出力指定

Googleシートやデータベースへ連携する場合、出力形式を統一しておけば後続処理がスムーズに進みます。自然言語のままではデータの構造化が難しいため、必要に応じてJSON形式を指定してください。

請求書を例に挙げると、「発行日・合計金額(税抜)・合計金額(税込)・支払期限を抽出し、指定したJSON形式で出力して」といった指示が有効です。あらかじめ構造化されたデータを受け取ることで、後続ノードでの取り回しが扱いやすくなるでしょう。

APIのファイルサイズ制限やモデル仕様を確認する

運用を続ける中で注意したいのが、APIの技術的な制限事項です。大量のファイルを処理する場合や、長大なドキュメントを扱う場合には、以下の点を確認してください。

トークン数やファイルサイズの上限について

Gemini APIには、送信可能なデータ量やファイルサイズに上限が設けられている場合があります。大容量のPDFを扱う際、この制限を超えてしまうとエラーやタイムアウトにつながる可能性があります。

長文の資料を処理したい場合は、ファイルを分割して送信するといった対応も検討してください。

タスクの複雑さに応じたモデルの使い分け

利用するモデル(Gemini 1.5 ProやFlashなど)によって、扱える情報量(コンテキストウィンドウ)や解析・認識能力、料金体系が異なります。定型的な項目の抽出であれば、「Gemini 1.5 Flash」が適しているでしょう。

一方で、複雑な契約書の解釈を必要とするタスクでは、上位モデルである「Gemini 1.5 Pro」の方が正確な結果を出しやすい傾向にあります。用途に合わせて最適なモデルを選択してください。

エラー発生時に備えた通知フローの構築

n8n側でも、扱うバイナリデータのサイズが大きいとメモリ不足になるケースが考えられます。また、API側の一時的な障害もゼロではありません。こうした状況を把握するために、n8nにはError Triggerなどの仕組みが提供されることがあります。

処理が失敗した際に管理者のSlackやメールにアラートを飛ばすフローを別途作成しておくと、予期せぬ停止にすぐ気づくことができ、業務への影響を最小限に抑えられるでしょう。

まとめ|n8nとGemini APIを活用してPDF分析を効率化しよう

n8nとGemini APIを連携させることで、これまで人の手と目に頼っていたPDF資料の確認プロセスの自動化が身近になるでしょう。プログラミングの詳細な知識がなくとも、Google AI Studioでのキー取得とn8n上のノード設定という手順を踏めば、独自の分析ツールを構築することは十分検討できる内容です。

まずは無料の範囲内で小規模なワークフローから試し、契約書の一次スクリーニングや請求書データの自動入力など、身近な業務に適用してみることをおすすめします。AI技術は日々進化しており、工夫次第でさらなる業務効率化が期待できるでしょう。

CONTACT

株式会社TWOSTONE&Sonsグループでは
60,000人を超える
人材にご登録いただいており、
ITコンサルタント、エンジニア、マーケターを中心に幅広いご支援が可能です。
豊富な人材データベースと創業から培ってきた豊富な実績で貴社のIT/DX関連の課題を解決いたします。

  • コンサルティング対応
    コンサルティング
  • 内製化支援・人材紹介・派遣対応
    内製化支援・人材紹介・派遣
  • 受託開発対応
    受託開発

幅広い支援が可能ですので、
ぜひお気軽にご相談ください!