Difyとスプレッドシート連携!海外リサーチを自動化する手順

海外企業のWebサイトから情報を収集し、スプレッドシートへ転記する際、手作業はもう必要ありません。Difyを使い、URLリストから企業情報を自動で抽出しスプレッドシートにまとめる方法を解説します。リサーチを自動化し、分析や戦略立案に集中しましょう。

海外の競合他社や新しいトレンドを調査する際、複数のWebサイトを見比べて情報を集め、手作業でスプレッドシートにまとめるのは非常に時間がかかります。特に、海外サイトの情報となると、言語の壁も加わり、さらに手間がかかることも少なくありません。

この記事では、AIアプリ開発プラットフォーム「Dify」のワークフロー機能を活用し、「GoogleスプレッドシートにリストアップしたURLから、海外スタートアップの企業情報を自動で収集・要約し、結果を同じシートに書き出す」仕組みの構築手順を、ステップ・バイ・ステップで詳しく解説します。

この仕組みを導入することで、面倒な情報収集作業をAIに任せ、分析や戦略立案といった重要な業務に集中できるようになります。

事前準備:連携に必要な情報を揃えよう

ワークフローの作成を始める前に、Difyと外部サービスを連携させるための準備をします。

準備するものリスト

まずは、作業に必要なアカウントやデータを用意しましょう。

・Difyのアカウント:無料で作成して利用開始できます。

・Googleアカウント:Google SheetsとGoogle Cloudを利用するために必要です。

・調査対象の企業URLリスト:事前に情報を収集したい企業のURLをいくつかリストアップしておきましょう。

準備ステップ1:サービスアカウントの作成と設定

DifyからGoogle Sheetsの情報を読み取るため、Google Cloudでサービスアカウントを作成し、キー(JSON)をダウンロードしましょう。

  1. Google Cloud Consoleの「サービスアカウント」ページにアクセスします。
  2. 「+ サービスアカウントを作成」をクリックします。
  3. サービスアカウント名を入力します(例: dify-sheet-reader)。IDは自動で入力されます。
  4. 「作成して続行」をクリックします。
  5. ロール(権限)の選択は不要です。「続行」をクリックします。
  6. 最後のステップも何も設定せず、「完了」をクリックします。
  7. これでサービスアカウントの一覧に、今作成したものが表示されます。そのアカウントのメールアドレス(…@…iam.gserviceaccount.com)をクリックします。
  8. 上部のタブから「鍵」を選択します。
  9. 「キーを追加」から「新しい鍵を作成」を選択します。
  10. キーのタイプとして「JSON」を選択し、「作成」をクリックします。
  11. 認証情報が記載されたJSONファイルが、お使いのPCに自動でダウンロードされます。
  12. ダウンロードしたJSONファイルをテキストエディタ(メモ帳など)で開きます。中身のテキストをすべてコピーしてください。

準備ステップ2:Jina AIのAPIキーを取得する

Webページから本文だけを綺麗に抽出してくれる「Jina AI」サービスのAPIキーを取得します。

  1. Jina AI Readerの公式サイトにアクセスします。
  2. ログイン後、「APIキーを管理」のボタンから、jina_xxxxxxxから始まるAPIキーをコピーします。

準備ステップ3:Google Sheetsの準備と共有設定

次に、情報収集の起点となり、結果を書き出すスプレッドシートを準備します。

  1. 新しいGoogleスプレッドシートを作成します。
  2. A列に、調査したい企業のURLを一行ずつ入力してください。
  3. 右上の「共有」ボタンをクリックします。
  4. 「一般的なアクセス」の項目を「制限付き」から「リンクを知っている全員」に変更します。
  5. 「ユーザーやグループと共有」の入力欄に、準備ステップ1で作成したサービスアカウントのメールアドレス(…@…iam.gserviceaccount.com)を貼り付けます。
  6. 役割が「編集者」になっていることを確認し、「完了」をクリックします。これにより、先ほど作成したAPIキーがシートの情報を読み取れるようになります。

これで全ての事前準備が整いました!いよいよDifyでワークフローを作成していきましょう。

作業ステップ1:Difyで新しいワークフローを作成

Difyにログインし、ワークフローを作成します。

  1. Difyの管理画面から「スタジオ」にアクセスし、「アプリを作成」をクリックします。
  2. 「ワークフロー」を選択して、アプリを作成してください。

作業ステップ2:ワークフローの各ブロックを設定する

ここからは、Difyのキャンバスにブロックを追加し、それぞれを繋ぎ合わせて自動化の仕組みを組み立てていきます。一つ一つの操作を詳しく見ていきましょう。

1.開始ブロック

ワークフローの一番左に、すでに「開始」ブロックが配置されています。これはワークフローを起動する起点となるブロックです。今回は手動で実行するため、このブロックの設定は特に変更する必要はありません。

2.BATCH GETブロック

このブロックは、連携したGoogleスプレッドシートにアクセスし、指定された範囲のデータ(今回はURLリスト)を一括で読み込む機能を担うブロックです。

まず、「開始」ブロックの右側にある「+」ボタンをクリックしてください。ツールの選択画面が表示されます。

  1. 左側のツール一覧の上部にある検索窓に「Google Sheets」と入力します。
  2. 表示された「Google Sheets」ツールをインストールし、その後「Googleスプレッドシート」→「BATCH GET」をワークフローに追加します。
  3. 追加された「BATCH GET」ブロックをクリックして設定パネルを開き、以下の通り設定します。
  • 認証名:管理しやすい名前を自由につけてください(例: My Sheets Service Account)
  • 認証情報JSON:ここに、準備ステップでコピーしたJSONファイルの中身を貼り付けます。
  • Spreadsheet ID:準備したGoogle SheetsのURLから、ID部分をコピーして貼り付けます。
  • Range Name:「Sheet1!A:A」と入力します。
  1. 「保存」ボタンを押して認証情報を保存します。

3.コードブロック①

スプレッドシートから読み取ったデータは、そのままだと余計な情報が含まれていたり形式が複雑だったりします。このブロックでは、読み込んだデータから必要な「URL」だけをきれいに抜き出し、次の工程で処理しやすいリスト形式に変換します。

  1. 「BATCH GET」ブロックの右に「コード」ブロックを追加して線を繋ぎます。
  2. 追加した「コード」ブロックの設定パネルを開きます。
    • 入力変数名:「sheet_data」と入力します。
    • 変数値:「(x)json Array[Object]」を選択します。
    • コードの記述:以下のPythonコードをコピーして貼り付けます。

def main(**kwargs):

sheet_data = kwargs.get(‘sheet_data’, [])

url_list = [item[‘A’] for item in sheet_data if item and ‘A’ in item]

return {“result”: url_list}

    • 出力変数:Array[String]を選択します。

4.イテレーションブロック

ここまでの手順で作成された「URLのリスト」を受け取り、その一つひとつに対して順番に「Webサイトの調査」と「結果の書き込み」を行うためのループ(繰り返し)機能を担うブロックです。

  1. コードブロックにイテレーションブロックを追加して繋ぎます。
  2. 「イテレーション」ブロックの設定パネルを開き、「入力」の欄で「BATCH GET (x)json Array[Object]」を選択します。
  3. その他項目の設定は不要です。

作業ステップ3:イテレーションブロック内の設定

ここからは、取得したURLリストの一つひとつに対して、繰り返し処理を行う「イテレーション」ブロックの内部を設定していきます。

各企業のWebページから情報を抽出し、要約、そしてスプレッドシートの正しい行に書き込むまでの一連の自動化フローを組み立てていきましょう。

1. Jina AIブロック

このブロックでは、イテレーション(ループ)で渡されたURLにアクセスし、Webページの情報を取得するブロックです。広告やメニューなどの余計な情報を省き、AIが読み取りやすいテキスト形式(Markdownなど)に変換して取得します。

  1. イテレーションブロックの中にある「+」ボタンから「Jina AI」ツールをインストールし、「Fetch Single Page」を追加します。
  2. 「APIキー認証設定」で準備セクションで用意したAPIキーを入力します。
  3. URL欄に「イテレーション [x]item Object」を選択します。

2. パラメータ抽出ブロック

このブロックは、Jina AIが取得した大量のWebサイトのテキストから、必要な情報(社名、設立年など)だけをピンポイントで抜き出し、指定したフォーマットに整理する役割を担います。

  1. Jina AIブロックに「パラメータ抽出」ブロックを作成し、繋ぎます。
  2. 任意のAIモデルを選択し、入力変数には「[x]text String」を選択します。
  3. 「パラメーターを抽出」欄に今回抽出したい項目を追加していきます
  • ompany_name (企業の正式名称)
  • founded_year (企業が設立された年)
  • genre (企業の事業ジャンル)
  • summary (企業の事業内容の日本語要約)

3. コードブロック②

こちらは、抽出したデータをスプレッドシートに書き込むために、「どの行に書き込むか」を計算し、APIが受け取れる形式(JSON)に整形するブロックです。ループの回数(index)を使って、2行目、3行目…と書き込み位置をずらしていきます。

  1. 入力変数欄に前項目で設定した値と変数を設定します。
  2. コード欄に下記Pythonコードを入力します

import json

def main(**kwargs):

loop_index = kwargs.get(‘loop_index’, 0)

company_name = kwargs.get(‘company_name’, ‘N/A’)

founded_year = kwargs.get(‘founded_year’, ‘N/A’)

genre = kwargs.get(‘genre’, ‘N/A’)

summary = kwargs.get(‘summary’, ‘N/A’)

row_number = loop_index + 2

range_string = f”Sheet1!B{row_number}”

values_to_write = [[

founded_year,

genre,

company_name,

summary

]]

final_data_object = [{

“range”: range_string,

“values”: values_to_write

}]

return {“result”: json.dumps(final_data_object)}

  1. 出力変数は「Array[Object]」を選択します。

4. BATCH UPDATEブロック

整形されたデータを受け取り、実際にGoogleスプレッドシートの指定されたセルへ書き込みを実行するブロックです。このブロックが完了することで、1社分のリサーチが完了します。

  1. 「Spreadsheet ID」欄に作業用のスプレッドシートIDを貼り付けます。
  2. 「Data」欄に直前の「コードブロック②」の変数を選択します。

作業ステップ4:ワークフローの実行と結果の確認

すべてのブロックの設定が完了したら、いよいよ自動化の実行をする時です。まずは画面右上の「公開」ボタンを押し、これまでの作業を忘れずに保存してください。次に、画面左上の「概要」タブへ移動し、「実行」ボタンをクリックすればワークフローが開始されます。

処理が始まると、各ブロックが順番に実行されていく様子がリアルタイムで表示されます。すべてのブロックが緑色のチェックマークと共にエラーなく完了すれば成功の証です。スプレッドシートを開いてみると、A列に入力したURLの横、B列以降に、AIが抽出した企業情報が一行ずつ、書き込まれているはずです。

ビジネスにおける多様な活用シーン

この自動リサーチシステムは、様々なビジネスシーンで強力な武器となります。例えば、有望な投資先となりうる海外のスタートアップを発掘したり、競合他社や特定市場の動向を継続的に調査したりする際に、その真価を発揮するでしょう。

海外の最新ビジネストレンドを迅速に把握したり、多言語のWebサイトから情報を収集して日本語のレポートを自動作成したりといった用途にも応用可能です。これまで数時間、あるいは数日かかっていたリサーチ業務を、わずか数分で完了させることが可能になります。

まとめ|面倒なリサーチはAIに任せ、創造的な仕事に集中しよう

今回は、Difyのワークフロー機能を活用することで、「URLの取得」から「AIによる情報抽出と要約」、そして「スプレッドシートへの保存」という一連のプロセスを完全に自動化し、海外企業リサーチの生産性を飛躍的に向上させる方法をご紹介しました。

この仕組みを導入することによって、私たちは煩雑で時間のかかる情報収集作業から解放され、より付加価値の高い「分析」や「戦略策定」といった、人間にしかできない創造的な業務にリソースを集中できるようになります。

この記事が、あなたのビジネスを加速させるための一助となれば幸いです。ぜひ、あなたの手で、この強力な自動化ワークフローを完成させてみてください。

CONTACT

株式会社TWOSTONE&Sonsグループでは
60,000人を超える
人材にご登録いただいており、
ITコンサルタント、エンジニア、マーケターを中心に幅広いご支援が可能です。
豊富な人材データベースと創業から培ってきた豊富な実績で貴社のIT/DX関連の課題を解決いたします。

  • コンサルティング対応
    コンサルティング
  • 内製化支援・人材紹介・派遣対応
    内製化支援・人材紹介・派遣
  • 受託開発対応
    受託開発

幅広い支援が可能ですので、
ぜひお気軽にご相談ください!