OpenAI、ウェブクローラー「GPTBot」を公開。ChatGPTにデータをクロールされない方法を提供

2023年08月09日 12時00分更新

　OpenAIは8月、「GPT-4」および「GPT-5」のような将来のAIモデルのトレーニングデータを収集するための新しいウェブクローラー「GPTBot」を発表。あわせてデータをクロールさせない方法も公開した。

「robot.txt」またはIPアドレスを利用してブロック

　OpenAIによると、GPTBotユーザーエージェントでクロールされたウェブページは、将来のモデルを改善するために使用される可能性があり、ペイウォールアクセスを必要とするソース、個人を特定できる情報を収集することが知られているソース、またはOpenAIのポリシーに違反するテキストを持つソースを削除するためにフィルタリングされるという。

　GPTBotを完全にブロックするには、ディレクトリ内の「robots.txt」に以下のコードを追加する。


User-agent: GPTBot
Disallow: /

　また、下記のようにサイト内の特定のディレクトリーを対象にクロールの可不可を指定することも可能だ。


User-agent: GPTBot
Allow: /directory-1/
Disallow: /directory-2/

　さらに、OpenAIが使用するIPアドレスも公開されているので、IPアドレス単位でクロールを防ぐこともできる。

過去にクロールされたデータは取り戻せない

　OpenAIのGPT-4やGoogleのPaLMといった大規模言語モデルはインターネット上のデータをクローリングすることでトレーニングデータを取得するが、その取得先は公開されておらず、法整備が遅れていることもあり議論や訴訟の要因となっている。

　今回OpenAIによるデータのクローリングを防ぐ方法が提供されたことにより、少なくとも最低限の防衛は可能になったが、過去に遡及して学習データから外すことはできない。

　OpenAIはGPTBotのアクセスを許可することによって「AIモデルがより正確になり、一般的な能力と安全性を向上させることができる」としている。

■関連サイト

この記事をシェアしよう

週刊アスキーの最新情報を購読しよう

Follow @weeklyascii

カテゴリートップへ

本記事はアフィリエイトプログラムによる収益を得ている場合があります

Tweets by weeklyascii

OpenAI、ウェブクローラー「GPTBot」を公開。ChatGPTにデータをクロールされない方法を提供

「robot.txt」またはIPアドレスを利用してブロック

過去にクロールされたデータは取り戻せない

この記事の編集者は以下の記事をオススメしています