週刊アスキー

  • Facebookアイコン
  • Twitterアイコン
  • RSSフィード

OpenAI、ウェブクローラー「GPTBot」を公開。ChatGPTにデータをクロールされない方法を提供

2023年08月09日 12時00分更新

 OpenAIは8月、「GPT-4」および「GPT-5」のような将来のAIモデルのトレーニングデータを収集するための新しいウェブクローラー「GPTBot」を発表。あわせてデータをクロールさせない方法も公開した。

「robot.txt」またはIPアドレスを利用してブロック

 OpenAIによると、GPTBotユーザーエージェントでクロールされたウェブページは、将来のモデルを改善するために使用される可能性があり、ペイウォールアクセスを必要とするソース、個人を特定できる情報を収集することが知られているソース、またはOpenAIのポリシーに違反するテキストを持つソースを削除するためにフィルタリングされるという。

 GPTBotを完全にブロックするには、ディレクトリ内の「robots.txt」に以下のコードを追加する。


User-agent: GPTBot
Disallow: /

 また、下記のようにサイト内の特定のディレクトリーを対象にクロールの可不可を指定することも可能だ。


User-agent: GPTBot
Allow: /directory-1/
Disallow: /directory-2/

 さらに、OpenAIが使用するIPアドレスも公開されているので、IPアドレス単位でクロールを防ぐこともできる。

過去にクロールされたデータは取り戻せない

 OpenAIのGPT-4やGoogleのPaLMといった大規模言語モデルはインターネット上のデータをクローリングすることでトレーニングデータを取得するが、その取得先は公開されておらず、法整備が遅れていることもあり議論や訴訟の要因となっている。

 

 今回OpenAIによるデータのクローリングを防ぐ方法が提供されたことにより、少なくとも最低限の防衛は可能になったが、過去に遡及して学習データから外すことはできない。

 OpenAIはGPTBotのアクセスを許可することによって「AIモデルがより正確になり、一般的な能力と安全性を向上させることができる」としている。

■関連サイト

この記事をシェアしよう

週刊アスキーの最新情報を購読しよう