米国版プライバシーポリシーを更新も日本版には言及なし

グーグル、AIモデル学習のため「ウェブ上の全情報を使う」米国版のポリシー変更

2023年07月05日 18時10分更新

　グーグルは7月1日（現地時間）、個人情報の扱いを詳細に規定したプライバシーポリシーを改定した。

　グーグルはこれまで「Google翻訳」の機能向上などのためにインターネット上で公開されている情報を収集し利用してきたが、今回の改定で大規模言語モデル「Bard」をはじめとするAIモデルのトレーニングにも利用するという条項が追加された。ただし、現在のところ日本語版のプライバシーポリシーには記載されていない。

収集データの使い道に「Bard」などAI製品のトレーニングを追加

　上記の画像は最新のプライバシーポリシーの中の「publicly accessible sources（一般に公開されている情報源）」の定義の部分だ。ピンクのアンダーラインは削除された、緑のアンダーラインは追加された文言になる。

　これまでは「言語モデルのトレーニングやGoogle翻訳」だけだった、収集データの使い道に「Bard,クラウドAI製品の構築」が追加されているのがわかる。

Twitterはスクレイピングを理由に閲覧制限

　このようにインターネット上に公開されている情報を機械的に収集する行為はスクレイピングまたはクローリングと呼ばれ、グーグルに限らず多くの企業が市場調査やデータ分析などを目的に行っている手法だ。

　近年はトレーニングのために大量のデータを必要とするAI、特に大規模言語モデルのトレーニングを目的に、グーグルだけではなく他の企業もスクレイピングしたデータを利用している。

　だが、スクレイピングはサーバーに大量のリクエストを一度に送るため大きな負荷がかかるという問題がある。Twitterが閲覧に制限を設けたのは（イーロン・マスク氏いわく）スクレイピング対策が理由だ。同様の理由で掲示板型コミュニケーションサービスの「Reddit」もAPI経由の無料アクセスを無効にしている。