第473回

目的は単に勝つことだけじゃない、グランツーリスモ・ソフィーはお互い学び成長できる

2022年02月28日 09時00分更新

独自の深層学習手法は、AIの進化としても注目

　グランツーリスモ・ソフィーの開発成果については、科学誌Natureにも論文が掲載されAIの大きな進化のひとつとして注目されている。

　開発においては、新たな深層強化学習アプローチと新たなプラットフォームを構築した点が特徴だ。

　深層強化学習の手法を用いて、車のスピードや加速、コースの境界線、対戦相手との位置関係、進行状況などの環境を把握。これらの情報をもとにアクセル、ステアリング、ブレーキの状況を学習し、相手を追い越したときなどはプラスのシグナルとして与え、正しくないラインを走っているときなどはマイナスのシグナルを与えることを繰り返したという。

　また、大規模な訓練を実施するために、グランツーリスモSPORTのインスタンスを多数実行できる分散型強化学習プラットフォームを開発。同時並行でグランツーリスモSPORTをプレイして、学習を繰り返したという。

　ソニー・インタラクティブエンタテインメントフィーチャーテクノロジーグループのウーリー・ガリッツィシニアバイスプレジデントは、「通常のAIシミュレーションではモデルを作成し、実行するが、この作業に、多くの手間と時間がかかる。だが、グランツーリスモ・ソフィーでは最先端の学習アルゴリズムやトレーニングシナリオなどを含む、ソニーAIが開発した新たな深層強化学習技術により、何万通りものシミュレーションを同時に実行できるようになった。これを実行するために、SIEは全世界に広がる大規模クラウドゲームインフラを活用した最先端の環境を提供し、シミュレーションを簡単に実行できるようにした。これにより、世界トップレベルのゲームAIエージェントを育て上げ、世界屈指のプレイヤーと競い合わせることができた」とする。

　ソニーAIのシュプランガーCOOによると、何も学習していないAIエージェントが、コースを周回できるようになるまでに1日かかり、グランツーリスモSPORTのドライバーのトップ5%の水準に入るまで2日間かかるという。さらに、世界トップクラスのドライバーになるには10～12日間の学習が必要になる。「その間、グランツーリスモ・ソフィーは、30万kmを走行することになる」という。

　コースや車体の違いごとに学習する必要があり、その組み合わせを考えると、すべてのコース、車両で世界トップクラスになるには、それなりの時間がかかりそうだ。

この記事をシェアしよう