大局観がなくなるディープラーニングの学習方法に壁
――Ponanzaのディープラーニングは今どの段階にあるのでしょう。
山本氏:最初にやったのは、教師ありディープラーニングです。Ponanzaは、古典機械学習の教師あり学習をやって、そのあとに教師なし学習をやっているですが、今はPonanzaどうしの棋譜を使って教師ありディープラーニングをやりました。そうしたら、次は教師なしディープラーニングかな、という話がありますよね。ただ、それはわかりません。AlphaGoはここをやっていますね。でもそれが正統進化なのかはわかりません。囲碁の場合はそういう進化をしていきました。
――AlphaGoは段階的に使っていったんですか?
山本氏:論文的には、段階的にやっていったことになっています。ただ、現実的には紆余曲折を経たと思います。意外と苦労しているような感じなので、論文は実際のシナリオと違うことがあるのでわからないですね。
――で、Ponanzaの棋譜を教師としてディープラーニングに入れていったと。
山本氏:どうしてかっていうと、Ponanzaの棋譜が、性能性質的にいいだろうと言うのもあったのですが、何しろ数が足りなくて。プロの棋譜だと500万程度しか揃わないので、まったく足りないですね。
――ディープラーニングって学習データの数が重要だといいますもんね。
山本氏:データの質・量ともに途方もない量を要求しますね。だから質・量ともに揃っている自己対戦の棋譜を使いましたね。5億局面使いました。コレはかなり、大紅蓮丸様(ASCII編集部ジサトライッペイの所有する自作PC)にお世話になっていると思います。500万から600万の試合の中から重複を除いた局面が5億ペアぐらいあったので。
――ちなみに、画像として学習させるんですよね。
山本氏:そうですね、コンボリューション・ニューラルネットワークとして使っています。
――そういうときって、学習中にCPUって使ってます?
山本氏:いや全然。2つ使うのは難しくて、GPUは1つ張り付いても、CPUは暇ですね。学習で2つ使うのは、そんなに自明ではありません。GPU間の情報を相互にコミュニケーションすればいいのかということは、少なくとも半年前は自明ではありませんでした。最近は同一マシン間の複数GPUの使い方とかが、すごいライブラリでサポートされていたり、あるいは同一ノード間をInfiniBandで繋いだときに、というものが出てきていますね。
――ディープラーニングで画像を扱うからGPUの性能が必要というわけですね。それはGPUの性能が上がればこの教師あり学習の処理段階が速くなります。プログラムとして強くなるのとは別ですか?
山本氏:強くはなりますけど、どちらかと言うとやっぱりさっきも言ったように、その場の推論よりも事前の学習のほうがより巨大なエネルギーが必要になるから、もちろん量も必要ですけど、別に何百万あっても困らないですよ(笑)。
――それは推論とは違うわけですよね。
山本氏:それは、テスト勉強と実際のテストの関係と同じですね。もちろん、テスト勉強中も細かい推論はしているわけですよ。解答を書いていて、その解答との誤差を減らしているわけですから。ちなみに、推論するときのほうが安く計算できるんです。いろいろなテクニックがあって。
――ディープラーニングの強化学習ってどうなるんですか?単純に考えると、ディープラーニングで教師あり学習したPonanzaどうしが対戦するのかなと思うんですが。
山本氏:実は、それをやったんですよ。あるいは、Ponanzaの2手読みと戦わせてみました。ディープラーニング版のほうが勝てるようになったんですけど、どうもなんていうか弱くなった印象です。いや、強くはなったんですけど、大局観的な手が出なくなったんです。これはAlphaGoの論文でも触れていて、教師あり学習したあと強化学習したけど、強化学習のほうはどうも強いけど「せこい」んですよ。おおらかな手でなくなるんです。気持ちが小さい手になるんです。
――でもそれって人間の評価ですよね。
山本氏:でも実際に実用引用するときは、なかなかどう使うか難しくて、結構AlphaGoは教師あり学習と強化学習をひねった使い方をしているんですけど、おそらくより大域的なところを調べなきゃいけないときは、ディープラーニングの教師あり学習を使うのが良さそうですね。つまり、直接すぐ単純な利益を取ろうとせずに、もっと大局観的な手を選ぶには。これは結構悩ましくて、コンピューターも残りの探索の深さによって選ぶ手がちょっと変わってきていて、小さい時は小さい利益を確定するほうが良くて、大きい時はおおらかな手を選ぶといいんです。
――目先の大駒を取ってしまうか、先の展開を見据えてあえて取らないという感じですか?
山本氏:なんかそういうのがあるらしくて、これが「強化学習の闇」なんですよ。このあたりが単純に良くなったから強くなったわけじゃないっていうのが頻発するんですね。つまり言ってしまうと相性問題なんですよ。相性が出てきてかなり難しくなってきてます。
――ショートデュレーションを取るか、ロングデュレーションを取るみたいな性格の違いが出てくると?
山本氏:実用引用のときは、ロングのほうが強かったりするけど、ロングはショートに勝てなかったりして、なかなか難しいですね。
――電王戦の記者会見で、「コンピューター将棋はバランスをとって指している」と言うのを聞いて、合点がいきましたね。▲6八金右と寄ったとたん、すべてのコンピューターの評価値が一気に下がりましたから。
山本氏:まず言えることは、人間はそのへんの機微はあまりわからないんです。コンピューターはわかっているみたいで、(我々には)見えていないものが見えています。我々にはほとんど、少なくともコンピューター将棋を触れる以前の人類には、わからなかった機微を理解しています。今の新人類や今後伸びてくる世代の人は見えてくるかもしれませんが、昔の人類には区別は不可能でした。
――コンピューター将棋で、学習している棋士さんも増え始めましたよね。新しい定跡が生まれつつあるという。人間の進化にも寄与していますよね。
山本氏:昔はコンピューター将棋がプロ棋士の知識を取り入れていましたが、現在は逆にプロ棋士が知識を取り入れていますよね。
山本さんが目指す人工知能とは
――山本さんは将棋ソフトの作成は一段落ついた感じですが、今後どうするんですか?
山本氏:それはヤバイ。何しよう。このままいくとニートですよ(笑)。結構真剣に考えていて、どうしようかなと思っていて。いくつか案はあるんですが、時代にマッチングしたものか情熱を注げるものの2択じゃないかと思っています。AIに関することを続けることは決まっていますが、その中のどこへ進んでいくのか。
――そこに将棋はもうないわけですね?
山本氏:将棋はもういいでしょう(笑)。大切な役割は終わりました。
――ディープラーニング版のPonanzaを作って、それでより強いものを目指すのかなと思っていました。
山本氏:ディープラーニングの勉強としてはいいので、ちょくちょくやるかもしれません。ただ、コンピューター将棋が主軸になことはありません。逆に言うと、もっと自分のことを信じていて、こんなんじゃ終わらないと思っているんですよ。これぐらいで終わったらマジでまずいと思っていて。何ひとつ成功していないじゃないですか。
――世間一般から見れば名人も倒しましたし、成功したと思いますが。
山本氏:何もできていないですよ。
――半年後、羽生三冠と対局できますよと言われたらどうします?
山本氏:そうなったらやらなくもないですけど、別に今の状態でも勝てると思っていますから。もう(プロ棋士でも)勝てないですよ。また、人工知能がめちゃめちゃ強いんだと大騒ぎするのも人工知能らしくないかなと思っています。本来ならば人工知能とかAIっていうのは人の裏に立って、こっそり支援するものなので。ただ、たまたま将棋というルールがあって、勝敗が明確に決まって、誰でもどういう存在であれ互角に戦えるという意味で、すごい人工知能のランドマーク的なものなので、すごく良かったんですね。その役割自体は終わったと思っています。ここまでこれましたというのと、「これからの若者はAIの時代だ」と言ってあげることが大事な仕事です。コンピューター将棋を挙げるとすれば。
――ここまで将棋ソフトの開発に取り組めたのは、電王戦のおかげだったりします?
山本氏:もちろんそうですね。あとは、ライバルがたくさんいたことです。人間ではなくてコンピューター将棋ソフトの開発者が。コンピューター将棋の人たちは、みなさんもそうだと思いますよ。逆に言うと、そういう大会がなかったら今でも初段ぐらいのレベルで「人間強い」なんて言ってましたよ(笑)。いやほんとに。
――AIのなかで一番興味のある分野は?
山本氏:AIを活用する分野では、まだできないことなんですが、現在の実力ではできない前提で言うと、例えばシンギュラリティー(技術的特異点)の話がありますよね。シンギュラリティーってどう実現するのか、私にはまったくわかれませんが、すごく大事なことは、今のAIができないのは論理的な文章を書くことなんですよ。論理的な文章の極みの1つはプログラムです。プログラムを書くプログラムができるようになることは、すごく大事なことだと思っています。コードを書くためにコードを書く入れ子状態ですね。
雑な話をすると、凄まじいものや強いものは、自分自身が入れ子構造になっている必要があります。いかに自分自身で自分自身を強化できるかっていうことがすごく大事で、多分現象としてはどういうプログラム言語で書くのか、あるいはプログラム言語なのかわかりませんが、なにかしらそういう形になるでしょう。人間から見たらいまはピヨピヨです。ソートができるかという話とか、プログラムのコードを入れてプログラムの結果を予想するというのがあって、当たるんですけどコンパイルしろよ!みたいな(笑)。すごいっちゃすごいですよね。いままで文字列を突っ込んで、出力を予想するなんてできませんでしたから。これが完成すると、プログラムが書けるようになるということで、本当に凄いですよ。
――プログラマーが要らなくなるんじゃないですか、それは。
山本氏:そんな小さい話では収まらなくなりますね。
――ターミネーターやマトリックスといった映画の世界の話になりますね。
山本氏:プログラムを書くプログラムというのはものすごく興味があります。
――それは、生きているうちに実現するようなものですか?
山本氏:できると思いますよ。長生きすることがおすすめです(笑)。(シンギュラリティーは)2045年とか2029年という説もありますが、どんなに悲観的に見ても、21世紀中には人間の科学の発展が続く限り、余裕で到達できると思います。だってコンピューターが生まれてまだ70年ですよ。21世紀が終わるまでまだ80年もあります。
人類を超えたPonanza、山本氏の次なる人工知能開発に期待
山本一成氏がコンピューター将棋ソフトから一歩身を引くというのは、これまで電王戦を見続けてきた筆者としては大変寂しいが、人工知能を研究し続け、今までにないものを生み出すというのも非常に興味深い。それが我々の目に触れるものなのか、はたまたいつの間にか実装されていて活用されているのか、使っているソフトは、実は人工知能でつくられていた、なんてことになるのかまったく予想はつかないけれど、将棋ソフトをここまで高めた実績を鑑みれば、そう遠くない未来に、また山本さんの名前が世に知れ渡ることでしょう。
週刊アスキーの最新情報を購読しよう
本記事はアフィリエイトプログラムによる収益を得ている場合があります