週刊アスキー

  • Facebookアイコン
  • Twitterアイコン
  • RSSフィード

AIは産業革命レベルの技術になる?:

マイクロソフトが「OpenAI」に巨額を投じる理由

2023年01月24日 18時00分更新

文● bioshok 編集● ASCII

世界に衝撃を与えたOpenAIの「GPT-3」

 一方で、マイクロソフトは現在のAIトレンドだけでなく、少なくとも数年先のAIトレンドを見据えてOpenAIへの投資を検討したものと推察できます。ここからは今後のAIトレンドについて、特に「言語モデル」を中心に推測していきましょう。

 なぜ言語モデルかといえば、1つは言語がすべてのモーダルに共通するインターフェースになると考えているためです。また、言語モデルの能力が上がれば、他のモーダルとの連携が強化され、AIの能力も上がるものと考えられるためです。そこでOpenAIの言語モデル「GPT」シリーズに焦点を当てたいと思います。

 GPTは、OpenAIが開発した「Transformer」というアルゴリズムを備えた言語モデルの一種です。自然言語文を言語モデルに入力すると、次に入るだろう文章を予測して多様な返答を出力します。OpenAIは2019年に「GPT-2」、2020年に「GPT-3」というバージョンをそれぞれリリースしてきました。パラメーター数は、GPT-2が15億、GPT3が1750億(大規模言語モデル)となっています。

 GPT-2はフェイクニュース作成に利用される恐れから、モデル公開が一時中止されたことなどが話題になりましたが、GPT-3はモデルの規模と学習データ量を拡大することでその能力を飛躍させています。会話だけでなく、翻訳、コード生成、質問応答、要約などの幅広いタスクを、GPT-2以上の性能で実行可能になりました。

 GPTシリーズが出る前まで、自然言語処理の分野では基本的に、大量の教師なしデータで事前学習をしておいて、やりたいタスク(分類、翻訳、要約など)に応じて微調整(再学習)をする必要がありました。

 しかし、GPTシリーズでは「one-shot,few-shot learning」と呼ばれる、質問や回答例を直接言語モデルに入力するだけで様々なタスクができるようになりました。具体的なGPT-3の衝撃を知るには以下の記事や、GPT-3使用例が参考になるでしょう。

https://deeplearning.hatenablog.com/entry/gpt3
https://airtable.com/shrndwzEx01al2jHM/tblYMAiGeDLXe35jC

 この大規模言語モデルの衝撃は「GPT-3以前・以後」で分けられるほど強いものでした。このトレンドは2021年に、Bommasaniらのスタンフォード大学のワーキンググループに「基盤モデル(foundation model)」と命名されています。

https://trail.t.u-tokyo.ac.jp/ja/blog/22-12-01-foundation-model/

計算リソースとデータ量が増えるほど性能が上がる「Scaling Law」

 それでは今後、言語モデルの性能をGPT-3以上にどこまで伸ばしていけるのかを考えたいと思います。結論から言えば、2023年以降に開発される言語モデルはGPT-3と同等の驚きをもたらす可能性が高いでしょう(※ただし新モデルは「GPT-4」とは限らず、また2023年内に一般に提供されるとも限りません)。

 性能の外挿推定に使用したのは「Scaling Law(スケーリング則)」と呼ばれる法則。簡単に言えば、大規模言語モデルに関してデータ量とそのモデルのパラメータ数を同程度に増やしていけば、性能もべき乗的に上がっていくという法則です。

Scaling Lawに基づく、言語モデルの計算リソースと「驚きの大きさ」の関係をあらわしたグラフ。GPT-2からGPT-3、GPT-3から次世代言語モデルは同等の驚きがあると予測できる

 図の横軸は言語モデルの学習に費やした計算量を意味します。データ量とパラメータ数が増えるほど学習に必要な計算量FLOPSが増大し、それに伴い「Surprise」と定義される、性能に対するある種の「驚き」が上がることになります。

 以下言語モデルの性能を未来に外挿した拙著考察記事となりますので詳しく知りたい方はこちらをご覧ください。
https://futurist.cross-community.net/2023/01/01/estimate-ai-language-skills/

 もしScaling Lawを用いた言語モデル性能の外挿推定が正しければ、感覚的にはもう多くの人は言語処理でできるタスクなら、指示したらほとんど人間レベルにこなしてくれると感じる可能性が高いと思われます。

 すでにChatGPTは多くの人を驚かせる言語処理能力を保持していますが、まだ時折トンチンカンな推論をすることもあります(「幻覚(ハルシネーション)」と呼ばれています)。しかし、そうした欠点は学習データ量とパラメータ数の拡大によって目立たなくなるでしょう。

言語モデルの性能を上げる方法は他にもある

 また、今年1月には、幻覚を低減させる手法として、ドキュメントやデータベース、プログラムや電卓など外部のツールや知識を利用する手法も注目されました。言語モデルを外部のツールや知識に接続するための「LangChain」「GPT-Index」といったツールも普及を始めているため、幻覚は徐々に目立たなくなるでしょう。

https://langchain.readthedocs.io/en/latest/
https://gpt-index.readthedocs.io/en/latest/guides/index_guide.html

 さらに、人間の好みにあった出力をするように言語モデルを強化学習することも可能になってきています。強化学習を施された言語モデル「InstructGPT」は、13億パラメータにも関わらず、1750億パラメータのGPT-3よりもはるかに人間好みの文を出力するという結果を今年の1月に発表しました。他の自然言語処理タスクについても、パラメーター低下の影響は最小限だとしています。

https://openai.com/blog/instruction-following/

 言語モデルの能力を大幅に高める方法は他にも、

  • CoT(思考の連鎖:ステップバイステップで考えましょうとプロンプトで命令)
  • Self-consistency(複数解答を生成して多数決)

 といったメジャーな手法を始めとして、多数発見され続けています。

 このように、言語モデルは単純に計算リソースを上げること以外にも、様々な手法によって性能を改善することが可能になっています。AIや機械学習関連の論文自体、毎日100本以上が発表されると推定されているため、上記のような改善手法はこれからも多く出てくると考えられます。

この記事をシェアしよう

週刊アスキーの最新情報を購読しよう

本記事はアフィリエイトプログラムによる収益を得ている場合があります