AIは産業革命レベルの技術になる?：

マイクロソフトが「OpenAI」に巨額を投じる理由

2023年01月24日 18時00分更新

　1月初旬、マイクロソフトがチャットボットAI「ChatGPT」や画像生成AI「Dall-E2」の開発で有名なOpenAIに100億ドル（約1兆2800億円）の投資をする可能性が報じられました。1月24日には同社から継続投資に関する発表もありましたが、報じられた金額の大きさに驚いた方も多いのではないかと思われます。

https://www.bloomberg.co.jp/news/articles/2023-01-23/ROXZ7KDWX2PT01

　今回の記事ではマイクロソフトが今回のような巨額投資をする程にOpenAI、ひいては「AI技術への期待値をなぜ今抱いているのか？」を理解するために、「現状のAI発展トレンドを俯瞰する」ことで考えてみたいと思います。

　結論から言えば、マイクロソフトはOpenAIとの関わりの中で、「指示待ち人間レベル（≒proto-AGI）の知能がほんの数年以内に実現し、現状のAI技術は控えめに言っても産業革命レベルの技術になる」ことを確信したものと思われます。

次世代のAIは「指示待ち人間レベル」になる

　ここでproto-AGIという言葉は掲示板型ソーシャルニュースサイトRedditにて2021年11月頃使われ始めた言葉で、「機能が広いドメインに分散しているコンピューターシステムまたはモデル」として定義されています。

https://www.reddit.com/r/singularity/comments/uaj496/we_are_very_close_to_protoagi_in_fact_it_may_be_a/

　大まかに言えば、マルチモーダル（言語、音、映像、アクションと言った幅広いドメイン）でそこそこ広いタスクを実用的にこなせるAIと言えるでしょう。

　しかし、AGI（汎用人工知能）というにはすべてのタスクで人間レベルには至っていない（自己改善能力はないなど）という意味で、AGI未満の知能と言えます。よって、proto-AGIはある特定のタスクのみをこなすAI（狭いAI）と人間レベルの知能を真に持つ（定義は難しいですが）AGIの中間に位置する知能ということができるでしょう。

　個人的にはproto-AGIは指示されたことについてはそこそこ何でもやってくれるが、自己改善能力などは無い知能とほぼ同義だと考えているため、「指示待ち人間レベル」という表現を使わせていただいています。

2022年夏ごろからジェネレーティブAIが急速に発展した

　AIトレンドに敏感な方ならご存知のように、2022年夏頃からジェネレーティブAI（生成AI）と呼ばれる技術の発展と実装が急速に展開しています。

　ジェネレーティブAIの定義は、ガートナーが発表した2022年のテクノロジートレンドに遡ると「コンテンツやモノについてデータから学習し、それを使用して創造的かつ現実的な、まったく新しいアウトプットを生み出す機械学習手法」。

https://www.gartner.co.jp/ja/articles/5-impactful-technologies-from-the-gartner-emerging-technologies-and-trends-impact-radar-for-2022

　ジェネレーティブAIは、

画像（Stable diffusion）
テキスト(ChatGPT)
ソフトウェアコード(Copilot)
動画(Phenaki)、音楽(Mubert)
音声(VALL-E)
3Dオブジェクト(DreamFusion)

　など、さまざまな種類の新規コンテンツを生成可能で、その応用先も応用サービスの数も爆発的に増えている状況です。

　ASCIIの記事でも以下順に、画像生成AIとChatGPT(チャットボット)について紹介がされています。

https://ascii.jp/elem/000/004/107/4107997/
https://ascii.jp/elem/000/004/120/4120502/

AIツールは同時的に進化している

　メディアやSNSでは主に前述したジェネレーティブAIの状況が取りざたされることが多くなっていますが、他にも今後、世界の産業構造を変えるタネとなるようなAI技術が多く発表されています。特に進展が著しいのが「マルチモーダルAI」です。

視覚言語モデル（Flamingo、PaLI）
映像基盤モデル（VideoCoca,、lavender、InternVideo）
自然言語で指示可能なロボット（Saycan、RT-1、VIMA）
様々なゲームやロボット操作や対話も可能なGenerarlist Agenet Gato

　など複数ドメインにまたがった幅広いタスクを実行できるAIのことで、2022年から技術開発が盛んになってきています。

　一方で自然言語処理も躍進を続けており、たとえばグーグルの開発したMed-PaLMは前者は臨床医に肉薄する専門的な回答ができるようになり、Minervaはポーランドの全国数学試験で平均点以上をマークしました。

Med-PaLM performs encouragingly on several axes such as scientific and clinical precision, reading comprehension, recall of medical knowledge, medical reasoning and utility compared to Flan-PaLM. pic.twitter.com/syExjsIsqO
— Vivek Natarajan (@vivnat) December 27, 2022

🦉 achieves:

1) 50% acc on the challenging MATH dataset which consists of competition math problems!

2) 65% acc in 2022 Poland’s National Math Exam which is more than the national average!

3) 30% acc on “undergrad” problems in physics, biology, chemistry, economics, etc.

2/ pic.twitter.com/sJjEFLsLwC
— Behnam Neyshabur (@bneyshabur) June 30, 2022