第148回

アップル、AIモデル公開画像の理解力がすごい

2024年03月21日 07時00分更新

iPhoneは生成AIでどう変わる？

　アップルがマルチモーダル大規模言語モデル「MM1」を発表したというのは、非常に興奮するニュースですね。iPhoneやMacには画期的な新機能が追加されると予想します。特に、画像とテキストを理解する能力を生かした機能が期待できます。

　まず、iPhoneでは、カメラアプリが大きく進化するかもしれません。写真を撮影する際、MM1がその場の状況や対象を理解して、最適な撮影設定を自動で提案してくれたり、撮影後にはその画像の内容に基づいたキャプションを生成してくれる機能が加わる可能性があります。また、写真や動画の中の物体や人物を自動で認識し、それに関連する情報をリアルタイムで提供するような機能も考えられます。

　Macにおいては、ドキュメント作成やプレゼンテーションのサポート機能が強化されると予想します。例えば、MM1を活用してテキストを入力するだけで、その内容に合った画像やグラフィックスを自動で生成し、ドキュメントやスライドに組み込むことができるようになるかもしれません。これにより、レポート作成やプレゼンテーションの準備がよりスムーズに、そしてクリエイティブになるでしょう。

　さらに、iPhoneやMacの検索機能も大きく進化する可能性があります。MM1の画像理解能力を利用して、写真や動画の内容に基づいた検索が可能になり、例えば「あの日の海の写真」のような曖昧な検索クエリでも、意図した結果を瞬時に見つけ出すことができるようになるかもしれません。

　個人的には、MM1がGPT-4を凌ぐ性能、特に画像理解能力において優れているという点に興味があります。たとえば、好きなアニメのシーンを説明するだけで、その場面を想像力豊かに再現するイラストが生成されるなど、MacやiPadを使った創作活動においても革新的なツールとなってくれることを期待したいです。