米マイクロソフトは1月18日、研究開発中の画像生成AIに関するエントリーを公式ブログで公開した。
ブログでは研究者が「the drawing bot(描画ボット)」と呼んでいるAIに言及。テキストからイメージを生成する機械学習モデルと、生成されたイメージとテキスト記述を照合しての信頼性を判断するもう1つのモデルをセットで運用する「Generative Adversarial Network(GAN)」を中核にしているという。
画像イメージと文字キャプションがペアになったデータセットで精度を上げてきたというこのAIは、単語を視覚的に表現することが可能。エントリーでは「黄色い体」「黒い翼」「短いくちばし」という単語で生成された小鳥の画像を披露している。
単語から特徴を捉えてイメージ化するという人間の描画ルーティンを、このAIでは数学的に再現。入力テキストを個々の単語に分割し、それらの単語を画像の特定の領域にマッチングさせる、という「人間の注意の概念」を「数学的に表す注意GAN(AttnGAN)」として実装したとする。
同時に“常識”と呼ぶべき基礎知識の習得に関するアルゴリズムも再現。これは指示にない基礎的な情報の補完に用いるもの。例えば、訓練データ中の鳥の多くの画像は樹木の枝に座っているので、AttnGANにおける通常の鳥は「枝に座っているもの」と認識している。
同社によると今のところ技術は不完全。複雑な指示や画像の精密な検査では、生成された画像が不自然だったり、生成そのものに問題が発生したりするという。それでもAttnGANによる画像の品質は「従来のクラス最高のGANに比べて3倍近く改善されている」と同社は主張。テキストから画像を生成するこのような技術は、画家やインテリアデザイナーのスケッチアシスタントなどに活用できるほか、音声認識による写真の洗練ツールとしても役立てられるとしている。
週刊アスキーの最新情報を購読しよう
本記事はアフィリエイトプログラムによる収益を得ている場合があります