“常識”を学習するアルゴリズムも搭載

「黄色い羽」「短いくちばし」で鳥の絵を生成――マイクロソフトのAI

2018年01月19日 20時40分更新

　米マイクロソフトは1月18日、研究開発中の画像生成AIに関するエントリーを公式ブログで公開した。

　ブログでは研究者が「the drawing bot（描画ボット）」と呼んでいるAIに言及。テキストからイメージを生成する機械学習モデルと、生成されたイメージとテキスト記述を照合しての信頼性を判断するもう1つのモデルをセットで運用する「Generative Adversarial Network（GAN）」を中核にしているという。

　画像イメージと文字キャプションがペアになったデータセットで精度を上げてきたというこのAIは、単語を視覚的に表現することが可能。エントリーでは「黄色い体」「黒い翼」「短いくちばし」という単語で生成された小鳥の画像を披露している。

「黄色い体」「黒い翼」「短いくちばし」で生成された小鳥のイメージ

　単語から特徴を捉えてイメージ化するという人間の描画ルーティンを、このAIでは数学的に再現。入力テキストを個々の単語に分割し、それらの単語を画像の特定の領域にマッチングさせる、という「人間の注意の概念」を「数学的に表す注意GAN（AttnGAN）」として実装したとする。

　同時に“常識”と呼ぶべき基礎知識の習得に関するアルゴリズムも再現。これは指示にない基礎的な情報の補完に用いるもの。例えば、訓練データ中の鳥の多くの画像は樹木の枝に座っているので、AttnGANにおける通常の鳥は「枝に座っているもの」と認識している。

　同社によると今のところ技術は不完全。複雑な指示や画像の精密な検査では、生成された画像が不自然だったり、生成そのものに問題が発生したりするという。それでもAttnGANによる画像の品質は「従来のクラス最高のGANに比べて3倍近く改善されている」と同社は主張。テキストから画像を生成するこのような技術は、画家やインテリアデザイナーのスケッチアシスタントなどに活用できるほか、音声認識による写真の洗練ツールとしても役立てられるとしている。

■関連サイト

この記事をシェアしよう

週刊アスキーの最新情報を購読しよう