グーグルは2月1日(現地時間)、Google DeepMindの最新画像生成モデル「imagen 2」を使用し、プロンプトから画像を生成できるツール「ImageFX」をリリース。同時に既存の生成AI作成ツール「MusicFX」と「TextFX」もリニューアルした。現在、米国、ニュージーランド、ケニア、オーストラリアで利用可能となっている。
プロンプトを工夫しやすいインターフェイス
グーグルは同日、チャット型AI「Bard」にもimagen 2を使用した画像生成機能(現在プロンプトは英語のみ)を追加しているが、ImageFXは画像生成に特化したUIで、Bardよりもクリエイティブな利用が想定されているようだ。
特徴的なのは、様々なプロンプトを素早く試せる「expressive chips(表現豊かなチップス)」と呼ばれる機能。
まずは「Photoreal Portrait of a woman taken on a 35mm film camera. Naturalistic. Street Photograph(女性のフォトリアル・ポートレート。35mmフィルムカメラで撮影。自然な感じのストリートフォト...)」というプロンプトで生成。
すると冒頭の「Photoreal(写実的)」というプロンプトに代わり、「Hand Draw(手描き)」「Abstract(抽象画風)」「Impressionist(印象派風)」といった候補が表示される。
「Hand Draw」を選ぶと、他の条件はそのままに画風だけが手描き風に変更された。
右下のアイコンをクリックすることで、プロンプトはもちろんシード値(生成結果を再現できる乱数)まで確認できるようだ。
「MusicFX」と「TextFX」も改良
テキストプロンプトから最大70秒の曲を作れる「MusicFX」と、テキストと言語による創造的な可能性を探求する作詞家向けの「TextFX」の2つの既存AIツールにも、ImageFXの「expressive chips」のような機能が追加されるなど改良が施されている。
生成物にはSynthIDによる電子透かしが
グーグルは同社のAI原則に従い、トレーニングデータの安全性に大規模な投資をしている。暴力的、攻撃的、または性的に露骨なコンテンツのような問題のある出力を制限する技術的なガードレールや、特定の個人の画像を生成するリスクを減らすためのフィルターを適用している。さらに潜在的に有害で問題のあるコンテンツを特定し、軽減するための広範な敵対的テストも実施しているとのこと。
また、ImageFXとMusicFXで生成されたすべての画像や曲は、Google DeepMindによって開発された「SynthID」によって、人間の目や耳には知覚できないが、識別のために検出可能なデジタルウォーターマーク(電子透かし)が施されるという。
週刊アスキーの最新情報を購読しよう
本記事はアフィリエイトプログラムによる収益を得ている場合があります