週刊アスキー

  • Facebookアイコン
  • Twitterアイコン
  • RSSフィード

画像生成AI「DALL·E 3」の性能が凄まじい。これを無料で使わせるマイクロソフトは本気で競合をつぶしに来ている

2023年10月16日 07時00分更新

ついにChatGPTでもDALL·E 3が使えるように

 これと同時期に、月20ドルの有料課金で利用できるChatGPT Plusのユーザーを対象に画像解析機能が順次与えられるようになりました。「GPT-4V(ision)」ですね。

 たとえば筆者が開発しているゲームのキービジュアルを入力すると、何の画像か説明してくれて、どんな意味を持っているか文章化できるようになりました。「このデータをプロンプトにまとめてくれ」と言い、Bingチャットに持っていくと、それっぽいものを出してくれます。この時点で、ChatGPTとDALL·E 3が合体すると強力になるんだなということが見えてきたわけです。

筆者が開発中のゲーム「EXELIO-エグゼリオ」のキービジュアルを試しに分析させてみた。かなり複雑な要素を的確に解釈しているのがわかる

GPT-4Vで作成したプロンプトを、Bing Image Creatorに持ち込んで生成した画像。オリジナルのイメージの雰囲気をそれなりに再現できている

 そして、その後いよいよChatGPT Plusで、順次DALL·E 3が利用できるようになり、組み合わせるととてつもなく強力だということがわかってきました。対話の柔軟度はChaGPTのほうがさすがにBingチャットより上で、いろいろ細かいところまで指示に付き合ってくれます。

 たとえば「制服を来た少女が全速力で坂道を駆け抜ける姿」という指示で描いてもらいました。特にStable Diffusion v1.5は表情が苦手なのですが、DALL·E 3は表情も豊かに描いてくれました。追加で指定するたびに、新しいプロンプトのバリエーションを4種類生成して、それぞれで画像を作り出すという仕組みになっています。ただ、「もうちょっとスピードを上げて」とか、追加指示をしているうちに坂道がなくなってしまったりというところはありましたが。

自転車と人間との描写の自然さ、表情に疾走感と、これまでの画像生成AIでは描写できなかった生き生きとした表情を作り出すことに成功している

 ほかに驚いたのは、より複雑なバイクです。自転車が出せるのだから、バイクも出せるわけですが、この自然にバイクに人が乗っているクオリティは現状ほかの画像生成AIではなかなか簡単には出ません。

フェイク、著作物は対策済み

 また、OpenAIは3日に「DALL·E 3 システムカード」というレポートを発表し、画像生成AIで生成される画像の安全性を確保するために、様々な仕組みを入れていることを報告しています。性的であったり、暴力的だったり、憎悪のシンボルであったりするようなものや、フェイクニュースとなりうるリアル性の高い画像が生成できないように、様々な対策が取られているようです。実際にそういう画像を作ろうとすると、拒絶されます。

フェイク画像の様なものを作ろうと試みると、Bingチャット(上)も、ChatGPT(下)にも拒否される

 ChatGPTでは、IP関連についてのレギュレーションも厳しく設定されているようです。

 検証してみて面白かったのは「ガンダムが空を飛んでいる」という指示を出すと、プロンプトのなかには「ガンダム」が含まれないんですよ。IPが直接指示に入っているものについてはそれを回避するルールがあるようです。ただ、実際に出てくるものはガンダムっぽい何かなんですけど……(笑)。まだBing側はこのレギュレーションが入っていないようで、プロンプトにガンダムがそのまま入っているのですが、クラウド系サービスをやっている企業は、今後トラブルを避けるためにもIP関係が厳しくなっていくのだろうという予想はつきますね。

「ガンダムが空を飛んでいる姿を描いて」と指示して、ChatGPTが画像を生成しているところ。4種類のプロンプトが生成されてDALL·E 3が画像を生成しているが、ガンダムという単語がない。「giant robot, reminiscent of populer mecha designs(人気メカのデザインを彷彿とさせる巨大ロボット)」などと直接言及しないように言い換えている。

生成された結果。ガンダム風の画像は出ているが、スタイルと言える余地は生み出されている

 ちなみに別の例で、「ドラえもん」はどうかと言うと、そのままでは生成できませんでした。「ドラえもんの雰囲気を持つオリジナルキャラクターを」とすると、似たようななにかが生成されるようになりました。しかし、これがオリジナルと言えるかどうかはなかなか微妙な印象は受けます。

 しかし、その後調整が入ったようで、ドラえもんだけでなく、「ドラえもんスタイル」といったものでは生成してくれなくなりました。ドラえもん風など、ドラえもんがプロンプトで直接触れていないワードにしないと生成してくれないようです。その結果、ドラえもんとはだいぶ違うものが生成されるようになっています。英語で生成されたプロンプトにはいずれも「ドラえもん」というワードは入っていません。

 ただ、プロンプトの工夫で、回避方法はいくつもあるようです。しかし、IPに似たものを出そうとすると、生成者が意識して似せようとしないと似ないという傾向はあるようです。つまり、著作権侵害などが問題になったときに、プロンプトを確認すれば、生成者がどの程度、似せようとして作っていたかが明らかになるわけです。似せようとすればするほど、生成者の責任が重くなると考えることができそうです。

この記事をシェアしよう

週刊アスキーの最新情報を購読しよう

この連載の記事