画像認識を試す
Gemma 3nはテキストだけではなく画像を使ったプロンプトも理解するマルチモーダルLLMだ。画像を使いたい場合は「Ask Image」からチャットウィンドウを開こう。
プロンプトウィンドウの左端にある「+」から「Take a picture」または「Pick from album」を選び写真を選択しよう。
今回は「AKG」というメーカーのヘッドフォン、型番「K240 Studio」の写真をアップロードして「これはなに?」と聞いてみた。
型番が「K-240」のヘッドフォンであることは正解だが、残念ながらメーカー名を「Beyerdynamic」と間違ってしまったようだ。競合だししょうがないか……。
もう1問出題。筆者が50年遅れでハマっている「ピンクフロイド」というバンドの「ANIMALS」というアナログレコードを見せてみると。
うーん残念!アーティスト名はピンクフロイドで正解だが、その後のアルバム名、メンバー名、そして説明すべてデタラメであった。
ハルシネーションの問題は残るが、インターネットに接続されていない状態でも画像を使った質問をAIにできるのは新鮮だ。
週刊アスキーの最新情報を購読しよう
本記事はアフィリエイトプログラムによる収益を得ている場合があります






