ハルシネーションが多い
ここまでは主にClaude 3のよいところについて書いてきたが、ここからは改善を求めたいところについて触れていきたい。
まずはなんと言っても、まるで本当のことのように嘘を付く「ハルシネーション(幻覚)」の多さだ。外部インターネットへのアクセスができないこともあり、特に上場していないような規模の日本の企業について聞くと、8割方でたらめな説明を始める。
感覚的にChatGPTの方はかなりハルシネーションが減ってきているのを感じるが、こちらはまだまだ多い。これは最高モデルのOpusでも同様、むしろ多いくらいだ。
プロンプト:ON the edgeが開発したマルチモーダルLLM「Edge plus」について簡単に教えて
この例では「Edge plus」という架空のLLMをでっち上げて質問してみたところ、見事にひっかかり、存在しない製品の説明をはじめている。
実はこの質問、「ON the edge」という過去に実在した社名を混ぜ込んでいるのでかなり難易度が高い。実際ChatGPTもGemini Proもハルシネーションを起こしている。
唯一ハルシネーションを起こさなかったのが、恐らくChatGPTと同じGPT-4を使用するマイクロソフトCopilotだった。
謝罪がくどい
ハルシネーションを起こしたら必ずそれを指摘し、改善を求めるようにしているのだが、とにかく謝罪がクドい。
少し読んでもらえばわかると思うが、悪いビジネスメールの見本のような心の無い謝罪の言葉が連ねられている。しかも一度ではなく何度も何度もだ。
謝罪して改善されるならいいのだが、何度謝罪しようともハルシネーションは止まらない。
Proなのにすぐ使えなくなる
これはそのうち改善されるとは思うが、月20米ドル(およそ3028円)の有料プランにサブスクライブしているにも関わらず、頻繁にリミットに達してしまい、数時間は利用できなくなる。しかも、1日に2回以上出現することもありこれはかなりストレスが溜まる。
まとめ
Claude 3を2週間以上ヘビーに使用した印象としては、改善点はあるものの、全体的には非常に優れたLLMだと感じた。特に日本語の理解度の高さはChatGPTをしのいでいると言っても過言ではないだろう。
20万トークンという巨大なコンテキストウィンドウは小説や論文の要約、そこからの質問応答などで真価を発揮する。ただし、専門外のテーマに関してはファクトチェックが難しいため過信は禁物だ。
改善を求めたい点としては、ハルシネーションの多さと、それを指摘した際の「謝罪の多さ」が目立つ。謝罪しても次もハルシネーションを起こすようでは意味がない。この点は先行しているChatGPTの方が賢明な印象だ。
とは言え、APIを含めドキュメントの充実度は秀逸。今後「憲法AI」の考え方を基盤に、さらなる改善を遂げてくれることを期待したい。
なお、この「まとめ」は、ここまで自分で書いた原稿を全部Claude 3に食わせたうえで、上記のプロンプトで書いてもらったものをそのまま載せています。普段は絶対にしないけど、今回は特別に。
田口和裕(たぐちかずひろ)
1969年生まれ。ウェブサイト制作会社から2003年に独立。雑誌、書籍、ウェブサイト等を中心に、ソーシャルメディア、クラウドサービス、スマートフォンなどのコンシューマー向け記事や、企業向けアプリケーションの導入事例といったエンタープライズ系記事など、IT全般を対象に幅広く執筆。2019年にはタイのチェンマイに本格移住。
新刊発売中:「生成AI推し技大全 ChatGPT+主要AI 活用アイデア100選」:https://amzn.to/3OfWzUN
週刊アスキーの最新情報を購読しよう
本記事はアフィリエイトプログラムによる収益を得ている場合があります