計算
「計算」はLLMが苦手とする作業の代表かもしれない。なぜならLLMは実際に考えて計算しているわけではなく、「可能性の高い」回答を膨大な学習データの中から抽出しているに過ぎないからだ。ここでは小中学生レベルの乗算、因数分解、平方根の問題を出題してみた。
まずは乗算。「5698×3602は?」
●解答例
●採点
ChatGPT | ChatGPT Plus | Bard | Claude |
---|---|---|---|
0 | 0 | 10 | 0 |
続いては「9x²-12xy+4y²」を因数分解してもらう。
●解答例
先に質問した乗算の問題に引っ張られている。文脈を考慮する機能が裏目に出ている。
●採点
ChatGPT | ChatGPT Plus | Bard | Claude |
---|---|---|---|
6 | 6 | 10 | 3 |
続いては4092529の平方根を求めてもらう。
●解答例
●採点
ChatGPT | ChatGPT Plus | Bard | Claude |
---|---|---|---|
3 | 10 | 10 | 0 |
●計算問題の合計評価
・ChatGPT:9点、あまり成績はよくない。
・ChatGPT Plus:19点、うんまあこんなものか。
・Bard:30点、優等生。
・Claude:3点、全問不正解、少し考えすぎなところはあるかも。
やはりLLMにとって計算問題は鬼門のようだ。
週刊アスキーの最新情報を購読しよう
本記事はアフィリエイトプログラムによる収益を得ている場合があります