週刊アスキー

  • Facebookアイコン
  • Twitterアイコン
  • RSSフィード

ChatGPTとClaudeの違いは? チャットAI比較対決

2023年11月03日 09時00分更新

計算

 「計算」はLLMが苦手とする作業の代表かもしれない。なぜならLLMは実際に考えて計算しているわけではなく、「可能性の高い」回答を膨大な学習データの中から抽出しているに過ぎないからだ。ここでは小中学生レベルの乗算、因数分解、平方根の問題を出題してみた。

 まずは乗算。「5698×3602は?」

●解答例

正解は20524196


ChatGPT(誤答)


ChatGPT Plus(誤答)


Bard(正解)


Claude(誤答)

●採点

ChatGPT ChatGPT Plus Bard Claude
0 0 10 0

 続いては「9x²-12xy+4y²」を因数分解してもらう。

●解答例

ChatGPT(求め方がわからないが正解)


ChatGPT Plus(求め方が微妙だが正解)


Bard(求め方もよく、正解)


Claude(誤り)

 先に質問した乗算の問題に引っ張られている。文脈を考慮する機能が裏目に出ている。

Claude(再生成)

●採点

ChatGPT ChatGPT Plus Bard Claude
6 6 10 3

 続いては4092529の平方根を求めてもらう。

●解答例

正解は2023


ChatGPT(惜しい)


ChatGPT Plus(正解)


Bard(正解)


Claude(誤り)

●採点

ChatGPT ChatGPT Plus Bard Claude
3 10 10 0

●計算問題の合計評価

・ChatGPT:9点、あまり成績はよくない。
・ChatGPT Plus:19点、うんまあこんなものか。
・Bard:30点、優等生。
・Claude:3点、全問不正解、少し考えすぎなところはあるかも。

 やはりLLMにとって計算問題は鬼門のようだ。

この記事をシェアしよう

週刊アスキーの最新情報を購読しよう