ホームページ >テクノロジー周辺機器 >AI >9.11 と 9.9 ではどちらが大きいですか?実際に大型モデル15台をテストしましたが、半数以上が転倒しました。

9.11 と 9.9 ではどちらが大きいですか?実際に大型モデル15台をテストしましたが、半数以上が転倒しました。

WBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBオリジナル: 2024-07-19 11:27:212226ブラウズ

マシンパワーレポート

編集者: Yang Wen

大きなモデルはまだ単純な数学の問題を解決できません。

ここ数日、大きなモデルの「頭脳」が機能しているかどうかをテストするためのリマインダーの言葉が人気になりました -

9.11と9.9ではどちらが大きいですか?

これは小学生でも正解できる数学の問題ですが、大手模型業界の「ヒーロー」グループにとっては難問です。

これが問題です。

Scale AI のシニアプロンプトエンジニアであるライリーグッドサイド氏は、GPT-4o に「9.11 と 9.9 - どちらが大きいですか?」というプロンプトワードを尋ねましたが、「前者の方が大きい」という答えが得られました。他の大型モデルも横転した。

7 月 17 日、国内の大型モデル 12 機種に加え、海外の GPT-4o、Claude 3.5 Sonnet、Google の Gemini について集中評価を実施しました。評価結果は以下の通りです。

9.11 と 9.9 ではどちらが大きいですか?実際に大型モデル15台をテストしましたが、半数以上が転倒しました。

次に、詳細な評価プロセスを見てみましょう。

-1-

GPT-4o

GPT-4o 車は完全に横転しました。

最初に英語のプロンプト単語を使用して GPT-4o に質問しましたが、GPT-4o は依然として 9.11 が 9.9 よりも大きいと信じていました。次に中国語と英語で違いがどれくらいあるか尋ねましたが、答えはすべて間違っていました。

9.11 と 9.9 ではどちらが大きいですか?実際に大型モデル15台をテストしましたが、半数以上が転倒しました。

-2-

Claude-3.5-Sonnetにも同じように尋ねましたが、どう聞いても道が間違っていました。目は激しく走っている。その中で、小数部分を比較すると、0.9 が 0.11 よりも大きいことが明らかにわかりますが、それでも最終的には間違った結論に達します。

9.11 と 9.9 ではどちらが大きいですか?実際に大型モデル15台をテストしましたが、半数以上が転倒しました。

9.11 と 9.9 ではどちらが大きいですか?実際に大型モデル15台をテストしましたが、半数以上が転倒しました。 -3-

Gemini

Google Geminiの方が大きいと二度尋ねましたが、最初はどちらが大きいか答えました。 2 回目は同じ整数になり、小数点以下の桁数が増えるほど、数値は大きくなります。

Google Gemini は、具体的な現実のシナリオに基づいて規模を比較しました。たとえば、時間の観点から見ると、9.11 は通常 9.11 事件を指しますが、9.9 は通常 9 時 9 分を指すため、9.11 の方が優れています。 9.9 よりも多くの意味があります。

2つの違いについて尋ねると、双子座は負の数を思いつきました。

9.11 と 9.9 ではどちらが大きいですか?実際に大型モデル15台をテストしましたが、半数以上が転倒しました。

-4-

Baidu Wenxin Yiyan

9.11と9.9のどちらが大きいかというと、Wenxin 3.5両方とも尋ねたとき、正しく答えました。大きな違いがあり、それは大回りをして、最終的には正しい結論を導き出しました。

9.11 と 9.9 ではどちらが大きいですか?実際に大型モデル15台をテストしましたが、半数以上が転倒しました。

-5-

アリ・トンイ千の質問

アリ・トンイ千の質問はすべて正解しました。

9.11 と 9.9 ではどちらが大きいですか?実際に大型モデル15台をテストしましたが、半数以上が転倒しました。

-6-

9.11と9.9のどちらが大きいか尋ねました。Beanbaoの分析は明確で論理的であり、日常生活のシーンにも適用できます。たとえば、ランニングしているランナーのタイムは 9.11 秒と 9.9 秒です。つまり、価格の観点から見ると 9.11 秒の方が速く、9.9 元の製品の方が高価です。しかし、結論に達すると、答えは間違ってしまいます。

両者の違いに関しては、Doubao の答えが正しいです。

9.11 と 9.9 ではどちらが大きいですか?実際に大型モデル15台をテストしましたが、半数以上が転倒しました。

9.11 と 9.9 ではどちらが大きいですか?実際に大型モデル15台をテストしましたが、半数以上が転倒しました。 -7-

Tencent Yuanbao

Tencent Yuanbaoは、この質問に直面したときに検索機能を起動し、7つの資料を参考として引用し、最終的に正しく答えました。

しかし、9.11 と 9.9 の違いは何でしょうか? 元宝の方程式は正しいですが、算術結果は小数点以下 16 桁になります。

9.11 と 9.9 ではどちらが大きいですか?実際に大型モデル15台をテストしましたが、半数以上が転倒しました。

9.11 と 9.9 ではどちらが大きいですか?実際に大型モデル15台をテストしましたが、半数以上が転倒しました。 -8-

Zhipu Qingyan

Zhipu Qingyan は、小数点 2 桁で表される値が小数点 1 桁よりも大きいと誤って信じたため、間違った答えが生じました。両者の差を尋ねると、マイナスの値が計算されました。

「AI モデルのエラーの多くは、数値と小数点の処理におけるアルゴリズムの欠陥が原因である可能性がある」と言うのも忘れませんでした。

9.11 と 9.9 ではどちらが大きいですか?実際に大型モデル15台をテストしましたが、半数以上が転倒しました。

9.11 と 9.9 ではどちらが大きいですか?実際に大型モデル15台をテストしましたが、半数以上が転倒しました。 -9-

Dark Side of the Moon - キミ

今回もキミは途方に暮れている、誰が大きいか分からないだけでなく、計算もされている 9.11- 9.9を0.21とします。

9.11 と 9.9 ではどちらが大きいですか?実際に大型モデル15台をテストしましたが、半数以上が転倒しました。

9.11 と 9.9 ではどちらが大きいですか?実際に大型モデル15台をテストしましたが、半数以上が転倒しました。 -10-

iFlytek Spark

iFlytek Spark は正しく答えました。

9.11 と 9.9 ではどちらが大きいですか?実際に大型モデル15台をテストしましたが、半数以上が転倒しました。

9.11 と 9.9 ではどちらが大きいですか?実際に大型モデル15台をテストしましたが、半数以上が転倒しました。 -11-

Baichuan Intelligence - Baixiaoying

Baixiaoyingは、9.11の方が大きかったと誤って信じていましたが、2つの差を計算し、正しく計算しました。

9.11 と 9.9 ではどちらが大きいですか?実際に大型モデル15台をテストしましたが、半数以上が転倒しました。

9.11 と 9.9 ではどちらが大きいですか?実際に大型モデル15台をテストしましたが、半数以上が転倒しました。 -12-

Step Stars - Yue Wen

Yue Wen は最初の分析では問題ありませんでしたが、その後混乱して「逆転の結論」を出し、それが最終的な間違った答えにつながりました。

もう一度理由を尋ねると、突然理解し、間違いを修正し、両者の差を正しく計算しました。

-13-

SenseTime - ディスカッション

2 つの質問が不正解でした。

-14-

崑崙万偉 - 天宮

答えは正解です。

-15-

ゼロワンエブリシング - Wanzhi

2 つの質問に不正解でした。

なぜ大きなモデルでは、単純な数学の常識的な問題さえ解決できないのでしょうか? Tongyi Laboratoryのプロダクトマネージャー、Wang Xiaoming氏にインタビューしました。

Wang Xiaoming 氏によると、大規模モデルは Transformer アーキテクチャに基づいて実装されており、その本質は直接算術計算ではなく次のトークンの予測を実行することであるため、サイズ比などの単純な数学的問題を扱う場合は成功に依存します。予測モデルのレート。

さらに、「9.11 は 9.9 より大きい」などのシナリオを扱う場合、通常、大きなモデルはトークナイザーを通じて処理されます。このような式を解析する際、トークナイザーは比較のために数値を日付またはバージョン番号として認識し、最終的には不正確な回答につながる可能性があります。この処理方法は、トークナイザーの特定のアルゴリズムとメカニズムによって決定されます。

実際のテストプロセス中に、多くの大規模モデルが初めて回答するときに間違った回答を返す可能性があることもわかりました。ただし、2 回目の質問をすると、これらのモデルは多くの場合正しい答えを返すことができました。

この問題に対して、王暁明氏は主に 3 つの理由によって引き起こされていると考えています。

まず、予測プロセスには一定のランダム性があるため、第 2 ラウンドは第 1 ラウンドよりも正確です。

2 番目に、大規模なモデルには強力なコンテキスト理解機能があり、以前の回答と修正情報に基づいてより正確な回答を再生成できます。

第三に、質問者の誘導方法も大規模モデルの解答結果に影響します。たとえば、修飾子の使用、明確なコンテキストの提供、特定の指示に従うようにモデルを誘導することはすべて、正解を得る確率を高めるのに役立ちます。

彼はまた、大規模モデルの数学的能力を向上させる核心は、特に数学的計算と論理的推論において、高品質のデータサポートを提供することにあると述べました。たとえば、Tongyi Qianwen は、このようなシナリオでのトレーニング用に高品質のデータを特別に追加するため、そのような問題に直面した場合でも高い精度を維持できます。

将来的には、大規模な AI モデルや AI アプリケーションの直接のレビューをさらに提供する予定です。コミュニケーションのために誰でもグループに参加することを歓迎します。

以上が9.11 と 9.9 ではどちらが大きいですか?実際に大型モデル15台をテストしましたが、半数以上が転倒しました。の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

架构 Token 事件算法 transformer gpt

声明：

この記事の内容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰属します。このサイトは、それに相当する法的責任を負いません。盗作または侵害の疑いのあるコンテンツを見つけた場合は、admin@php.cn までご連絡ください。

前の記事：Mistral AI 2 連続リリース: 7B 数的推論専用、Mamba2 アーキテクチャコード大型モデル次の記事：Mistral AI 2 連続リリース: 7B 数的推論専用、Mamba2 アーキテクチャコード大型モデル

続きを見る