ホームページ  >  記事  >  テクノロジー周辺機器  >  Claude 3.5 の直接のレビュー: トリックをしたり、医師の診察を受けたり、トリックをしたり、数学の問題を実行したりする場合、GPT-4o は本当に GPT-4o よりも優れていますか?

Claude 3.5 の直接のレビュー: トリックをしたり、医師の診察を受けたり、トリックをしたり、数学の問題を実行したりする場合、GPT-4o は本当に GPT-4o よりも優れていますか?

王林
王林オリジナル
2024-06-22 07:46:191020ブラウズ
マシンパワーレポート
編集者:ヤン・ウェン
いたずらをしたり、医者に診てもらったり、いたずらをしたり、数学の問題をしたりする「新しい王」クロードの能力は本当にそうですか。神秘的な?

来る、来る、クロード 3.5 ソネットが登場します!

3 か月の休眠期間を経て、つい昨夜、OpenAI の「強力なライバル」Anthropic が新世代モデル -

Claude 3.5 Sonnet を発表しました!

一手测评Claude 3.5:玩梗、看病、耍心眼 、做数学题,它真比GPT-4o强吗?

この大型モデルの特徴は何ですか?

まず第一に、ニュアンス、ユーモア、複雑な指示をよりよく理解できるようになり、文章の口調がより自然でフレンドリーになります。

Anthropic の最強のビジュアル モデルでもあり、チャートやグラフの解釈、不完全な画像からのテキストの転写などのタスクに優れています。

一手测评Claude 3.5:玩梗、看病、耍心眼 、做数学题,它真比GPT-4o强吗?

さらに、推論、読解、数学、科学、コーディングなどの複数の評価ベンチマークでも非常に優れたパフォーマンスを発揮します。

つまり、公式の紹介によると、Claude 3.5 Sonnet はこれまでで最もスマートなモデルであり、多くの点で GPT-4o を上回っています。

そういえば、礼儀正しくなく、Claude 3.5 Sonnet と GPT-4o を直接競争させて、どちらが優れているかを確認しましょう。


最初のゲーム: マインド・アイズ・エクササイズ

日常生活では、必ず恥ずかしい場面に遭遇します。

例えば、夕食会で、あなたはリーダーがご飯を提供するのを手伝い、リーダーがそれを受け取った後、「そんなにたくさん提供した後、豚に餌をやるのはどうですか?」と言いました。これに対して、心の知能指数が高い人はどう反応しますか。状況?

この問題をこれら 2 つの大きなモデルに投げます。

クロード 3.5 ソネット:

一手测评Claude 3.5:玩梗、看病、耍心眼 、做数学题,它真比GPT-4o强吗?

GPT-4o:

一手测评Claude 3.5:玩梗、看病、耍心眼 、做数学题,它真比GPT-4o强吗?

彼らはあなたにお世辞を言う方法を知っています。

クロード 3.5 は一気に 5 つの例を挙げましたが、2 番目の文「私の視力は十分ではないので、私はあなたを部隊の柱とみなします。」は顔面平手打ちです。

GPT-4o は「世の中のやり方」をよく理解しています。「あなたがこれほど良い体型を維持しているのを見ると、減量のヒントを教えてもらいたくなります。」このお世辞はまさにぴったりです。

Claude 3.5 Sonnet が新しい機能、つまりプロンプトワード再編集機能も開始したことは言及する価値があります。

一手测评Claude 3.5:玩梗、看病、耍心眼 、做数学题,它真比GPT-4o强吗?

ユーザーは、元のプロンプトワードを何度もコピーして貼り付けることなく、直接編集および変更できます。


第2弾:料理からレシピを生成

「トマト入り目玉焼き」の写真をアップし、2人の大きなモデルに製作工程を紹介してもらいました。

クロード 3.5 ソネット:

一手测评Claude 3.5:玩梗、看病、耍心眼 、做数学题,它真比GPT-4o强吗?

GPT-4o:

一手测评Claude 3.5:玩梗、看病、耍心眼 、做数学题,它真比GPT-4o强吗?

彼らは、材料から手順に至るまで、この古典的な中華料理について多くの経験を持っています、そして最も興味深いのは、両方です彼らのうちの2人は中華料理の本質を「少しだけ」理解していて、酸味のバランスをとるために少量の砂糖を加えることに重点を置いています。

料理に関しては、この 2 つの大型モデルは匹敵します。


3番目のゲーム: 数学の問題を解いてください

公式の評価表では、GPT-4oの数学スコアはClaude 3.5 Sonnetよりわずかに高いです。このうち、GPT-4o は 76.6%、Claude 3.5 Sonnet は 71.1% です。

一手测评Claude 3.5:玩梗、看病、耍心眼 、做数学题,它真比GPT-4o强吗?

2024 年の新しい大学入学試験のペーパー I から 2 つの問題を抜粋しました。1 つは多肢選択問題、もう 1 つは解答問題で、これらは次の形式でこれら 2 つの大きなモデルに「供給」されます。ピクチャー。

最初の質問は採点問題で、正解はAです。

一手测评Claude 3.5:玩梗、看病、耍心眼 、做数学题,它真比GPT-4o强吗?

Claude 3.5 Sonnet:

一手测评Claude 3.5:玩梗、看病、耍心眼 、做数学题,它真比GPT-4o强吗?

GPT-4o:

一手测评Claude 3.5:玩梗、看病、耍心眼 、做数学题,它真比GPT-4o强吗?

これら 2 つの大きなモデルは、正しい答えを与えるだけでなく、詳しい情報の問題解決のステップ。

最初の質問をして、解決プロセスを教えてもらいました。

一手测评Claude 3.5:玩梗、看病、耍心眼 、做数学题,它真比GPT-4o强吗?

正解は、B=3/πです。

Claude 3.5 Sonnet:

一手测评Claude 3.5:玩梗、看病、耍心眼 、做数学题,它真比GPT-4o强吗?

GPT-4o:

一手测评Claude 3.5:玩梗、看病、耍心眼 、做数学题,它真比GPT-4o强吗?

実際、この質問は最も基本的な質問ですが、2 つの大きなモデルは「一度の操作で虎のように猛烈です」 」と、最終的には間違った答えが与えられました。

さらに面白いのは、この間違った答えは何もないところから生まれたのではなく、一連の推論の後に出てきたものであり、間違いさえ同じだったということです。

数学的能力の点では、これら 2 つの大きなモデルは互角です。


4 番目のゲーム: インターネット上でホットなミームをプレイする

今年、AI ビデオの分野は、Keling、Luma、Jimeng などの新しい「プレイヤー」に参入しただけでなく、あらゆる場所で開花しました。 、元AI 動画「ハンドルを握る」滑走路も「王の帰還」。

その結果、ネチズンは今日の主要な AI ビデオ アプリケーションの状況をからかうためにこのミームを作成しました。

一手测评Claude 3.5:玩梗、看病、耍心眼 、做数学题,它真比GPT-4o强吗?

このミームを 2 つの大きなモデルにそれぞれアップロードし、「この写真は何を意味しますか?」というプロンプトの単語を入力して、画像解釈能力をテストしました。

Claude 3.5 Sonnet:

一手测评Claude 3.5:玩梗、看病、耍心眼 、做数学题,它真比GPT-4o强吗?

GPT-4o:

一手测评Claude 3.5:玩梗、看病、耍心眼 、做数学题,它真比GPT-4o强吗?

Claude 3.5 Sonnetには、画面のキャラクター、シーン、雰囲気に関して詳細な説明がありますが、そうではありません私はこのミームの意味がわかりませんし、これらの AI ビデオ アプリケーションについても知りません。ただ漠然と「これはオンライン コミュニティ、人工知能システム、または仮想空間における権力構造についてのコメントです」と述べただけです。

GPT-4o 見てください。「この写真は、人工知能とクリエイティブ ツールの分野で認められた Runway の優位性またはリーダーシップを象徴している可能性があります。言及されている他のアプリケーションと比較して、Runway は高く評価されています

」という意味を理解してください。明らかに、このラウンドでは GPT-4o が勝ちます。


第5ラウンド:世界の名画を理解する

私たちは、1873年にピエール・オーギュスト・クーテによって描かれた絵「春の光」を取り出し、その絵を特定して鑑賞してもらいました。

クロード 3.5 ソネット:

一手测评Claude 3.5:玩梗、看病、耍心眼 、做数学题,它真比GPT-4o强吗?

GPT-4o:

一手测评Claude 3.5:玩梗、看病、耍心眼 、做数学题,它真比GPT-4o强吗?

この二人の大きなモデルは、美術界の「専門家」とも言えるもので、二人とも絵画を認識し、基本的な情報を正しく表現し、様々な角度から鑑賞していました。

彼らは皆、市場価値について言及していましたが、クロード 3.5 ソネットはコメントを避け、「美術品の評価には複数の要素を考慮した専門家の評価が必要であり、価格は時間の経過とともに大きく変動する可能性がある」と念を押すだけでした

GPT -4o は絵画がその可能性があると考えています。何百万ドルもするこの古典的な絵画は過小評価されすぎているだろうか?

このゲームでは、2 つの大きなモデルが結ばれます。


第6ゲーム: AIによる医師の診察

最近、ネチズンは大型のAIモデルを使用して医師の診察を楽しんでいます。私たちは6歳児の歯のX線写真を撮り、モデルたちにその歯を使って年齢とどのような問題があるかを推測してもらいました。

クロード 3.5 ソネット:

一手测评Claude 3.5:玩梗、看病、耍心眼 、做数学题,它真比GPT-4o强吗?

GPT-4o:

一手测评Claude 3.5:玩梗、看病、耍心眼 、做数学题,它真比GPT-4o强吗?

クロード 3.5 ソネット 乳歯と永久歯の発達に基づいて、これは約6- 7歳 子供の歯、下の歯がやや混み合っており、永久歯が埋伏しているように見え、歯の黒い部分に虫歯がある可能性があります。

GPT-4o は、これらは 7 ~ 9 歳の子供の歯であると考えています。主な歯の問題には、永久歯の密集と埋伏の可能性が含まれます。

同時に、これには専門的な歯科検査が必要であると全員が言いました。

両者を比較すると、クロード 3.5 ソネットの年齢判断がより正確です。

このゲームでは、クロード 3.5 の方がわずかに優れています。

さらに、多くのネチズンもオンラインで活動し、多くの興味深い遊び方を考え出しています。

たとえば、EverArt 創設者 Pietro Schirano は、Claude 3.5 Sonnet の助けを借りて幾何学的形状を使用してマリオ ゲームのクローンを作成しましたが、プロセス全体はわずか 3 分しかかかりませんでした。

一手测评Claude 3.5:玩梗、看病、耍心眼 、做数学题,它真比GPT-4o强吗?

「クレイジーな点は、キャラクターもアニメーション化されており、形も非常に独創的であることです

一手测评Claude 3.5:玩梗、看病、耍心眼 、做数学题,它真比GPT-4o强吗?

」ビデオリンク: https://www.php. a412963e013751a90654aa344bc26efe

読者の皆様、今回はクロード 3.5 ソネットが GPT-4o に対して「敗北」を果たしたと思いますか?

以上がClaude 3.5 の直接のレビュー: トリックをしたり、医師の診察を受けたり、トリックをしたり、数学の問題を実行したりする場合、GPT-4o は本当に GPT-4o よりも優れていますか?の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

声明:
この記事の内容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰属します。このサイトは、それに相当する法的責任を負いません。盗作または侵害の疑いのあるコンテンツを見つけた場合は、admin@php.cn までご連絡ください。