CMU は詳細な比較研究を実施し、GPT-3.5 が Gemini Pro よりも優れており、公平性、透明性、再現性のあるパフォーマンスを保証していることを発見しました。

CMU は詳細な比較研究を実施し、GPT-3.5 が Gemini Pro よりも優れており、公平性、透明性、再現性のあるパフォーマンスを保証していることを発見しました。

PHPz

Dec 21, 2023 am 08:13 AM

グーグルgpt-3.5gemini

Gemini Pro还不如GPT-3.5，CMU深入对比研究：保证公平透明可重复

Google Gemini の強みは何ですか?カーネギーメロン大学は、専門的かつ客観的なサードパーティによる比較を実施しました。

公平性を確保するために、#すべてのモデルは同じプロンプトと生成パラメータを使用し、再現可能なコードと完全な透過的な結果を提供します。

Gemini Pro还不如GPT-3.5，CMU深入对比研究：保证公平透明可重复

は、

Google の公式カンファレンスのように、5 ショットの比較に CoT@32 を使用しません。

結果を 1 文にまとめると:

Gemini Pro バージョンは GPT-3.5 Turbo に近いもののわずかに劣ります、GPT-4 はまだはるかに先を行っています。

Gemini Pro还不如GPT-3.5，CMU深入对比研究：保证公平透明可重复

詳細な分析では、次のような双子座のいくつかの奇妙な特徴も見つかりました。多肢選択問題...

多くの研究者は、Gemini はリリース後わずか数日で非常に詳細なテストを受けたと述べており、これは非常に注目に値する成果です

Gemini Pro还不如GPT-3.5，CMU深入对比研究：保证公平透明可重复

6 つの主要タスクの詳細テスト

このテストでは、6 つの異なるタスクを具体的に比較し、各タスクに対応するデータセットを選択します Gemini Pro还不如GPT-3.5，CMU深入对比研究：保证公平透明可重复

質問回答: MMLU

推論: BIG-Bench Hard

コード: HumanEval、ODEX
翻訳: FLORES
インターネットサーフィン: WebArena
トリビア: D
を選択するのが好き結果によると、このタイプの思考連鎖プロンプトを使用すると、タスクは必ずしも効果を向上させるわけではありません

MMLU データセットでは、すべての質問は多肢選択式の質問です。結果をさらに分析した結果、奇妙な現象が発見されました: Gemini はオプション D を好みます。4 つのオプション間の GPT シリーズの分布はよりバランスが取れています。チームは、これが Gemini

が原因で発生した可能性があることを示唆しました。多肢選択問題に対する多くの指示を微調整しないことによって。 Gemini Pro还不如GPT-3.5，CMU深入对比研究：保证公平透明可重复

さらに、Gemini のセキュリティフィルタリングは非常に厳格です。倫理的な質問に関しては、質問の 85% しか答えられません。そして、人間のセクシュアリティに関する質問に関しては、質問の 28% しか答えられませんでした。

Gemini Pro は、セキュリティ研究と高校のミクロ経済学で GPT を上回りました (3.5)。ギャップは大きくなく、チームは特別なものは見つからなかったと述べています

Gemini Pro还不如GPT-3.5，CMU深入对比研究：保证公平透明可重复

理由付け: 長い質問は苦手です

Gemini Pro还不如GPT-3.5，CMU深入对比研究：保证公平透明可重复

GPT シリーズは、より長く複雑な問題を処理するときにパフォーマンスが向上します。それに比べて、Gemini Pro のパフォーマンスは低くなります。

Gemini Pro还不如GPT-3.5，CMU深入对比研究：保证公平透明可重复特に長い問題では、GPT-4 Turbo のパフォーマンスはほとんどありません。パフォーマンスは低下します。複雑な問題を理解する優れた能力を持っているということです。この種の問題には、人々がアイテムを交換することが含まれており、最終的には AI が各人がどのアイテムを所有しているかを判断する必要があります。

Gemini Pro还不如GPT-3.5，CMU深入对比研究：保证公平透明可重复

ジェミニが得意とするタスクには、世界のスポーツ知識の理解、記号スタックの操作、単語のアルファベット順の並べ替え、表の解析などがあります。

Gemini Pro还不如GPT-3.5，CMU深入对比研究：保证公平透明可重复

##数学:複雑なタスクでの優位性

Gemini Pro还不如GPT-3.5，CMU深入对比研究：保证公平透明可重复

質問自体が長すぎるため、Gemini Pro と GPT-3.5 のパフォーマンスが同時に低下します。GPT-4 のみが、一貫したレベル

Gemini Pro还不如GPT-3.5，CMU深入对比研究：保证公平透明可重复

思考連鎖の長さが最長に達すると、Gemini は GPT-3.5 を超えます

Gemini Pro还不如GPT-3.5，CMU深入对比研究：保证公平透明可重复 ## コード: matplotlib が得意です

コードに関する質問の場合、Gemini は参照回答が長い質問ではあまりパフォーマンスが良くありません

Gemini Pro还不如GPT-3.5，CMU深入对比研究：保证公平透明可重复 GPT シリーズはほとんどのタイプで強力ですが、 matplotlib のパフォーマンスが低いまったく良くない

Gemini Pro还不如GPT-3.5，CMU深入对比研究：保证公平透明可重复 #翻訳: 応答がある限り、品質は高いです

翻訳タスクでは、Gemini は拒否しました12種類の質問に答えますが、翻訳品質が優れている限り、全体的なパフォーマンスはGPT-4を超えます

Gemini Pro还不如GPT-3.5，CMU深入对比研究：保证公平透明可重复 Geminiが翻訳を拒否する言語は主にラテン語ですおよびアラビア語

Gemini Pro还不如GPT-3.5，CMU深入对比研究：保证公平透明可重复ネットワークナビゲーション: クロスサイトサーフィンが得意です

WebArena は、電子商取引、ソーシャルフォーラム、GitLab コラボレーションなど、AI 用のインターネット環境をシミュレートします。開発、コンテンツ管理システム、オンラインマップ。 AI は、この環境で情報を見つけたり、複数のサイト間でタスクを完了したりする必要があります。

Gemini は、GPT-3.5 Turbo よりも全体的にパフォーマンスが劣りますが、複数のサイト間でのタスクではわずかに優れたパフォーマンスを示します。

#ネチズン: しかし、それは無料です Gemini Pro还不如GPT-3.5，CMU深入对比研究：保证公平透明可重复

最終的に、CMU 准教授のグラハムニュービッグ氏は、この研究にはいくつかの限界があることを認めました

API ベースのモデルの動作はいつでも変更される可能性があります。

テストセットはリークです

Googleの大規模モデル推論チームの責任者であるZhou Dengyong氏は、ジェミニの温度を0に設定すると5〜10パーセント上昇する可能性があると指摘しましたヘルプ Gemini Pro还不如GPT-3.5，CMU深入对比研究：保证公平透明可重复

このテストでは、Gemini および GPT シリーズに加えて、最近入手したオープンソース MoE モデル Mixtral Gemini Pro还不如GPT-3.5，CMU深入对比研究：保证公平透明可重复

ただし、強化学習の専門家である Noam Brown 氏は、Mixtral は公式実装ではなくサードパーティ API を使用しているため、Mixtral の結果は無視できると考えています。

Gemini Pro还不如GPT-3.5，CMU深入对比研究：保证公平透明可重复

Mistral AI の創設者は、より良い結果をもたらすと信じて、チームに正式バージョンへのアクセスを提供しました

Gemini Pro还不如GPT-3.5，CMU深入对比研究：保证公平透明可重复

Gemini Pro は GPT ほど優れていませんが-3.5、その利点は、1 分あたり 60 呼び出しを超えない限り無料で使用できることです。

したがって、多くの個人開発者がキャンプを変更しました。 ##現在、Gemini が最も高い Ultra バージョンはまだリリースされていませんが、CMU チームはそれまでにこの研究を続ける予定ですが、Gemini Ultra は GPT-4 のレベルに到達できると思いますか?

Gemini Pro还不如GPT-3.5，CMU深入对比研究：保证公平透明可重复この記事は論文を詳しく紹介しています: https://arxiv.org/abs/2312.11444

参考リンク:

[1]https://twitter.com/gneubig/status/1737108977954251216。

以上がCMU は詳細な比較研究を実施し、GPT-3.5 が Gemini Pro よりも優れており、公平性、透明性、再現性のあるパフォーマンスを保証していることを発見しました。の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

声明

この記事は51CTO.COMで複製されています。侵害がある場合は、admin@php.cn までご連絡ください。

LLMSでのツール呼び出しApr 14, 2025 am 11:28 AM

大規模な言語モデル（LLM）は人気が急増しており、ツールコール機能は単純なテキスト生成を超えて機能を劇的に拡大しています。これで、LLMSは動的なUI作成や自律的なaなどの複雑な自動化タスクを処理できます。

ADHDゲーム、ヘルスツール、AIチャットボットがグローバルヘルスを変える方法Apr 14, 2025 am 11:27 AM

ビデオゲームは不安を緩和したり、ADHDの子供を焦点を合わせたり、サポートしたりできますか？ヘルスケアの課題が世界的に急増しているため、特に若者の間では、イノベーターはありそうもないツールであるビデオゲームに目を向けています。現在、世界最大のエンターテイメントインダスの1つです

AIに関する国連入力：勝者、敗者、および機会Apr 14, 2025 am 11:25 AM

「歴史は、技術の進歩が経済成長を促進する一方で、それ自体が公平な所得分布を確保したり、包括的な人間開発を促進したりしないことを示しています」とUNCTADの事務総長であるRebeca Grynspanは前文で書いています。

生成AIを介した交渉スキルを学ぶApr 14, 2025 am 11:23 AM

簡単な、Generative AIを交渉の家庭教師およびスパーリングパートナーとして使用してください。それについて話しましょう。革新的なAIブレークスルーのこの分析は、最新のAIに関する私の進行中のフォーブス列のカバレッジの一部であり、特定と説明を含む

テッドは、Openai、Google、Metaが法廷に向かい、自分自身とセルフィーから明らかにしますApr 14, 2025 am 11:22 AM

バンクーバーで開催されたTED2025会議は、昨日4月11日の第36版を締めくくりました。サム・アルトマン、エリック・シュミット、パーマー・ラッキーを含む60か国以上の80人の講演者が登場しました。テッドのテーマ「人類が再考された」は、仕立てられたものでした

ジョセフ・スティグリッツは、AI独占権の中で迫り来る不平等を警告しているApr 14, 2025 am 11:21 AM

ジョセフ・スティグリッツは、2001年にノーベル経済賞を受賞した経済学者であり、2001年にノーベル経済賞を受賞しています。スティグリッツは、AIが既存の不平等を悪化させ、いくつかの支配的な企業の手に統合した力を悪化させ、最終的に経済を損なうと仮定しています。

グラフデータベースとは何ですか？Apr 14, 2025 am 11:19 AM

グラフデータベース：関係を通じてデータ管理に革命をもたらすデータが拡大し、その特性がさまざまなフィールドで進化するにつれて、グラフデータベースは、相互接続されたデータを管理するための変換ソリューションとして浮上しています。伝統とは異なり

LLMルーティング：戦略、テクニック、およびPythonの実装Apr 14, 2025 am 11:14 AM

大規模な言語モデル（LLM）ルーティング：インテリジェントタスク分布によるパフォーマンスの最適 LLMSの急速に進化する風景は、それぞれが独自の長所と短所を備えた多様なモデルを提供します。創造的なコンテンツGenに優れている人もいます

See all articles

ホットAIツール

ホットツール

ホットトピック

Gmailメールのログイン入り口はどこですか？

7500

CakePHP チュートリアル

1377

Steamのアカウント名の形式は何ですか

Win11 Activation Key Permanent

NYTの接続はヒントと回答です

CMU は詳細な比較研究を実施し、GPT-3.5 が Gemini Pro よりも優れており、公平性、透明性、再現性のあるパフォーマンスを保証していることを発見しました。

質問回答: MMLU

コードに関する質問の場合、Gemini は参照回答が長い質問ではあまりパフォーマンスが良くありません

翻訳タスクでは、Gemini は拒否しました12種類の質問に答えますが、翻訳品質が優れている限り、全体的なパフォーマンスはGPT-4を超えます

ホットAIツール

Undresser.AI Undress

AI Clothes Remover

Undress AI Tool

Clothoff.io

AI Hentai Generator

人気の記事

ホットツール

ZendStudio 13.5.1 Mac

SublimeText3 Linux 新バージョン

VSCode Windows 64 ビットのダウンロード

SublimeText3 Mac版

ドリームウィーバー CS6

ホットトピック