検索
ホームページテクノロジー周辺機器AICMU は詳細な比較研究を実施し、GPT-3.5 が Gemini Pro よりも優れており、公平性、透明性、再現性のあるパフォーマンスを保証していることを発見しました。

Gemini Pro还不如GPT-3.5,CMU深入对比研究:保证公平透明可重复

Google Gemini の強みは何ですか?カーネギーメロン大学は、専門的かつ客観的なサードパーティによる比較を実施しました。

公平性を確保するために、#すべてのモデルは同じプロンプトと生成パラメータを使用し、再現可能なコードと完全な透過的な結果を提供します

Gemini Pro还不如GPT-3.5,CMU深入对比研究:保证公平透明可重复

は、

Google の公式カンファレンス のように、5 ショットの比較に CoT@32 を使用しません。

結果を 1 文にまとめると:

Gemini Pro バージョンは GPT-3.5 Turbo に近いもののわずかに劣ります 、GPT-4 はまだはるかに先を行っています。

Gemini Pro还不如GPT-3.5,CMU深入对比研究:保证公平透明可重复

詳細な分析では、次のような双子座のいくつかの奇妙な特徴も見つかりました。多肢選択問題...

多くの研究者は、Gemini はリリース後わずか数日で非常に詳細なテストを受けたと述べており、これは非常に注目に値する成果です

Gemini Pro还不如GPT-3.5,CMU深入对比研究:保证公平透明可重复

6 つの主要タスクの詳細テスト

このテストでは、6 つの異なるタスクを具体的に比較し、各タスクに対応するデータ セットを選択しますGemini Pro还不如GPT-3.5,CMU深入对比研究:保证公平透明可重复

質問回答: MMLU

推論: BIG-Bench Hard

    数学: GSM8k、SVAMP、ASDIV、MAWPS
  • コード: HumanEval、ODEX
  • 翻訳: FLORES
  • インターネットサーフィン: WebArena
  • トリビア: D
  • を選択するのが好き 結果によると、このタイプの思考連鎖プロンプトを使用すると、タスクは必ずしも効果を向上させるわけではありません

MMLU データセットでは、すべての質問は多肢選択式の質問です。結果をさらに分析した結果、奇妙な現象が発見されました: Gemini はオプション D を好みます。4 つのオプション間の GPT シリーズの分布はよりバランスが取れています。チームは、これが Gemini

が原因で発生した可能性があることを示唆しました。多肢選択問題に対する多くの指示を微調整しないことによって。 Gemini Pro还不如GPT-3.5,CMU深入对比研究:保证公平透明可重复

さらに、Gemini のセキュリティ フィルタリングは非常に厳格です。倫理的な質問に関しては、質問の 85% しか答えられません。そして、人間のセクシュアリティに関する質問に関しては、質問の 28% しか答えられませんでした。

Gemini Pro は、セキュリティ研究と高校のミクロ経済学で GPT を上回りました (3.5)。ギャップは大きくなく、チームは特別なものは見つからなかったと述べています

Gemini Pro还不如GPT-3.5,CMU深入对比研究:保证公平透明可重复

理由付け: 長い質問は苦手です

Gemini Pro还不如GPT-3.5,CMU深入对比研究:保证公平透明可重复

GPT シリーズは、より長く複雑な問題を処理するときにパフォーマンスが向上します。それに比べて、Gemini Pro のパフォーマンスは低くなります。

Gemini Pro还不如GPT-3.5,CMU深入对比研究:保证公平透明可重复特に長い問題では、GPT-4 Turbo のパフォーマンスはほとんどありません。パフォーマンスは低下します。複雑な問題を理解する優れた能力を持っているということです。この種の問題には、人々がアイテムを交換することが含まれており、最終的には AI が各人がどのアイテムを所有しているかを判断する必要があります。

Gemini Pro还不如GPT-3.5,CMU深入对比研究:保证公平透明可重复

ジェミニが得意とするタスクには、世界のスポーツ知識の理解、記号スタックの操作、単語のアルファベット順の並べ替え、表の解析などがあります。

Gemini Pro还不如GPT-3.5,CMU深入对比研究:保证公平透明可重复

##数学:複雑なタスクでの優位性

Gemini Pro还不如GPT-3.5,CMU深入对比研究:保证公平透明可重复

質問自体が長すぎるため、Gemini Pro と GPT-3.5 のパフォーマンスが同時に低下します。GPT-4 のみが、一貫したレベル

Gemini Pro还不如GPT-3.5,CMU深入对比研究:保证公平透明可重复

思考連鎖の長さが最長に達すると、Gemini は GPT-3.5 を超えます

Gemini Pro还不如GPT-3.5,CMU深入对比研究:保证公平透明可重复## コード: matplotlib が得意です

コードに関する質問の場合、Gemini は参照回答が長い質問ではあまりパフォーマンスが良くありません

Gemini Pro还不如GPT-3.5,CMU深入对比研究:保证公平透明可重复 GPT シリーズはほとんどのタイプで強力ですが、 matplotlib のパフォーマンスが低い まったく良くない

Gemini Pro还不如GPT-3.5,CMU深入对比研究:保证公平透明可重复#翻訳: 応答がある限り、品質は高いです

翻訳タスクでは、Gemini は拒否しました12種類の質問に答えますが、翻訳品質が優れている限り、全体的なパフォーマンスはGPT-4を超えます

Gemini Pro还不如GPT-3.5,CMU深入对比研究:保证公平透明可重复Geminiが翻訳を拒否する言語は主にラテン語ですおよびアラビア語

Gemini Pro还不如GPT-3.5,CMU深入对比研究:保证公平透明可重复ネットワーク ナビゲーション: クロスサイト サーフィンが得意です

WebArena は、電子商取引、ソーシャル フォーラム、GitLab コラボレーションなど、AI 用のインターネット環境をシミュレートします。開発、コンテンツ管理システム、オンライン マップ。 AI は、この環境で情報を見つけたり、複数のサイト間でタスクを完了したりする必要があります。

Gemini は、GPT-3.5 Turbo よりも全体的にパフォーマンスが劣りますが、複数のサイト間でのタスクではわずかに優れたパフォーマンスを示します。

#ネチズン: しかし、それは無料ですGemini Pro还不如GPT-3.5,CMU深入对比研究:保证公平透明可重复

最終的に、CMU 准教授のグラハム ニュービッグ氏は、この研究にはいくつかの限界があることを認めました

API ベースのモデルの動作はいつでも変更される可能性があります。

    試行されたプロンプトの数は限られており、異なるモデルに適用されるプロンプトの言葉は異なる場合があります。
  • テストセットはリークです

Googleの大規模モデル推論チームの責任者であるZhou Dengyong氏は、ジェミニの温度を0に設定すると5〜10パーセント上昇する可能性があると指摘しましたヘルプGemini Pro还不如GPT-3.5,CMU深入对比研究:保证公平透明可重复

このテストでは、Gemini および GPT シリーズに加えて、最近入手したオープン ソース MoE モデル MixtralGemini Pro还不如GPT-3.5,CMU深入对比研究:保证公平透明可重复

ただし、強化学習の専門家である Noam Brown 氏は、Mixtral は公式実装ではなくサードパーティ API を使用しているため、Mixtral の結果は無視できると考えています。

Gemini Pro还不如GPT-3.5,CMU深入对比研究:保证公平透明可重复

Mistral AI の創設者は、より良い結果をもたらすと信じて、チームに正式バージョンへのアクセスを提供しました

Gemini Pro还不如GPT-3.5,CMU深入对比研究:保证公平透明可重复

Gemini Pro は GPT ほど優れていませんが-3.5、その利点は、1 分あたり 60 呼び出しを超えない限り無料で使用できることです。

したがって、多くの個人開発者がキャンプを変更しました。 ##現在、Gemini が最も高い Ultra バージョンはまだリリースされていませんが、CMU チームはそれまでにこの研究を続ける予定ですが、Gemini Ultra は GPT-4 のレベルに到達できると思いますか?

Gemini Pro还不如GPT-3.5,CMU深入对比研究:保证公平透明可重复この記事は論文を詳しく紹介しています: https://arxiv.org/abs/2312.11444

参考リンク:

[1]https://twitter.com/gneubig/status/1737108977954251216。

以上がCMU は詳細な比較研究を実施し、GPT-3.5 が Gemini Pro よりも優れており、公平性、透明性、再現性のあるパフォーマンスを保証していることを発見しました。の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

声明
この記事は51CTO.COMで複製されています。侵害がある場合は、admin@php.cn までご連絡ください。
LLMSでのツール呼び出しLLMSでのツール呼び出しApr 14, 2025 am 11:28 AM

大規模な言語モデル(LLM)は人気が急増しており、ツールコール機能は単純なテキスト生成を超えて機能を劇的に拡大しています。 これで、LLMSは動的なUI作成や自律的なaなどの複雑な自動化タスクを処理できます。

ADHDゲーム、ヘルスツール、AIチャットボットがグローバルヘルスを変える方法ADHDゲーム、ヘルスツール、AIチャットボットがグローバルヘルスを変える方法Apr 14, 2025 am 11:27 AM

ビデオゲームは不安を緩和したり、ADHDの子供を焦点を合わせたり、サポートしたりできますか? ヘルスケアの課題が世界的に急増しているため、特に若者の間では、イノベーターはありそうもないツールであるビデオゲームに目を向けています。現在、世界最大のエンターテイメントインダスの1つです

AIに関する国連入力:勝者、敗者、および機会AIに関する国連入力:勝者、敗者、および機会Apr 14, 2025 am 11:25 AM

「歴史は、技術の進歩が経済成長を促進する一方で、それ自体が公平な所得分布を確保したり、包括的な人間開発を促進したりしないことを示しています」とUNCTADの事務総長であるRebeca Grynspanは前文で書いています。

生成AIを介した交渉スキルを学ぶ生成AIを介した交渉スキルを学ぶApr 14, 2025 am 11:23 AM

簡単な、Generative AIを交渉の家庭教師およびスパーリングパートナーとして使用してください。 それについて話しましょう。 革新的なAIブレークスルーのこの分析は、最新のAIに関する私の進行中のフォーブス列のカバレッジの一部であり、特定と説明を含む

テッドは、Openai、Google、Metaが法廷に向かい、自分自身とセルフィーから明らかにしますテッドは、Openai、Google、Metaが法廷に向かい、自分自身とセルフィーから明らかにしますApr 14, 2025 am 11:22 AM

バンクーバーで開催されたTED2025会議は、昨日4月11日の第36版を締めくくりました。サム・アルトマン、エリック・シュミット、パーマー・ラッキーを含む60か国以上の80人の講演者が登場しました。テッドのテーマ「人類が再考された」は、仕立てられたものでした

ジョセフ・スティグリッツは、AI独占権の中で迫り来る不平等を警告しているジョセフ・スティグリッツは、AI独占権の中で迫り来る不平等を警告しているApr 14, 2025 am 11:21 AM

ジョセフ・スティグリッツは、2001年にノーベル経済賞を受賞した経済学者であり、2001年にノーベル経済賞を受賞しています。スティグリッツは、AIが既存の不平等を悪化させ、いくつかの支配的な企業の手に統合した力を悪化させ、最終的に経済を損なうと仮定しています。

グラフデータベースとは何ですか?グラフデータベースとは何ですか?Apr 14, 2025 am 11:19 AM

グラフデータベース:関係を通じてデータ管理に革命をもたらす データが拡大し、その特性がさまざまなフィールドで進化するにつれて、グラフデータベースは、相互接続されたデータを管理するための変換ソリューションとして浮上しています。伝統とは異なり

LLMルーティング:戦略、テクニック、およびPythonの実装LLMルーティング:戦略、テクニック、およびPythonの実装Apr 14, 2025 am 11:14 AM

大規模な言語モデル(LLM)ルーティング:インテリジェントタスク分布によるパフォーマンスの最適 LLMSの急速に進化する風景は、それぞれが独自の長所と短所を備えた多様なモデルを提供します。 創造的なコンテンツGenに優れている人もいます

See all articles

ホットAIツール

Undresser.AI Undress

Undresser.AI Undress

リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover

AI Clothes Remover

写真から衣服を削除するオンライン AI ツール。

Undress AI Tool

Undress AI Tool

脱衣画像を無料で

Clothoff.io

Clothoff.io

AI衣類リムーバー

AI Hentai Generator

AI Hentai Generator

AIヘンタイを無料で生成します。

ホットツール

ZendStudio 13.5.1 Mac

ZendStudio 13.5.1 Mac

強力な PHP 統合開発環境

SublimeText3 Linux 新バージョン

SublimeText3 Linux 新バージョン

SublimeText3 Linux 最新バージョン

VSCode Windows 64 ビットのダウンロード

VSCode Windows 64 ビットのダウンロード

Microsoft によって発売された無料で強力な IDE エディター

SublimeText3 Mac版

SublimeText3 Mac版

神レベルのコード編集ソフト(SublimeText3)

ドリームウィーバー CS6

ドリームウィーバー CS6

ビジュアル Web 開発ツール