ホームページ >テクノロジー周辺機器 >AI >先代「すかいらーく」比19%アップのお手玉大型モデルの評価結果が判明
最近、火山エンジンパワーカンファレンスで大型ビーンバッグモデルが正式にリリースされました。大型モデルの超低価格化が進む中、Doubaoのモデル性能も業界の注目を集めています。
Volcano Engine の製品情報の中で、Doubao モデル チームは、MMLU、BBH、GSM8K、HumanEval などの 11 の主流業界の公開評価セットに関する、第 1 段階の内部テスト結果の一部を公開しました。 -pro-4k の合計 76.8 ポイントを獲得し、前世代モデル Skylark2 の 64.5 ポイントと比較して 19% 増加しました。これは、同時期にテストした他の国内モデルよりも優れています。
この評価は今年5月に完了し、主にUniversal Model Pro、Skylark2、および9つの国内大言語モデルが含まれていました。 Skylark2 を除くその他のモデルは、さまざまなメーカーからリリースされている最新の高度なバージョンであり、API 呼び出しを通じてテストされています。
写真: Doubaoモデルチームの内部テスト結果
評価結果によると、Doubaoは2つの評価セット「HumanEval」と「MBPP」において、前世代モデルと比較して50%向上しました。コード機能の評価については、次の専門的な知識と指導の評価セットで、Doubao はそれぞれ 33% と 24% のパフォーマンス向上を達成し、最高のスコアを獲得した国内モデルでもありました。
数学的能力、言語理解能力、総合評価セットBCMMLUとCEvalに加えて、優れたパフォーマンスも備えています。得点ランキングではトップ3にランクイン。 11 の公開評価セットのテスト結果に基づいて、Doubao Universal Model-pro の合計スコアは 76.8 ポイントです。 OpenAIが発表したテスト結果によると、GPT-4はこれらの評価セットの合計スコアが80.1点で、依然として国内モデルと比べて一定のリードを保っている。
ビーンバッグモデルは5月15日に発売されたばかりで、まだ第三者機関のテストに含まれていないと報告されています。今後 1 ~ 2 か月以内に、多くの第三者評価機関がこのモデルの評価結果を段階的に公開すると予想されます。モデルと同名のAIアシスタント「Doubao」は月間アクティブユーザー数が2600万人に達したと公式発表しており、ユーザーは自由に体験・テストすることができる。
以前、Zhiyuan Research Instituteは、世界中の91の言語モデルを対象とした評価レポートを発表しました。中国語能力に重点を置いた主観評価では、Skylark2が1位となり、その中国語能力はGPT-4を上回りました。
写真:志源研究所の言語モデルの評価結果(モデルは4月20日以前のバージョン)
以上が先代「すかいらーく」比19%アップのお手玉大型モデルの評価結果が判明の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。