Baidu Wenxinyiyanは国内モデルの中で最下位にランクされますか？私は混乱していた-AI-php.cn

ホームページ

テクノロジー周辺機器

Baidu Wenxinyiyanは国内モデルの中で最下位にランクされますか？私は混乱していた

WBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWB

May 24, 2023 am 09:25 AM

百度モデルオンシジウム

Xi Xiaoyao Technology Talk 原文
著者 | 孟江の販売ここ数日、私たちのパブリックアカウントコミュニティが SuperClue レビューと呼ばれるスクリーンショットを転送しています。 iFlytek は公式アカウントでもこの製品を宣伝しています:

Baidu Wenxinyiyanは国内モデルの中で最下位にランクされますか？私は混乱していた

# iFlytek Spark モデルはリリースされたばかりなので、あまりプレイしていません。本当に最強ですか?中国製? 著者はあえて結論を出さない。

しかし、この評価のスクリーンショットでは、現時点で最も人気のある国内モデルである Baidu Wenxinyiyan は、小規模な学術オープンソースモデル ChatGLM-6B にも勝てません。これは著者自身の経験と大きく矛盾しているだけでなく、私たちのプロの NLP 技術コミュニティでも誰もが混乱を表明しました。好奇心から、著者はこの超手がかりリストの github にアクセスして、この評価結論にどのように到達したかを確認しました:

https://www.php.cn/link/97c8dd44858d3568fdf9537c4b8743b2

Baidu Wenxinyiyanは国内モデルの中で最下位にランクされますか？私は混乱していた

まず第一に、作者は、このリポジトリの下にすでにいくつかの問題があることに気づきました:

Baidu Wenxinyiyanは国内モデルの中で最下位にランクされますか？私は混乱していた

このとんでもない感情は、作者だけが抱えているわけではないようです。それは確かに、大衆の目は依然として鋭いです。。。

著者は、このリストの評価方法をさらに検討しました: Baidu Wenxinyiyanは国内モデルの中で最下位にランクされますか？私は混乱していた

Baidu Wenxinyiyanは国内モデルの中で最下位にランクされますか？私は混乱していた

いいですね、いわゆる生成大規模モデルのテストが判明しました。モデルに多肢選択式の質問を実行させることがすべてです。。。

明らかに、この多肢選択評価手法は BERT 時代の判別型 AI モデルを対象としていますが、当時の AI モデルは一般に生成する能力はなく、生成する能力しかありませんでした。識別 (テキストの一部がどのカテゴリに属するかを判断できること、質問に対する選択肢のどれが正しい答えであるか、2 つのテキストの意味論が一貫しているかどうかの判断など)。

生成モデルの評価は、判別モデルの評価とはまったく異なります。

Baidu Wenxinyiyanは国内モデルの中で最下位にランクされますか？私は混乱していたたとえば、機械翻訳などの特殊な生成タスクの場合、モデルによって生成された応答と参照応答の間の「語彙とフレーズのカバレッジ」を検出するために、BLEU などの評価指標が一般的に使用されます。ただし、機械翻訳などの参照応答を伴う生成タスクはほとんどなく、生成評価の大部分は手動評価を必要とします。

たとえば、チャットスタイルのダイアログの生成、テキストスタイルの転送、章の生成、タイトルの生成、テキストの要約などの生成タスクでは、各モデルを評価して応答を自由に生成し、手動で比較する必要があります。これらのさまざまなモデルによって生成される応答、品質、またはタスクの要件が満たされているかどうかに関する人間の判断。

現在の AI コンテストはモデル生成能力のコンテストであり、モデル識別能力のコンテストではありません。評価すべき最も強力なものは、もはや冷淡な学術リストではなく、実際のユーザーの評判です。さらに、これはモデル生成機能をまったくテストしていないリストです。

過去数年を振り返る-

2019 年に OpenAI が GPT-2 をリリースしたとき、私たちはランキングをブラッシュアップするためのコツを積み上げていました;

2020 年には、 OpenAI がリリース GPT-3 中に、私たちはリストを更新するためのトリックを積み上げていました;

2021 年から 2022 年に、FLAN、T0、InstructGPT などの命令チューニングと RLHF 作業が発生したとき、私たちはまだ多くのトリックを持っていましたリスト...

この生成モデル軍備競争の波で同じ過ちを繰り返さないことを願っています。

では、生成 AI モデルはどのようにテストすればよいのでしょうか?

申し訳ありませんが、前にも述べたように、公平なテストを達成することは非常に困難であり、自分で生成モデルを開発するよりもさらに困難です。何が難しいのでしょうか？いくつかの具体的な質問:

評価の次元をどのように分割するか?理解、記憶、推論、表現によって？専門分野別ですか？それとも従来の NLP 生成評価タスクを組み合わせますか?
評価者をトレーニングするにはどうすればよいですか?コーディング、デバッグ、数学的導出、財務、法律、医療に関する Q&A など、専門的基準が非常に高いテスト問題の場合、テストする人をどのように募集しますか?
非常に主観的なテスト問題 (小紅書風のコピーライティングの作成など) の評価基準を定義するにはどうすればよいですか?
一般的なライティングに関する質問をいくつかすることで、モデルのテキスト生成/ライティング能力を表すことができますか?
モデルのテキスト生成のサブ機能を調べます。章の生成、質問と回答の生成、翻訳、要約、スタイルの転送はカバーされていますか?各タスクの割合は均等ですか?審査基準は明確ですか？統計学的に重要な？
上記の質問と回答の生成サブタスクでは、科学、医療、自動車、母子、金融、エンジニアリング、政治、軍事、エンターテイメントなどのすべての垂直カテゴリがカバーされていますか?割合は均等ですか？
会話能力を評価するにはどうすればよいですか?対話の一貫性、多様性、話題の深さ、個性化のための検査タスクをどのように設計するか?
同じ実力テストでも、簡単な問題、中程度の難易度の問題、複雑な長期問題が対象になりますか？定義方法は?それらはどのような割合を占めていますか?

これらは解決すべき基本的な問題のほんの一部ですが、実際のベンチマーク設計の過程では、上記の問題よりもさらに難しい問題が数多く発生します。

したがって、AI 実践者として、著者はさまざまな AI モデルのランキングを合理的に見るよう皆さんに呼びかけます。公平なテストベンチマークさえ存在しないのに、このランキングは何の役に立つのでしょうか?

繰り返しになりますが、生成モデルが良いかどうかは実際のユーザーに依存します。

モデルがリストでどれほど上位にランクされていても、関心のある問題を解決できない場合、それはあなたにとっては単なる平均的なモデルになります。つまり、最下位の機種が気になるシナリオに非常に強い機種であれば、それはあなたにとってお宝機種ということになります。

ここでは、著者が私たちのチームによって強化され書かれたハードケース (難しい例) のテストセットを公開します。このテストセットは、難しい問題や命令を解決するモデルの能力に焦点を当てています。

この難しいテストセットは、モデルの言語理解、複雑な命令の理解とそれに従うこと、テキスト生成、複雑なコンテンツ生成、複数回の対話、矛盾検出、常識的推論、数学的推論、反事実的推論、および危険に焦点を当てています。情報身分証明、法的および倫理的意識、中国文学の知識、異言語能力およびコーディング能力など。

繰り返しになりますが、これは、困難な例を解決する生成モデルの能力をテストするために、著者のチームが作成したケースセットです。評価結果は、「著者のチームにとってどのモデルがより良いと感じられるか」を表すだけであり、とは程遠いです。公平なテストの結論を表す公平なテストの結論が必要な場合は、まず上記の評価質問に答えてから、信頼できるテストベンチマークを定義してください。

自分で評価して検証したい友人は、この公開アカウント「Xi Xiaoyao Technology」のバックグラウンドで [AI 評価] のパスワードに返信して、テストファイルをダウンロードできます

以下は、超手がかりリストで最も物議を醸している 3 つのモデル、iFlytek Spark、Wenxin Yiyan、ChatGPT の評価結果です。

Baidu Wenxinyiyanは国内モデルの中で最下位にランクされますか？私は混乱していた

#困難なケースの解決率:

Wen Xinyi Words (2023.5) .10 バージョン）: 13/24=54.16%
iFlytek Spark (2023.5.10 バージョン): 7/24=29.16%

これは、そうではないという証拠を示すためのものです。フェイシンフオはウェン・シンイーヤンと同じくらい優れていますか？前回の記事をよく読んでいただければ、著者の言いたいことが理解できると思います。

確かに、私たちのチーム内の一連の困難なケースでは、Spark モデルは Wen Xinyiyan ほど優れていませんが、これは、全体として一方が他方よりも確実に優れているという意味ではありません。私たちのチーム内の難しいケーステストセットでは、Wenxinyiyan が最高のパフォーマンスを発揮し、ChatGPT よりも 2 つの難しいケースを解決しました。

素朴な疑問ですが、実は国内モデルとChatGPTには大きな違いはありません。難しい問題に対しては、各モデルに独自の強みがあります。著者のチームの包括的な経験から判断すると、Wen Xinyiyan は、学術テストでは ChatGLM-6B などのオープンソースモデルを上回るのに十分ですが、ChatGPT よりも劣る機能もあれば、ChatGPT を上回る機能もあります。

Alibaba Tongyi Qianwen や iFlytek Spark など、他の大手メーカーが製造する国内モデルも同様です。

そうは言っても、現在では公平なテストベンチマークさえ存在しないのに、モデルをランク付けすることに何の意味があるのでしょうか?

さまざまな偏ったランキングについて議論するよりも、著者のチームが行ったように、関心のあるテストセットを作成する方が良いでしょう。

問題を解決できるモデルは、優れたモデルです。

以上がBaidu Wenxinyiyanは国内モデルの中で最下位にランクされますか？私は混乱していたの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

声明

この記事は51CTO.COMで複製されています。侵害がある場合は、admin@php.cn までご連絡ください。

Gemma Scope：AI＆＃039;の思考プロセスを覗くためのGoogle＆＃039;の顕微鏡Apr 17, 2025 am 11:55 AM

ジェマの範囲で言語モデルの内部の仕組みを探る AI言語モデルの複雑さを理解することは、重要な課題です。包括的なツールキットであるGemma ScopeのGoogleのリリースは、研究者に掘り下げる強力な方法を提供します

ビジネスインテリジェンスアナリストは誰で、どのようになるか？Apr 17, 2025 am 11:44 AM

ビジネスの成功のロック解除：ビジネスインテリジェンスアナリストになるためのガイド生データを組織の成長を促進する実用的な洞察に変換することを想像してください。これはビジネスインテリジェンス（BI）アナリストの力です - GUにおける重要な役割

SQLに列を追加する方法は？ - 分析VidhyaApr 17, 2025 am 11:43 AM

SQLの変更テーブルステートメント：データベースに列を動的に追加するデータ管理では、SQLの適応性が重要です。その場でデータベース構造を調整する必要がありますか？ Alter Tableステートメントはあなたの解決策です。このガイドの詳細は、コルを追加します

ビジネスアナリストとデータアナリストApr 17, 2025 am 11:38 AM

導入 2人の専門家が重要なプロジェクトで協力している賑やかなオフィスを想像してください。ビジネスアナリストは、会社の目標に焦点を当て、改善の分野を特定し、市場動向との戦略的整合を確保しています。シム

ExcelのCountとCountaとは何ですか？ - 分析VidhyaApr 17, 2025 am 11:34 AM

Excelデータカウントと分析：カウントとカウントの機能の詳細な説明特に大規模なデータセットを使用する場合、Excelでは、正確なデータカウントと分析が重要です。 Excelは、これを達成するためにさまざまな機能を提供し、CountおよびCounta関数は、さまざまな条件下でセルの数をカウントするための重要なツールです。両方の機能はセルをカウントするために使用されますが、設計ターゲットは異なるデータ型をターゲットにしています。 CountおよびCounta機能の特定の詳細を掘り下げ、独自の機能と違いを強調し、データ分析に適用する方法を学びましょう。キーポイントの概要カウントとcouを理解します

ChromeはAIと一緒にここにいます：毎日何か新しいことを体験してください!!Apr 17, 2025 am 11:29 AM

Google Chrome'sAI Revolution：パーソナライズされた効率的なブラウジングエクスペリエンス人工知能（AI）は私たちの日常生活を急速に変換しており、Google ChromeはWebブラウジングアリーナで料金をリードしています。この記事では、興奮を探ります

ai＆＃x27; s Human Side：Wellbeing and the Quadruple bottuntApr 17, 2025 am 11:28 AM

インパクトの再考：四重材のボトムライン長い間、会話はAIの影響の狭い見方に支配されており、主に利益の最終ラインに焦点を当てています。ただし、より全体的なアプローチは、BUの相互接続性を認識しています

5ゲームを変える量子コンピューティングの使用ケースあなたが知っておくべきであるApr 17, 2025 am 11:24 AM

物事はその点に向かって着実に動いています。量子サービスプロバイダーとスタートアップに投資する投資は、業界がその重要性を理解していることを示しています。そして、その価値を示すために、現実世界のユースケースの数が増えています

See all articles

ホットAIツール

Undresser.AI Undress

リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover

写真から衣服を削除するオンライン AI ツール。

Undress AI Tool

脱衣画像を無料で

Clothoff.io

AI衣類リムーバー

AI Hentai Generator

AIヘンタイを無料で生成します。

ホットツール

mPDF

mPDF は、UTF-8 でエンコードされた HTML から PDF ファイルを生成できる PHP ライブラリです。オリジナルの作者である Ian Back は、Web サイトから「オンザフライ」で PDF ファイルを出力し、さまざまな言語を処理するために mPDF を作成しました。 HTML2FPDF などのオリジナルのスクリプトよりも遅く、Unicode フォントを使用すると生成されるファイルが大きくなりますが、CSS スタイルなどをサポートし、多くの機能強化が施されています。 RTL (アラビア語とヘブライ語) や CJK (中国語、日本語、韓国語) を含むほぼすべての言語をサポートします。ネストされたブロックレベル要素 (P、DIV など) をサポートします。