ホームページ  >  記事  >  テクノロジー周辺機器  >  Baidu Wenxinyiyanは国内モデルの中で最下位にランクされますか?私は混乱していた

Baidu Wenxinyiyanは国内モデルの中で最下位にランクされますか?私は混乱していた

WBOY
WBOY転載
2023-05-24 09:25:051675ブラウズ

Xi Xiaoyao Technology Talk 原文
著者 | 孟江の販売 ここ数日、私たちのパブリック アカウント コミュニティが SuperClue レビューと呼ばれるスクリーンショットを転送しています。 iFlytek は公式アカウントでもこの製品を宣伝しています:

Baidu Wenxinyiyanは国内モデルの中で最下位にランクされますか?私は混乱していた

# iFlytek Spark モデルはリリースされたばかりなので、あまりプレイしていません。本当に最強ですか?中国製? 著者はあえて結論を出さない。

しかし、この評価のスクリーンショットでは、現時点で最も人気のある国内モデルである Baidu Wenxinyiyan は、小規模な学術オープンソース モデル ChatGLM-6B にも勝てません。これは著者自身の経験と大きく矛盾しているだけでなく、私たちのプロの NLP 技術コミュニティでも誰もが混乱を表明しました。好奇心から、著者はこの超手がかりリストの github にアクセスして、この評価結論にどのように到達したかを確認しました:

https://www.php.cn/link/97c8dd44858d3568fdf9537c4b8743b2

Baidu Wenxinyiyanは国内モデルの中で最下位にランクされますか?私は混乱していた

まず第一に、作者は、このリポジトリの下にすでにいくつかの問題があることに気づきました:

Baidu Wenxinyiyanは国内モデルの中で最下位にランクされますか?私は混乱していた

このとんでもない感情は、作者だけが抱えているわけではないようです。それは確かに、大衆の目は依然として鋭いです。 。 。

著者は、このリストの評価方法をさらに検討しました: Baidu Wenxinyiyanは国内モデルの中で最下位にランクされますか?私は混乱していた

Baidu Wenxinyiyanは国内モデルの中で最下位にランクされますか?私は混乱していた

いいですね、いわゆる生成大規模モデルのテストが判明しました。モデルに多肢選択式の質問を実行させることがすべてです。 。 。

明らかに、この多肢選択評価手法は BERT 時代の判別型 AI モデルを対象としていますが、当時の AI モデルは一般に生成する能力はなく、生成する能力しかありませんでした。識別 (テキストの一部がどのカテゴリに属する​​かを判断できること、質問に対する選択肢のどれが正しい答えであるか、2 つのテキストの意味論が一貫しているかどうかの判断など)。

生成モデルの評価は、判別モデルの評価とはまったく異なります。

Baidu Wenxinyiyanは国内モデルの中で最下位にランクされますか?私は混乱していたたとえば、機械翻訳などの特殊な生成タスクの場合、モデルによって生成された応答と参照応答の間の「語彙とフレーズのカバレッジ」を検出するために、BLEU などの評価指標が一般的に使用されます。ただし、機械翻訳などの参照応答を伴う生成タスクはほとんどなく、生成評価の大部分は手動評価を必要とします。

たとえば、チャット スタイルのダイアログの生成、テキスト スタイルの転送、章の生成、タイトルの生成、テキストの要約などの生成タスクでは、各モデルを評価して応答を自由に生成し、手動で比較する必要があります。これらのさまざまなモデルによって生成される応答、品質、またはタスクの要件が満たされているかどうかに関する人間の判断。

現在の AI コンテストはモデル生成能力のコンテストであり、モデル識別能力のコンテストではありません。評価すべき最も強力なものは、もはや冷淡な学術リストではなく、実際のユーザーの評判です。さらに、これはモデル生成機能をまったくテストしていないリストです。

過去数年を振り返る-

2019 年に OpenAI が GPT-2 をリリースしたとき、私たちはランキングをブラッシュアップするためのコツを積み上げていました;

2020 年には、 OpenAI がリリース GPT-3 中に、私たちはリストを更新するためのトリックを積み上げていました;

2021 年から 2022 年に、FLAN、T0、InstructGPT などの命令チューニングと RLHF 作業が発生したとき、私たちはまだ多くのトリックを持っていましたリスト...

この生成モデル軍備競争の波で同じ過ちを繰り返さないことを願っています。

では、生成 AI モデルはどのようにテストすればよいのでしょうか?

申し訳ありませんが、前にも述べたように、公平なテストを達成することは非常に困難であり、自分で生成モデルを開発するよりもさらに困難です。何が難しいのでしょうか?いくつかの具体的な質問:

  • 評価の次元をどのように分割するか?理解、記憶、推論、表現によって?専門分野別ですか?それとも従来の NLP 生成評価タスクを組み合わせますか?
  • 評価者をトレーニングするにはどうすればよいですか?コーディング、デバッグ、数学的導出、財務、法律、医療に関する Q&A など、専門的基準が非常に高いテスト問題の場合、テストする人をどのように募集しますか?
  • 非常に主観的なテスト問題 (小紅書風のコピーライティングの作成など) の評価基準を定義するにはどうすればよいですか?
  • 一般的なライティングに関する質問をいくつかすることで、モデルのテキスト生成/ライティング能力を表すことができますか?
  • モデルのテキスト生成のサブ機能を調べます。章の生成、質問と回答の生成、翻訳、要約、スタイルの転送はカバーされていますか?各タスクの割合は均等ですか?審査基準は明確ですか?統計学的に重要な?
  • 上記の質問と回答の生成サブタスクでは、科学、医療、自動車、母子、金融、エンジニアリング、政治、軍事、エンターテイメントなどのすべての垂直カテゴリがカバーされていますか?割合は均等ですか?
  • 会話能力を評価するにはどうすればよいですか?対話の一貫性、多様性、話題の深さ、個性化のための検査タスクをどのように設計するか?
  • 同じ実力テストでも、簡単な問題、中程度の難易度の問題、複雑な長期問題が対象になりますか?定義方法は?それらはどのような割合を占めていますか?

これらは解決すべき基本的な問題のほんの一部ですが、実際のベンチマーク設計の過程では、上記の問題よりもさらに難しい問題が数多く発生します。

したがって、AI 実践者として、著者はさまざまな AI モデルのランキングを合理的に見るよう皆さんに呼びかけます。公平なテストベンチマークさえ存在しないのに、このランキングは何の役に立つのでしょうか?

繰り返しになりますが、生成モデルが良いかどうかは実際のユーザーに依存します。

モデルがリストでどれほど上位にランクされていても、関心のある問題を解決できない場合、それはあなたにとっては単なる平均的なモデルになります。つまり、最下位の機種が気になるシナリオに非常に強い機種であれば、それはあなたにとってお宝機種ということになります。

ここでは、著者が私たちのチームによって強化され書かれたハードケース (難しい例) のテスト セットを公開します。このテスト セットは、難しい問題や命令を解決するモデルの能力に焦点を当てています。

この難しいテスト セットは、モデルの言語理解、複雑な命令の理解とそれに従うこと、テキスト生成、複雑なコンテンツ生成、複数回の対話、矛盾検出、常識的推論、数学的推論、反事実的推論、および危険に焦点を当てています。情報 身分証明、法的および倫理的意識、中国文学の知識、異言語能力およびコーディング能力など。

繰り返しになりますが、これは、困難な例を解決する生成モデルの能力をテストするために、著者のチームが作成したケースセットです。評価結果は、「著者のチームにとってどのモデルがより良いと感じられるか」を表すだけであり、とは程遠いです。公平なテストの結論を表す 公平なテストの結論が必要な場合は、まず上記の評価質問に答えてから、信頼できるテスト ベンチマークを定義してください。

自分で評価して検証したい友人は、この公開アカウント「Xi Xiaoyao Technology」のバックグラウンドで [AI 評価] のパスワードに返信して、テスト ファイルをダウンロードできます

以下は、超手がかりリストで最も物議を醸している 3 つのモデル、iFlytek Spark、Wenxin Yiyan、ChatGPT の評価結果です。

Baidu Wenxinyiyanは国内モデルの中で最下位にランクされますか?私は混乱していた

Baidu Wenxinyiyanは国内モデルの中で最下位にランクされますか?私は混乱していた

Baidu Wenxinyiyanは国内モデルの中で最下位にランクされますか?私は混乱していた

#困難なケースの解決率:

    ChatGPT (GPT-3.5-turbo): 11/24=45.83%
  • Wen Xinyi Words (2023.5) .10 バージョン): 13/24=54.16%
  • iFlytek Spark (2023.5.10 バージョン): 7/24=29.16%
これは、そうではないという証拠を示すためのものです。フェイシンフオはウェン・シンイーヤンと同じくらい優れていますか?前回の記事をよく読んでいただければ、著者の言いたいことが理解できると思います。

確かに、私たちのチーム内の一連の困難なケースでは、Spark モデルは Wen Xinyiyan ほど優れていませんが、これは、全体として一方が他方よりも確実に優れているという意味ではありません。私たちのチーム内の難しいケース テスト セットでは、Wenxinyiyan が最高のパフォーマンスを発揮し、ChatGPT よりも 2 つの難しいケースを解決しました。

素朴な疑問ですが、実は国内モデルとChatGPTには大きな違いはありません。難しい問題に対しては、各モデルに独自の強みがあります。著者のチームの包括的な経験から判断すると、Wen Xinyiyan は、学術テストでは ChatGLM-6B などのオープン ソース モデルを上回るのに十分ですが、ChatGPT よりも劣る機能もあれば、ChatGPT を上回る機能もあります。

Alibaba Tongyi Qianwen や iFlytek Spark など、他の大手メーカーが製造する国内モデルも同様です。

そうは言っても、現在では公平なテスト ベンチマークさえ存在しないのに、モデルをランク付けすることに何の意味があるのでしょうか?

さまざまな偏ったランキングについて議論するよりも、著者のチームが行ったように、関心のあるテスト セットを作成する方が良いでしょう。

問題を解決できるモデルは、優れたモデルです。

以上がBaidu Wenxinyiyanは国内モデルの中で最下位にランクされますか?私は混乱していたの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

声明:
この記事は51cto.comで複製されています。侵害がある場合は、admin@php.cn までご連絡ください。