Xi Xiaoyao Technology Talk 原文
著者 | 孟江の販売 ここ数日、私たちのパブリック アカウント コミュニティが SuperClue レビューと呼ばれるスクリーンショットを転送しています。 iFlytek は公式アカウントでもこの製品を宣伝しています:
# iFlytek Spark モデルはリリースされたばかりなので、あまりプレイしていません。本当に最強ですか?中国製? 著者はあえて結論を出さない。
しかし、この評価のスクリーンショットでは、現時点で最も人気のある国内モデルである Baidu Wenxinyiyan は、小規模な学術オープンソース モデル ChatGLM-6B にも勝てません。これは著者自身の経験と大きく矛盾しているだけでなく、私たちのプロの NLP 技術コミュニティでも誰もが混乱を表明しました。好奇心から、著者はこの超手がかりリストの github にアクセスして、この評価結論にどのように到達したかを確認しました:
https://www.php.cn/link/97c8dd44858d3568fdf9537c4b8743b2このとんでもない感情は、作者だけが抱えているわけではないようです。それは確かに、大衆の目は依然として鋭いです。 。 。
著者は、このリストの評価方法をさらに検討しました:
たとえば、機械翻訳などの特殊な生成タスクの場合、モデルによって生成された応答と参照応答の間の「語彙とフレーズのカバレッジ」を検出するために、BLEU などの評価指標が一般的に使用されます。ただし、機械翻訳などの参照応答を伴う生成タスクはほとんどなく、生成評価の大部分は手動評価を必要とします。
たとえば、チャット スタイルのダイアログの生成、テキスト スタイルの転送、章の生成、タイトルの生成、テキストの要約などの生成タスクでは、各モデルを評価して応答を自由に生成し、手動で比較する必要があります。これらのさまざまなモデルによって生成される応答、品質、またはタスクの要件が満たされているかどうかに関する人間の判断。
現在の AI コンテストはモデル生成能力のコンテストであり、モデル識別能力のコンテストではありません。評価すべき最も強力なものは、もはや冷淡な学術リストではなく、実際のユーザーの評判です。さらに、これはモデル生成機能をまったくテストしていないリストです。
過去数年を振り返る-
2019 年に OpenAI が GPT-2 をリリースしたとき、私たちはランキングをブラッシュアップするためのコツを積み上げていました;
2020 年には、 OpenAI がリリース GPT-3 中に、私たちはリストを更新するためのトリックを積み上げていました;
2021 年から 2022 年に、FLAN、T0、InstructGPT などの命令チューニングと RLHF 作業が発生したとき、私たちはまだ多くのトリックを持っていましたリスト...
この生成モデル軍備競争の波で同じ過ちを繰り返さないことを願っています。
では、生成 AI モデルはどのようにテストすればよいのでしょうか?
申し訳ありませんが、前にも述べたように、公平なテストを達成することは非常に困難であり、自分で生成モデルを開発するよりもさらに困難です。何が難しいのでしょうか?いくつかの具体的な質問:
- 評価の次元をどのように分割するか?理解、記憶、推論、表現によって?専門分野別ですか?それとも従来の NLP 生成評価タスクを組み合わせますか?
- 評価者をトレーニングするにはどうすればよいですか?コーディング、デバッグ、数学的導出、財務、法律、医療に関する Q&A など、専門的基準が非常に高いテスト問題の場合、テストする人をどのように募集しますか?
- 非常に主観的なテスト問題 (小紅書風のコピーライティングの作成など) の評価基準を定義するにはどうすればよいですか?
- 一般的なライティングに関する質問をいくつかすることで、モデルのテキスト生成/ライティング能力を表すことができますか?
- モデルのテキスト生成のサブ機能を調べます。章の生成、質問と回答の生成、翻訳、要約、スタイルの転送はカバーされていますか?各タスクの割合は均等ですか?審査基準は明確ですか?統計学的に重要な?
- 上記の質問と回答の生成サブタスクでは、科学、医療、自動車、母子、金融、エンジニアリング、政治、軍事、エンターテイメントなどのすべての垂直カテゴリがカバーされていますか?割合は均等ですか?
- 会話能力を評価するにはどうすればよいですか?対話の一貫性、多様性、話題の深さ、個性化のための検査タスクをどのように設計するか?
- 同じ実力テストでも、簡単な問題、中程度の難易度の問題、複雑な長期問題が対象になりますか?定義方法は?それらはどのような割合を占めていますか?
これらは解決すべき基本的な問題のほんの一部ですが、実際のベンチマーク設計の過程では、上記の問題よりもさらに難しい問題が数多く発生します。
したがって、AI 実践者として、著者はさまざまな AI モデルのランキングを合理的に見るよう皆さんに呼びかけます。公平なテストベンチマークさえ存在しないのに、このランキングは何の役に立つのでしょうか?
繰り返しになりますが、生成モデルが良いかどうかは実際のユーザーに依存します。
モデルがリストでどれほど上位にランクされていても、関心のある問題を解決できない場合、それはあなたにとっては単なる平均的なモデルになります。つまり、最下位の機種が気になるシナリオに非常に強い機種であれば、それはあなたにとってお宝機種ということになります。
ここでは、著者が私たちのチームによって強化され書かれたハードケース (難しい例) のテスト セットを公開します。このテスト セットは、難しい問題や命令を解決するモデルの能力に焦点を当てています。
この難しいテスト セットは、モデルの言語理解、複雑な命令の理解とそれに従うこと、テキスト生成、複雑なコンテンツ生成、複数回の対話、矛盾検出、常識的推論、数学的推論、反事実的推論、および危険に焦点を当てています。情報 身分証明、法的および倫理的意識、中国文学の知識、異言語能力およびコーディング能力など。
繰り返しになりますが、これは、困難な例を解決する生成モデルの能力をテストするために、著者のチームが作成したケースセットです。評価結果は、「著者のチームにとってどのモデルがより良いと感じられるか」を表すだけであり、とは程遠いです。公平なテストの結論を表す 公平なテストの結論が必要な場合は、まず上記の評価質問に答えてから、信頼できるテスト ベンチマークを定義してください。
自分で評価して検証したい友人は、この公開アカウント「Xi Xiaoyao Technology」のバックグラウンドで [AI 評価] のパスワードに返信して、テスト ファイルをダウンロードできます
以下は、超手がかりリストで最も物議を醸している 3 つのモデル、iFlytek Spark、Wenxin Yiyan、ChatGPT の評価結果です。
- ChatGPT (GPT-3.5-turbo): 11/24=45.83%
- Wen Xinyi Words (2023.5) .10 バージョン): 13/24=54.16%
- iFlytek Spark (2023.5.10 バージョン): 7/24=29.16%
素朴な疑問ですが、実は国内モデルとChatGPTには大きな違いはありません。難しい問題に対しては、各モデルに独自の強みがあります。著者のチームの包括的な経験から判断すると、Wen Xinyiyan は、学術テストでは ChatGLM-6B などのオープン ソース モデルを上回るのに十分ですが、ChatGPT よりも劣る機能もあれば、ChatGPT を上回る機能もあります。
Alibaba Tongyi Qianwen や iFlytek Spark など、他の大手メーカーが製造する国内モデルも同様です。
そうは言っても、現在では公平なテスト ベンチマークさえ存在しないのに、モデルをランク付けすることに何の意味があるのでしょうか?
さまざまな偏ったランキングについて議論するよりも、著者のチームが行ったように、関心のあるテスト セットを作成する方が良いでしょう。
問題を解決できるモデルは、優れたモデルです。
以上がBaidu Wenxinyiyanは国内モデルの中で最下位にランクされますか?私は混乱していたの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

ジェマの範囲で言語モデルの内部の仕組みを探る AI言語モデルの複雑さを理解することは、重要な課題です。 包括的なツールキットであるGemma ScopeのGoogleのリリースは、研究者に掘り下げる強力な方法を提供します

ビジネスの成功のロック解除:ビジネスインテリジェンスアナリストになるためのガイド 生データを組織の成長を促進する実用的な洞察に変換することを想像してください。 これはビジネスインテリジェンス(BI)アナリストの力です - GUにおける重要な役割

SQLの変更テーブルステートメント:データベースに列を動的に追加する データ管理では、SQLの適応性が重要です。 その場でデータベース構造を調整する必要がありますか? Alter Tableステートメントはあなたの解決策です。このガイドの詳細は、コルを追加します

導入 2人の専門家が重要なプロジェクトで協力している賑やかなオフィスを想像してください。 ビジネスアナリストは、会社の目標に焦点を当て、改善の分野を特定し、市場動向との戦略的整合を確保しています。 シム

Excelデータカウントと分析:カウントとカウントの機能の詳細な説明 特に大規模なデータセットを使用する場合、Excelでは、正確なデータカウントと分析が重要です。 Excelは、これを達成するためにさまざまな機能を提供し、CountおよびCounta関数は、さまざまな条件下でセルの数をカウントするための重要なツールです。両方の機能はセルをカウントするために使用されますが、設計ターゲットは異なるデータ型をターゲットにしています。 CountおよびCounta機能の特定の詳細を掘り下げ、独自の機能と違いを強調し、データ分析に適用する方法を学びましょう。 キーポイントの概要 カウントとcouを理解します

Google Chrome'sAI Revolution:パーソナライズされた効率的なブラウジングエクスペリエンス 人工知能(AI)は私たちの日常生活を急速に変換しており、Google ChromeはWebブラウジングアリーナで料金をリードしています。 この記事では、興奮を探ります

インパクトの再考:四重材のボトムライン 長い間、会話はAIの影響の狭い見方に支配されており、主に利益の最終ラインに焦点を当てています。ただし、より全体的なアプローチは、BUの相互接続性を認識しています

物事はその点に向かって着実に動いています。量子サービスプロバイダーとスタートアップに投資する投資は、業界がその重要性を理解していることを示しています。そして、その価値を示すために、現実世界のユースケースの数が増えています


ホットAIツール

Undresser.AI Undress
リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover
写真から衣服を削除するオンライン AI ツール。

Undress AI Tool
脱衣画像を無料で

Clothoff.io
AI衣類リムーバー

AI Hentai Generator
AIヘンタイを無料で生成します。

人気の記事

ホットツール

mPDF
mPDF は、UTF-8 でエンコードされた HTML から PDF ファイルを生成できる PHP ライブラリです。オリジナルの作者である Ian Back は、Web サイトから「オンザフライ」で PDF ファイルを出力し、さまざまな言語を処理するために mPDF を作成しました。 HTML2FPDF などのオリジナルのスクリプトよりも遅く、Unicode フォントを使用すると生成されるファイルが大きくなりますが、CSS スタイルなどをサポートし、多くの機能強化が施されています。 RTL (アラビア語とヘブライ語) や CJK (中国語、日本語、韓国語) を含むほぼすべての言語をサポートします。ネストされたブロックレベル要素 (P、DIV など) をサポートします。

Safe Exam Browser
Safe Exam Browser は、オンライン試験を安全に受験するための安全なブラウザ環境です。このソフトウェアは、あらゆるコンピュータを安全なワークステーションに変えます。あらゆるユーティリティへのアクセスを制御し、学生が無許可のリソースを使用するのを防ぎます。

ZendStudio 13.5.1 Mac
強力な PHP 統合開発環境

SublimeText3 Mac版
神レベルのコード編集ソフト(SublimeText3)

Dreamweaver Mac版
ビジュアル Web 開発ツール
