Xi Xiaoyao Technology Talk 原文
著者 | 孟江の販売 ここ数日、私たちのパブリック アカウント コミュニティが SuperClue レビューと呼ばれるスクリーンショットを転送しています。 iFlytek は公式アカウントでもこの製品を宣伝しています:
# iFlytek Spark モデルはリリースされたばかりなので、あまりプレイしていません。本当に最強ですか?中国製? 著者はあえて結論を出さない。
しかし、この評価のスクリーンショットでは、現時点で最も人気のある国内モデルである Baidu Wenxinyiyan は、小規模な学術オープンソース モデル ChatGLM-6B にも勝てません。これは著者自身の経験と大きく矛盾しているだけでなく、私たちのプロの NLP 技術コミュニティでも誰もが混乱を表明しました。好奇心から、著者はこの超手がかりリストの github にアクセスして、この評価結論にどのように到達したかを確認しました:
https://www.php.cn/link/97c8dd44858d3568fdf9537c4b8743b2このとんでもない感情は、作者だけが抱えているわけではないようです。それは確かに、大衆の目は依然として鋭いです。 。 。
著者は、このリストの評価方法をさらに検討しました:
たとえば、機械翻訳などの特殊な生成タスクの場合、モデルによって生成された応答と参照応答の間の「語彙とフレーズのカバレッジ」を検出するために、BLEU などの評価指標が一般的に使用されます。ただし、機械翻訳などの参照応答を伴う生成タスクはほとんどなく、生成評価の大部分は手動評価を必要とします。
たとえば、チャット スタイルのダイアログの生成、テキスト スタイルの転送、章の生成、タイトルの生成、テキストの要約などの生成タスクでは、各モデルを評価して応答を自由に生成し、手動で比較する必要があります。これらのさまざまなモデルによって生成される応答、品質、またはタスクの要件が満たされているかどうかに関する人間の判断。
現在の AI コンテストはモデル生成能力のコンテストであり、モデル識別能力のコンテストではありません。評価すべき最も強力なものは、もはや冷淡な学術リストではなく、実際のユーザーの評判です。さらに、これはモデル生成機能をまったくテストしていないリストです。
過去数年を振り返る-
2019 年に OpenAI が GPT-2 をリリースしたとき、私たちはランキングをブラッシュアップするためのコツを積み上げていました;
2020 年には、 OpenAI がリリース GPT-3 中に、私たちはリストを更新するためのトリックを積み上げていました;
2021 年から 2022 年に、FLAN、T0、InstructGPT などの命令チューニングと RLHF 作業が発生したとき、私たちはまだ多くのトリックを持っていましたリスト...
この生成モデル軍備競争の波で同じ過ちを繰り返さないことを願っています。
では、生成 AI モデルはどのようにテストすればよいのでしょうか?
申し訳ありませんが、前にも述べたように、公平なテストを達成することは非常に困難であり、自分で生成モデルを開発するよりもさらに困難です。何が難しいのでしょうか?いくつかの具体的な質問:
- 評価の次元をどのように分割するか?理解、記憶、推論、表現によって?専門分野別ですか?それとも従来の NLP 生成評価タスクを組み合わせますか?
- 評価者をトレーニングするにはどうすればよいですか?コーディング、デバッグ、数学的導出、財務、法律、医療に関する Q&A など、専門的基準が非常に高いテスト問題の場合、テストする人をどのように募集しますか?
- 非常に主観的なテスト問題 (小紅書風のコピーライティングの作成など) の評価基準を定義するにはどうすればよいですか?
- 一般的なライティングに関する質問をいくつかすることで、モデルのテキスト生成/ライティング能力を表すことができますか?
- モデルのテキスト生成のサブ機能を調べます。章の生成、質問と回答の生成、翻訳、要約、スタイルの転送はカバーされていますか?各タスクの割合は均等ですか?審査基準は明確ですか?統計学的に重要な?
- 上記の質問と回答の生成サブタスクでは、科学、医療、自動車、母子、金融、エンジニアリング、政治、軍事、エンターテイメントなどのすべての垂直カテゴリがカバーされていますか?割合は均等ですか?
- 会話能力を評価するにはどうすればよいですか?対話の一貫性、多様性、話題の深さ、個性化のための検査タスクをどのように設計するか?
- 同じ実力テストでも、簡単な問題、中程度の難易度の問題、複雑な長期問題が対象になりますか?定義方法は?それらはどのような割合を占めていますか?
これらは解決すべき基本的な問題のほんの一部ですが、実際のベンチマーク設計の過程では、上記の問題よりもさらに難しい問題が数多く発生します。
したがって、AI 実践者として、著者はさまざまな AI モデルのランキングを合理的に見るよう皆さんに呼びかけます。公平なテストベンチマークさえ存在しないのに、このランキングは何の役に立つのでしょうか?
繰り返しになりますが、生成モデルが良いかどうかは実際のユーザーに依存します。
モデルがリストでどれほど上位にランクされていても、関心のある問題を解決できない場合、それはあなたにとっては単なる平均的なモデルになります。つまり、最下位の機種が気になるシナリオに非常に強い機種であれば、それはあなたにとってお宝機種ということになります。
ここでは、著者が私たちのチームによって強化され書かれたハードケース (難しい例) のテスト セットを公開します。このテスト セットは、難しい問題や命令を解決するモデルの能力に焦点を当てています。
この難しいテスト セットは、モデルの言語理解、複雑な命令の理解とそれに従うこと、テキスト生成、複雑なコンテンツ生成、複数回の対話、矛盾検出、常識的推論、数学的推論、反事実的推論、および危険に焦点を当てています。情報 身分証明、法的および倫理的意識、中国文学の知識、異言語能力およびコーディング能力など。
繰り返しになりますが、これは、困難な例を解決する生成モデルの能力をテストするために、著者のチームが作成したケースセットです。評価結果は、「著者のチームにとってどのモデルがより良いと感じられるか」を表すだけであり、とは程遠いです。公平なテストの結論を表す 公平なテストの結論が必要な場合は、まず上記の評価質問に答えてから、信頼できるテスト ベンチマークを定義してください。
自分で評価して検証したい友人は、この公開アカウント「Xi Xiaoyao Technology」のバックグラウンドで [AI 評価] のパスワードに返信して、テスト ファイルをダウンロードできます
以下は、超手がかりリストで最も物議を醸している 3 つのモデル、iFlytek Spark、Wenxin Yiyan、ChatGPT の評価結果です。
- ChatGPT (GPT-3.5-turbo): 11/24=45.83%
- Wen Xinyi Words (2023.5) .10 バージョン): 13/24=54.16%
- iFlytek Spark (2023.5.10 バージョン): 7/24=29.16%
素朴な疑問ですが、実は国内モデルとChatGPTには大きな違いはありません。難しい問題に対しては、各モデルに独自の強みがあります。著者のチームの包括的な経験から判断すると、Wen Xinyiyan は、学術テストでは ChatGLM-6B などのオープン ソース モデルを上回るのに十分ですが、ChatGPT よりも劣る機能もあれば、ChatGPT を上回る機能もあります。
Alibaba Tongyi Qianwen や iFlytek Spark など、他の大手メーカーが製造する国内モデルも同様です。
そうは言っても、現在では公平なテスト ベンチマークさえ存在しないのに、モデルをランク付けすることに何の意味があるのでしょうか?
さまざまな偏ったランキングについて議論するよりも、著者のチームが行ったように、関心のあるテスト セットを作成する方が良いでしょう。
問題を解決できるモデルは、優れたモデルです。
以上がBaidu Wenxinyiyanは国内モデルの中で最下位にランクされますか?私は混乱していたの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

Microsoft PowerBIチャートでデータ視覚化の力を活用する 今日のデータ駆動型の世界では、複雑な情報を非技術的な視聴者に効果的に伝えることが重要です。 データの視覚化は、このギャップを橋渡しし、生データを変換するi

エキスパートシステム:AIの意思決定力に深く飛び込みます 医療診断から財務計画まで、あらゆることに関する専門家のアドバイスにアクセスできることを想像してください。 それが人工知能の専門家システムの力です。 これらのシステムはプロを模倣します

まず第一に、これがすぐに起こっていることは明らかです。さまざまな企業が、現在AIによって書かれているコードの割合について話しており、これらは迅速なクリップで増加しています。すでに多くの仕事の移動があります

映画業界は、デジタルマーケティングからソーシャルメディアまで、すべてのクリエイティブセクターとともに、技術的な岐路に立っています。人工知能が視覚的なストーリーテリングのあらゆる側面を再構築し始め、エンターテイメントの風景を変え始めたとき

ISROの無料AI/MLオンラインコース:地理空間技術の革新へのゲートウェイ インド宇宙研究機関(ISRO)は、インドのリモートセンシング研究所(IIRS)を通じて、学生と専門家に素晴らしい機会を提供しています。

ローカル検索アルゴリズム:包括的なガイド 大規模なイベントを計画するには、効率的なワークロード分布が必要です。 従来のアプローチが失敗すると、ローカル検索アルゴリズムは強力なソリューションを提供します。 この記事では、Hill ClimbingとSimulについて説明します

このリリースには、GPT-4.1、GPT-4.1 MINI、およびGPT-4.1 NANOの3つの異なるモデルが含まれており、大規模な言語モデルのランドスケープ内のタスク固有の最適化への動きを示しています。これらのモデルは、ようなユーザー向けインターフェイスをすぐに置き換えません

Chip Giant Nvidiaは、月曜日に、AI Supercomputersの製造を開始すると述べました。これは、大量のデータを処理して複雑なアルゴリズムを実行できるマシンを初めて初めて米国内で実行します。発表は、トランプSI大統領の後に行われます


ホットAIツール

Undresser.AI Undress
リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover
写真から衣服を削除するオンライン AI ツール。

Undress AI Tool
脱衣画像を無料で

Clothoff.io
AI衣類リムーバー

AI Hentai Generator
AIヘンタイを無料で生成します。

人気の記事

ホットツール

EditPlus 中国語クラック版
サイズが小さく、構文の強調表示、コード プロンプト機能はサポートされていません

mPDF
mPDF は、UTF-8 でエンコードされた HTML から PDF ファイルを生成できる PHP ライブラリです。オリジナルの作者である Ian Back は、Web サイトから「オンザフライ」で PDF ファイルを出力し、さまざまな言語を処理するために mPDF を作成しました。 HTML2FPDF などのオリジナルのスクリプトよりも遅く、Unicode フォントを使用すると生成されるファイルが大きくなりますが、CSS スタイルなどをサポートし、多くの機能強化が施されています。 RTL (アラビア語とヘブライ語) や CJK (中国語、日本語、韓国語) を含むほぼすべての言語をサポートします。ネストされたブロックレベル要素 (P、DIV など) をサポートします。

SublimeText3 中国語版
中国語版、とても使いやすい

ゼンドスタジオ 13.0.1
強力な PHP 統合開発環境

Dreamweaver Mac版
ビジュアル Web 開発ツール
