ホームページ >テクノロジー周辺機器 >AI >中国の大型モデル用のテストセットを作成するために、微積分や線分生成などの 52 科目をカバーする 13948 問が清華大学に提出されました。
ChatGPT の出現により、中国コミュニティは国際的な主要レベルとのギャップを認識するようになりました。最近、中国の大型モデルの開発が本格化していますが、中国の評価基準は非常に少ないです。
OpenAI GPT シリーズ/Google PaLM シリーズ/DeepMind Chinchilla シリーズ/Anthropic Claude シリーズの開発プロセスでは、MMLU/MATH/BBH の 3 つのデータセットが重要な役割を果たしました。これらは、モデルの各次元の機能を比較的包括的にカバーしています。最も注目すべきは、人文科学から社会科学、科学、工学に至る 57 分野の包括的な知識能力を考慮した MMLU データセットです。 DeepMind の Gopher モデルと Chinchilla モデルは MMLU スコアのみを参照するため、開発者が大規模な中国語モデルを開発するのを支援するために、十分に差別化された、学際的な中国語のベンチマーク リストを構築したいと考えています。
人文科学、社会科学、理工学、その他の専攻の 4 つの主要な方向と 52 科目 (微積分、直線生成...) をカバーするシステムを約 3 か月かけて構築しました。 , 中学校から大学の大学院および職業試験までの、合計 13948 問の中国語の知識と推論のテスト セットです。中国人コミュニティによる大規模なモデルの開発を支援するために、私たちはこれを C-Eval と呼んでいます。
この記事は、C-Eval を構築するプロセスを記録し、私たちの視点からの考え方と研究開発の優先事項を開発者と共有することを目的としています。私たちの最も重要な 目標は、ランキングを獲得することではなく、モデル開発を支援することです。リストの上位を盲目的に追求すると、多くの悪影響が生じますが、C-Eval を科学的に使用して反復モデルを支援できれば、C-Eval を最大化できます。したがって、 では、モデル開発の観点から C-Eval データ セットとリストを扱うことをお勧めします。
1 - モデルの強さの中心的な指標
まず、モデルを会話型ロボットに変えます。オープン ソースの世界には、アルパカ、ビクーニャ、RWKV などの会話型ロボットがすでに存在します。それらとカジュアルにチャットするのは気分が良いものです。しかし、これらのモデルを本当に生産的にしたいのであれば、カジュアルなチャットだけでは十分ではありません。したがって、評価ベンチマークを構築する際の最初の課題は、差別化の度合いを見つけ、モデルの強さを区別する中心的な指標がどのような能力であるかを把握することです。私たちは、Knowledgeと Reasoning という 2 つのコアを考慮します。 1.1 - 知識
なぜ知的能力が核となる能力なのでしょうか?次のようないくつかの議論があります:
# モデルが普遍的であり、さまざまな分野の生産性に貢献できることを期待しています。当然、モデルにはさまざまな分野の知識が必要です。 。
1.2 - 推論
# 推論能力とは、知識をもとにさらに改良する能力であり、モデルが作れるかどうかを表します。難しい、とても複雑なこと。モデルが強力であるためには、まず広範な知識が必要であり、次にその知識に基づいて推論を行います。
推論は非常に重要です:
ここでは、推論と知識の関係も明確にする必要があります。
知識と推論についての上記の説明により、知識ベースから開始してデータセットを構築することにしました。タスク モデルの知識能力をテストすることは、MMLU データセットのベンチマークを行うことと同等です。同時に、モデルの高次の能力をさらに測定するために推論関連のコンテンツも提供したいと考えています。 C-Eval の強力な推論 (微積分、線形代数、確率など) は特別に抽出され、C-Eval Hard サブセットと名付けられます。これは、モデルの推論能力を測定するために使用されます。これは、MATH データセットのベンチマークと同等です。 。
C-Eval Hard では、モデルはまず数学関連の知識を持っている必要があり、次に問題を解決するための段階的なアイデアを持っている必要があります。問題解決プロセス中に Wolfram Alpha/Mathematica/Matlab を呼び出す必要がある 数値計算、記号計算、微分計算、積分計算を実行し、計算プロセスと結果を Latex 形式で表現する能力 質問のこの部分は非常に難しいです。
C-Eval は、MMLU 全体のベンチマークを行いたいと考えています (このデータセットは、GPT-3.5、GPT-4、PaLM、PaLM-2、Gopher、Chinchilla の開発に使用されます)。 、ハード部分で MATH のベンチマークを行うことを期待しています (このデータセットは GPT-4、PaLM-2、Minerva、および Gaoptica の開発で使用されます)。
ここで、私たちの最も重要な目標は、 をリストすることではなく、モデル開発を支援することであることに注意してください。リストの上位を盲目的に追求すると、多くの悪影響が生じますが、これについては後ほど説明しますが、C-Eval を科学的に使用して反復モデルを支援できれば、大きなメリットが得られます。 ## では、モデル開発の観点から C-Eval データ セットとリストを扱うことをお勧めします。
2.1 - 目標はモデル開発を支援することです実際の研究と開発プロセスでは、特定のソリューションの品質や特定のモデルの品質を知る必要があることがよくありますが、このとき、テストに役立つデータセットが必要です。以下に 2 つの古典的なシーンを示します:
#2.2 - ランキングは目標ではありません
ランキングに基づいてはいけない理由を強調する必要があります目標として:
そこで、もう一度、
C-Eval データセットとリストをモデル開発の観点から扱うことをお勧めします。
2.3 - 開発者のフィードバックから継続的に反復します。
モデルをできるだけ効率的にしたいためです。開発者をサポートできるため、私たちは開発者と直接コミュニケーションを取り、開発者のフィードバックから学び、反復し続けることを選択しました。これにより、多くのことを学ぶこともできます。大きなモデルがヒューマン フィードバックからの強化学習であるのと同じように、C-Eval の開発チームは開発者のフィードバックから学び続ける。具体的には、研究開発プロセス中に、ByteDance、SenseTime、Shenyan などの企業を招待し、独自のワークフローで C-Eval Do テストを接続しました。 、そしてテストプロセスの課題点についてお互いにコミュニケーションします。このプロセスにより、当初は予期していなかった多くのことを学ぶことができました。
上記のプロセスは、モデル開発の観点から C-Eval データ セットとリストを扱うことが、誰もが中国の大規模モデルを開発するのに非常に役立つことを証明しています。
すべての開発者の皆様が、GitHub に問題やプル リクエストを送信し、より良い支援方法をお知らせいただけることを歓迎します。私たちはより良い支援をしたいと考えています:) この章では、実稼働プロセス中にデータセットの品質を確保するために使用する方法について説明します。ここでの最も重要な参照は、2 つのデータ セット MMLU と MATH です。最も重要な 4 つの大規模モデル チーム、OpenAI、Google、DeepMind、および Anthropic はすべて MMLU と MATH に重点を置いているため、これら 2 つに貢献できることを期待しています。データセットをインラインで設定します。予備調査と一連の議論の後、私たちは 2 つの重要な決定を下しました。1 つは データセット を最初から作成することであり、もう 1 つはキー ポイント クローラによって質問がトレーニング セットにクロールされるのを防ぎます。 3.1 - 手作り GPT の開発プロセスからの重要なインスピレーションは、人工知能の分野におけるものです。 , 人工知能があるのと同じだけの知能があります。これは、C-Eval を確立するプロセスにもよく反映されています。具体的には、質問のソースから: 次に、処理問題があります。 3 - 方法品質を確保する
#左側は学生自身が作成し、Markdown - Latex 形式で記述したもので、右側はレンダリングされたエフェクトです。
なぜ質問が難しいのか、思考連鎖プロンプトが非常に長いのか、なぜモデルが記号計算と数値計算を実行できる必要があるのかを感じることもできます。
##3.2 - 私たちの質問がトレーニングセットに混入するのを防ぐ
#科学的目的のため評価に際し、私たちの質問がトレーニング セットに混入することを防ぐための一連のメカニズムを検討しました
次に、モデルのランキングを向上させるためにどのような方法を使用できるかを分析します。まず、市販されていない LLaMA の使用や GPT によって生成されたデータの使用など、すべての人にとってのショートカットと、これらの方法の欠点をリストし、次に、
。 4.1 - どのようなショートカットを利用できますか?
実行できるショートカットは次のとおりです:
LLaMA をベース モデルとして使用する
最良の方法は、自分らしくいることです。信頼性と自立性を備え、ゼロから開発されました。これは難しく、時間がかかり、忍耐が必要ですが、それが正しい方法です。
#具体的には、次の機関からの論文に焦点を当てる必要があります# # OpenAI - これについては疑いの余地はありません。すべての記事は完全に暗記する必要があります#Anthropic - OpenAI が教えてくれないこと、Anthropic が教えてくれます
Google DeepMind - Google はどちらかというとスケープゴートです。隠蔽して隠蔽する OpenAI とは異なり、すべてのテクノロジーを正直に伝えます。の記事。他の記事を読む前に、まず判断力を養って、良いものと悪いものを区別できるようにしてください。学問においては、ただ無批判に受け入れるのではなく、善悪を区別することが重要です。
4.3 - 急がないでください
大規模なモデルは時間がかかります。人工知能の産業能力のテスト:
したがって、急いでランキングに行く必要も、明日結果を見る必要も、明後日オンラインにアクセスする必要もありません。ゆっくり取り組んでください。一歩ずつ。多くの場合、困難ではあるが正しい道が、実際には最速の道です。
この記事では、C-Eval の開発目標、プロセス、および重要な考慮事項を紹介しました。私たちの目標は、開発者が中国の大規模モデルをより適切に開発できるように支援し、モデルの反復を支援するために学界や産業界での C-Eval の科学的使用を促進することです。大規模なモデル自体は非常に難しいものであるため、結果を確認することを急いでいません。私たちは、自分が取るべき近道を知っていますが、難しくても正しい道が実際には最速の道であることも知っています。私たちは、この取り組みが中国の大型モデルの研究開発エコロジーを促進し、人々がこの技術によってもたらされる利便性をより早く体験できることを願っています。
#付録 1: C-Eval に含まれる主題
##付録 2: プロジェクト メンバーの貢献
#注: text 言及された論文の対応する URL は元のページにあります。
以上が中国の大型モデル用のテストセットを作成するために、微積分や線分生成などの 52 科目をカバーする 13948 問が清華大学に提出されました。の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。