ホームページ >テクノロジー周辺機器 >AI >AI試験と公開試験は目前です! Microsoft 中国チームが人間の検査用に特別に設計された新しいベンチマーク AGIEval をリリース
言語モデルの機能がますます高くなるにつれて、既存の評価ベンチマークは少し幼稚になり、一部のタスクのパフォーマンスは人間よりもはるかに遅れています。
汎用人工知能 (AGI) の重要な機能は、人間レベルのタスクを処理するモデルの汎化能力ですが、人工データセットに依存する従来のベンチマークは人間の能力を正確に表していません。
最近、マイクロソフトの研究者は新しいベンチマーク AGIEval をリリースしました。特に、標準化されたテストにおける 「人間中心の」パフォーマンスの基本モデルのパフォーマンスを評価するために使用されます。 大学入学試験、公務員試験、法科大学院入学試験、数学コンテスト、司法試験など。
# 論文リンク: https://arxiv.org/pdf/2304.06364.pdf
データリンク: https://github.com/microsoft/AGIEval
研究者は AGIEval ベンチマークを使用して評価しましたGPT-4、ChatGPT、Text-Davinci-003 を含む 3 つの最先端の基本モデルによる実験結果では、SAT、LSAT、数学コンテストにおける GPT-4 のパフォーマンスが人間の平均レベルを超え、精度が高いことがわかりました。 SAT 数学テストの達成 中国大学入学試験英語テストの正答率は 92.5% に達し、現在の基本モデルの驚異的なパフォーマンスが示されています。
しかし、モデルの能力 (理解、知識、推論、計算) の包括的な分析で明らかなように、GPT-4 は複雑な推論やドメイン固有の知識を必要とするタスクにはあまり慣れていません。モデルの強みと限界。
AGIEval データセット近年、GPT-4 などの大規模な基本モデルは、さまざまな分野で非常に強力な機能を示しており、人間の日常的な処理を支援することができます。イベントのほか、法律、医学、金融などの専門分野での意思決定に関するアドバイスも提供できます。
言い換えれば、人工知能システムは徐々に汎用人工知能 (AGI) に近づき、実現されつつあります。
しかし、AI が徐々に日常生活に統合されるにつれて、モデルの人間中心の汎化能力を評価し、潜在的な欠陥を特定し、複雑な人間中心のタスクを効果的に処理できるようにする方法が重要になります。 、さまざまな状況における信頼性と信頼性を確保するための推論スキルを評価することが重要です。
研究者らは、主に 2 つの設計原則に従って AGIEval データセットを構築しました:
1. 人間の脳レベルに重点を置く認知タスク
#「人間中心」設計の主な目標は、人間の認知と問題解決に密接に関連するタスクを中心に据えることです。有意義かつ包括的な方法での基礎となるモデルの一般化能力。
この目標を達成するために、研究者らは、大学入学試験、法律など、一般の人間の受験者のニーズを満たす、さまざまな公式、公的、高水準の入学試験および資格試験を選択しました。学校入学試験、数学試験、司法試験、そして高等教育への進学や新たなキャリアパスを求める何百万人もの人々が毎年受験する州公務員試験です。
人間レベルの能力を評価するためのこれらの公式に認められた基準に準拠することで、AGIEval は、モデルのパフォーマンスの評価が人間の意思決定と認知能力に直接関連していることを保証します。
#2. 現実世界のシナリオとの関連性
高水準から選択することにより、入学試験および資格試験の課題により、評価結果は、個人がさまざまな分野や状況で頻繁に遭遇する課題の複雑さと現実性を確実に反映します。
このアプローチは、人間の認知能力の観点からモデルのパフォーマンスを測定するだけでなく、実生活における適用性と有効性をより深く理解することもできます。つまり、人工知能の開発に役立ちます。より信頼性が高く、より実用的で、現実世界のさまざまな問題の解決に適したシステムです。
# 上記の設計原則に基づいて、研究者は人間レベルの推論と現実世界を重視した、標準化された高品質のさまざまな試験を選択しました。関連性、具体的には:
1. 一般大学入学試験
大学入学試験批判的思考、問題解決、分析スキルを必要とするさまざまな科目が含まれており、人間の認知に関連した大規模な言語モデルのパフォーマンスを評価するのに最適です。
具体的には、一般的な能力と科目固有の知識を評価できる、Graduate Record Exam (GRE)、Academic Assessment Test (SAT)、中国語大学入学試験 (Gaokao) が含まれます。高等教育機関への入学を目指す学生の割合。
データセットは、中国大学入学試験の 8 科目 (歴史、数学、英語、中国語、地理、生物学、化学、物理学) に対応する試験を収集しており、数学の問題は以下から選択します。 GRE;英語と数学の科目は SAT から選択され、ベンチマーク データ セットを構築しました。
2. ロースクール入学試験
ロースクール入学試験 (LSAT など) , 将来の法学生の推論と分析能力を測定するように設計されており、この試験には、論理的推論、読解力、分析的推論などのセクションが含まれています。受験者は複雑な情報を分析し、正確な結論を導き出すことが求められます。これらのタスクでは、法学の役割を評価できます。法的推論における言語モデルと分析スキル。
#3. 司法試験
は個人の法的能力を評価できます。法曹としてのキャリアを追求する 知識、分析スキル、倫理的理解 この試験では、憲法、契約法、刑法、財産法などの幅広い法律トピックが取り上げられ、受験者は法的原則と推論を効果的に適用する能力を証明する必要があります。このテストでは、専門的な法的知識と倫理的判断を実証できます。言語モデルのパフォーマンスをコンテキストで評価します。
4. 大学院管理者入学試験 (GMAT)
GMAT は標準化されたこの試験は、将来のビジネススクール大学院生の分析的、定量的、口頭的および総合的推論能力を評価することができます。分析的ライティング評価、総合的推論、定量的推論、口頭推論で構成され、受験者の批判的思考、データ分析、効果的なコミュニケーションを評価します。能力。
5. 高校数学コンテスト
これらのコンテストは、数学の幅広い分野をカバーします。トピックには、数論、代数、幾何学、組み合わせ論が含まれており、創造的な解決策を必要とする非日常的な問題が提示されることがよくあります。
具体的には、学生の数学的能力、創造性、問題解決能力をテストし、さらに評価できる米国数学コンテスト (AMC) と米国招待数学試験 (AIME) が含まれます。言語モデル処理 複雑かつ創造的な数学的問題を解決する能力、および新しい解決策を生成するモデルの能力。
#6. 国内公務員試験
個人の資質を評価することができます。公務員への参入を目指すための能力とスキルを問うこの試験には、一般知識、推論能力、言語スキル、中国のさまざまな公務員職の役割と責任に関連する特定の科目の専門知識の評価が含まれており、言語のパフォーマンスを測定することができます。行政の文脈におけるモデルと、政策開発、意思決定、公共サービスの提供プロセスにおけるその可能性。
選択されたモデルは次のとおりです:
ChatGPT、OpenAI A によって開発された Dialogueユーザー インタラクションや動的な会話に参加できる新しい人工知能モデルは、大規模な命令データ セットを使用してトレーニングされ、ヒューマン フィードバックを伴う強化学習 (RLHF) によってさらに調整され、人間の期待と一致する文脈に沿った一貫したコンテンツを提供できるようになります。
GPT-4 は、第 4 世代 GPT モデルとして、より広範囲の知識ベースを含み、多くのアプリケーション シナリオで人間レベルのパフォーマンスを示します。 GPT-4 は、敵対的テストと ChatGPT を使用して繰り返し調整され、その結果、事実性、起動性、ルールへの準拠性が大幅に向上しました。
Text-Davinci-003 は GPT-3 と GPT-4 の間の中間 バージョンであり、細かい修正後の GPT よりも優れています。命令 -3 によるチューニングの方がパフォーマンスが向上します。
さらに、実験では人間の受験者の平均スコアと最高スコアも各タスクの人間のレベル制限として報告されましたが、これらは人間のレベルの限界を完全に表しているわけではありません。幅広いスキルと知識を持っています。
#ゼロショット/少数ショットの評価
ゼロサンプルの設定では、モデルは直接評価します。問題の評価: 数ショットのタスクでは、テスト サンプルの評価前に、同じタスクからの少数の例 (5 つなど) が入力されます。
モデルの推論能力をさらにテストするために、思考連鎖 (CoT) プロンプトも実験に導入されました。つまり、最初に「考えてみましょうステップ」というプロンプトを入力します。 「ステップごと」と入力して、指定された質問の説明を生成します。次に、プロンプト「説明は」を入力して、説明に基づいて最終的な回答を生成します。
ベンチマークの「多肢選択質問」では、標準の分類精度が使用されます。空白の質問」では、完全一致 (EM) および F1 インジケーターが使用されます。
実験結果からわかります:
1. GPT-4 は、Gaokao-English で 93.8% の精度、SAT-MATH で 95% の精度など、すべてのタスク設定において類似製品よりも大幅に優れており、人間中心のタスクを処理する上で GPT-4 が優れた一般的な機能を備えていることを示しています。 。
2.ChatGPT は、地理、生物学、化学、物理学、数学などの外部知識を必要とするタスクにおいて、Text-Davinci-003 よりも大幅に優れたパフォーマンスを発揮します。これは、ChatGPT がより強力な知識ベースを備えており、特定のドメインについての深い理解を必要とするタスクをより適切に処理できることを示しています。
一方、ChatGPT は、すべての評価設定と、純粋な理解を必要とし、英語や LSAT タスクなどの外部知識に大きく依存しないタスクにおいて、Text-Davinci- よりわずかに優れています。 .003、または同等の結果。この観察結果は、両方のモデルが、専門的なドメイン知識を必要とせずに、言語理解と論理的推論を中心としたタスクを処理できることを意味します。3. これらのモデルの全体的なパフォーマンスは良好ですが、
すべての言語モデルは、MATH や LSAT-AR 、 GK- などの複雑な推論タスク ではパフォーマンスが低くなります。物理学と GK-Math では、高度な推論と問題解決のスキルを必要とするタスクを処理する際のこれらのモデルの限界を強調しています。
複雑な推論問題を処理する際に観察された困難は、モデルの一般的な推論機能の向上を目的とした将来の研究開発の機会となります。4. ゼロショット学習と比較すると、
少数ショット学習は通常、限定的なパフォーマンス向上しかもたらしません。これは、現在の大規模言語モデルのゼロショット学習が不十分であることを示しています。ショット学習機能は数ショット学習機能に近づいており、これは、数ショットのパフォーマンスがゼロショットよりもはるかに優れていたオリジナルの GPT-3 モデルと比べて大きな改善を示しています。
この開発の合理的な説明は、現在の言語モデルにおける人間による調整と命令の調整が強化されたことです。これらの改善により、モデルは事前にタスクをよりよく理解できるようになります。意味とコンテキスト、したがって、ショットがゼロの状況でも優れたパフォーマンスを発揮できるようになり、指導の有効性が証明されました。以上がAI試験と公開試験は目前です! Microsoft 中国チームが人間の検査用に特別に設計された新しいベンチマーク AGIEval をリリースの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。