検索
ホームページテクノロジー周辺機器AI中国語モデルラッシュテスト:SenseTime、Shanghai AI Labなどが新リリース「Scholar・Puyu」

マシンの心臓部のリリース

ハートオブマシン編集部

今日、毎年恒例の大学入学試験が正式に始まりました。

例年とは異なり、全国の受験者が試験室に殺到したとき、いくつかの大規模な言語モデルもこのコンテストで特別な役割を果たしました。

AI の大型言語モデルが人間に近い知能を実証することが増えているため、言語モデルの知能レベルを評価するために、人間向けに設計された高難度で包括的な試験がますます導入されています。

例えば、GPT-4の技術レポートでは、OpenAIは主にさまざまな分野の試験を通じてモデルの能力をテストしていますが、GPT-4が示す優れた「受験能力」も予想外です。

中国語モデルチャレンジ大学入学試験レポートの結果はどうなりましたか? ChatGPTに追いつくことができるでしょうか? 「候補者」のパフォーマンスを見てみましょう。

包括的な「大きな試験」: 「Scholar・Puyu」の複数の結果が ChatGPT を上回っています

最近、SenseTimeと上海AI研究所は、香港中文大学、復旦大学、上海交通大学と協力して、1000億レベルのパラメータの大規模言語モデル「Scholar Puyu」(InternLM)をリリースした。

「Scholar·Puyu」には 1,040 億のパラメータがあり、1 兆 6,000 億のトークンを含む多言語の高品質データセットでトレーニングされています。 総合的な評価の結果、「学者プユ」は知識習得、読解、数的推論、多言語翻訳などの複数の試験課題で優れた成績を収めただけでなく、総合的な能力も高いことがわかり、非常に成功しました。総合試験で優秀な成績を収めており、中国語大学入学試験の各科目のデータセット(GaoKao)をはじめ、多くの中国語試験で優れた成績を収めており、ChatGPTを超える成績を収めています。

「Scholar・Puyu」合同チームは、世界で最も影響力のある

4 つの包括的な試験評価セット

: を含む 20 以上の評価を選択してテストしました。

カリフォルニア大学バークレー校およびその他の大学によって構築されたマルチタスク テスト評価セット MMLU;
  • AGIEval、Microsoft Research が開始した科目試験評価セット (中国の大学入学試験、司法試験、米国の SAT、LSAT、GRE、GMAT などを含む);
  • C-Eval、上海交通大学、清華大学、エディンバラ大学が共同で構築した中国語モデルの包括的な試験評価セット;
  • および Gaokao (復旦大学の研究チームが作成した大学入試問題集);
  • 研究室合同チームが「Scholar Puyu」、GLM-130B、LLaMA-65B、ChatGPT、GPT-4の総合テストを実施し、上記4つの評価セットの結果を以下のように比較しました(100点満点) 。

中文大语言模型赶考:商汤与上海AI Lab等新发布「书生·浦语」 「Scholar Puyu」は、GLM-130B や LLaMA-65B などの学術オープンソース モデルを大幅に上回っているだけでなく、AGIEval、C-Eval、Gaokao などの複数の包括的な試験で ChatGPT をリードしています。 main MMLU は ChatGPT と同じレベルを達成します。これらの総合的な試験の結果は、「Scholar Puyu」の確かな知識と優れた総合力を反映しています。

「Scholar・Puyu」は試験評価で優れた成績を収めましたが、大規模な言語モデルにはまだ多くの制限があることも評価からわかります。 「Scholar Puyu」はコンテキスト ウィンドウの長さが 2K に制限されており (GPT-4 のコンテキスト ウィンドウの長さは 32K)、長いテキストの理解、複雑な推論、コードの記述、および数理論理学の演繹には明らかな制限があります。さらに、実際の会話では、大規模な言語モデルには依然として錯覚や概念的な混乱などの共通の問題が存在します。これらの制限により、オープン シナリオで大規模な言語モデルを使用するには、まだ長い道のりがあります。

4 つの包括的な試験評価データセットの結果

MMLU は、カリフォルニア大学バークレー校 (UC バークレー)、コロンビア大学、シカゴ大学、UIUC が共同で構築したマルチタスクのテスト評価セットで、初等数学、物理学、化学、コンピューター サイエンス、米国史をカバーしています。 、法律、経済、外交、その他多くの分野。 細分化されたアカウントの結果は次の表に示されています。

図の太字は最良の結果を示し、下線は 2 番目の結果を示します

AGIEval は、Microsoft Research が今年提案した新しい科目試験評価セットで、主な目的は、指向性試験を通じて言語モデルの能力を評価し、それによってモデルの知能と人間の知能の比較を実現することです。

この評価セットは、中国の大学入学試験、司法試験、米国のSAT、LSAT、GRE、GMATなどの重要な試験を含む、中国と米国のさまざまな試験に基づいた19の評価項目で構成されています。これら 19 専攻のうち 9 専攻は中国の大学入学試験からのものであり、通常、重要な評価サブセット AGIEval (GK) としてリストされていることに言及する価値があります。

次の表でGKの付いた科目は中国語の大学入試科目です。

中文大语言模型赶考:商汤与上海AI Lab等新发布「书生·浦语」

図の太字は最良の結果を示し、下線は 2 番目の結果を示します

C-Eval は、上海交通大学、清華大学、エディンバラ大学が共同で構築した中国語モデルの包括的な試験評価セットです。

数学、物理、化学、生物学、歴史、政治、コンピュータなどの科目試験から、公務員、公認会計士、弁護士、医師などの専門試験まで、52科目約14,000問の試験問題を収録しています。

テスト結果はリーダーボードから取得できます。

中文大语言模型赶考:商汤与上海AI Lab等新发布「书生·浦语」

こちらのリンクはCEVA評価コンテストのランキング一覧です

Gaokao は、復旦大学の研究チームが作成した中国大学入学試験問題に基づいた包括的な試験評価セットで、中国大学入学試験のさまざまな科目と、次のような複数の問題タイプが含まれています。多肢選択問題、穴埋め問題、一問一答形式の質問です。

GaoKao の評価では、プロジェクトの 75% 以上で「Scholar・Puyu」が ChatGPT をリードしています。

中文大语言模型赶考:商汤与上海AI Lab等新发布「书生·浦语」

副評価:読解力・推論能力に優れる

「偏り」を避けるために、研究者らはまた、「Scholar Puyu」などの言語モデルの下位項目の能力を、複数の学術評価セットを通じて評価および比較しました。

その結果、「Scholar Puyu」は中国語と英語の読解力に優れているだけでなく、数的推理、プログラミング能力などの評価でも良好な成績を収めていることがわかりました。

中文大语言模型赶考:商汤与上海AI Lab等新发布「书生·浦语」

知識の質問と回答の点では、「Scholar Puyu」は TriviaQA と NaturalQuestions で 69.8 点と 27.6 点を獲得し、どちらも LLaMA-65B (68.2 点と 23.8 点) を上回りました。

読解力(英語)という点では、「Scholar・Puyu」はLLaMA-65BやChatGPTよりも明らかに優れています。 Puyu の中学と高校の英語読解では 92.7 点と 88.9 点、ChatGPT では 85.6 点と 81.2 点、LLaMA-65B ではさらに低かった。

中国語理解の点で「Scholar Puyu」の結果は、中国語主要2モデルERNIE-260BとGLM-130Bを総合的に上回りました。

多言語翻訳に関しては、「Scholar・Puyu」の多言語翻訳の平均スコアは33.9で、LLaMA(平均スコア15.1)を大きく上回りました。

数学的推論の点では、「Scholar Puyu」は、評価に広く使用されている 2 つの数学テストである GSM8K と MATH でそれぞれ 62.9 点と 14.9 点を獲得し、Google の PaLM を大幅に上回りました。 -540B (スコア 56.5 と 8.8) )およびLLaMA-65B(スコア50.9および10.9)。

プログラミング能力の観点から見て、

「Scholar Puyu」は、HumanEval と MBPP という 2 つの最も代表的な評価で、それぞれ 28.1 と 41.4 のスコアを獲得しました (コーディング分野で微調整した後、HumanEval のスコアは45.7に改善)、PaLM-540B(スコア26.2および36.8)およびLLaMA-65B(スコア23.7および37.7)を大幅に上回りました。 さらに、研究者らは「Scholar Puyu」の安全性についても評価しました。TruthfulQA (主に回答の事実の正確性を評価) と CrowS-Pairs (主に回答にバイアスが含まれているかどうかを評価) について、「Scholar Puyu」の言語一流のレベルに達しました。

以上が中国語モデルラッシュテスト:SenseTime、Shanghai AI Labなどが新リリース「Scholar・Puyu」の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

声明
この記事は搜狐で複製されています。侵害がある場合は、admin@php.cn までご連絡ください。
Huggingface smollmであなたの個人的なAIアシスタントを構築する方法Huggingface smollmであなたの個人的なAIアシスタントを構築する方法Apr 18, 2025 am 11:52 AM

オンデバイスAIの力を活用:個人的なチャットボットCLIの構築 最近では、個人的なAIアシスタントの概念はサイエンスフィクションのように見えました。 ハイテク愛好家のアレックスを想像して、賢くて地元のAI仲間を夢見ています。

メンタルヘルスのためのAIは、スタンフォード大学でのエキサイティングな新しいイニシアチブによって注意深く分析されますメンタルヘルスのためのAIは、スタンフォード大学でのエキサイティングな新しいイニシアチブによって注意深く分析されますApr 18, 2025 am 11:49 AM

AI4MHの最初の発売は2025年4月15日に開催され、有名な精神科医および神経科学者であるLuminary Dr. Tom Insel博士がキックオフスピーカーを務めました。 Insel博士は、メンタルヘルス研究とテクノでの彼の傑出した仕事で有名です

2025年のWNBAドラフトクラスは、成長し、オンラインハラスメントの成長と戦いに参加します2025年のWNBAドラフトクラスは、成長し、オンラインハラスメントの成長と戦いに参加しますApr 18, 2025 am 11:44 AM

「私たちは、WNBAが、すべての人、プレイヤー、ファン、企業パートナーが安全であり、大切になり、力を与えられたスペースであることを保証したいと考えています」とエンゲルバートは述べ、女性のスポーツの最も有害な課題の1つになったものに取り組んでいます。 アノ

Pythonビルトインデータ構造の包括的なガイド-AnalyticsVidhyaPythonビルトインデータ構造の包括的なガイド-AnalyticsVidhyaApr 18, 2025 am 11:43 AM

導入 Pythonは、特にデータサイエンスと生成AIにおいて、プログラミング言語として優れています。 大規模なデータセットを処理する場合、効率的なデータ操作(ストレージ、管理、アクセス)が重要です。 以前に数字とstをカバーしてきました

Openaiの新しいモデルからの代替案からの第一印象Openaiの新しいモデルからの代替案からの第一印象Apr 18, 2025 am 11:41 AM

潜る前に、重要な注意事項:AIパフォーマンスは非決定論的であり、非常にユースケース固有です。簡単に言えば、走行距離は異なる場合があります。この(または他の)記事を最終的な単語として撮影しないでください。これらのモデルを独自のシナリオでテストしないでください

AIポートフォリオ| AIキャリアのためにポートフォリオを構築する方法は?AIポートフォリオ| AIキャリアのためにポートフォリオを構築する方法は?Apr 18, 2025 am 11:40 AM

傑出したAI/MLポートフォリオの構築:初心者と専門家向けガイド 説得力のあるポートフォリオを作成することは、人工知能(AI)と機械学習(ML)で役割を確保するために重要です。 このガイドは、ポートフォリオを構築するためのアドバイスを提供します

エージェントAIがセキュリティ運用にとって何を意味するのかエージェントAIがセキュリティ運用にとって何を意味するのかApr 18, 2025 am 11:36 AM

結果?燃え尽き症候群、非効率性、および検出とアクションの間の隙間が拡大します。これは、サイバーセキュリティで働く人にとってはショックとしてはありません。 しかし、エージェントAIの約束は潜在的なターニングポイントとして浮上しています。この新しいクラス

Google対Openai:学生のためのAIの戦いGoogle対Openai:学生のためのAIの戦いApr 18, 2025 am 11:31 AM

即時の影響と長期パートナーシップ? 2週間前、Openaiは強力な短期オファーで前進し、2025年5月末までに米国およびカナダの大学生にChatGpt Plusに無料でアクセスできます。このツールにはGPT ‑ 4o、Aが含まれます。

See all articles

ホットAIツール

Undresser.AI Undress

Undresser.AI Undress

リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover

AI Clothes Remover

写真から衣服を削除するオンライン AI ツール。

Undress AI Tool

Undress AI Tool

脱衣画像を無料で

Clothoff.io

Clothoff.io

AI衣類リムーバー

AI Hentai Generator

AI Hentai Generator

AIヘンタイを無料で生成します。

ホットツール

WebStorm Mac版

WebStorm Mac版

便利なJavaScript開発ツール

AtomエディタMac版ダウンロード

AtomエディタMac版ダウンロード

最も人気のあるオープンソースエディター

DVWA

DVWA

Damn Vulnerable Web App (DVWA) は、非常に脆弱な PHP/MySQL Web アプリケーションです。その主な目的は、セキュリティ専門家が法的環境でスキルとツールをテストするのに役立ち、Web 開発者が Web アプリケーションを保護するプロセスをより深く理解できるようにし、教師/生徒が教室環境で Web アプリケーションを教え/学習できるようにすることです。安全。 DVWA の目標は、シンプルでわかりやすいインターフェイスを通じて、さまざまな難易度で最も一般的な Web 脆弱性のいくつかを実践することです。このソフトウェアは、

SublimeText3 英語版

SublimeText3 英語版

推奨: Win バージョン、コードプロンプトをサポート!

SublimeText3 Mac版

SublimeText3 Mac版

神レベルのコード編集ソフト(SublimeText3)