7B オープン ソース モデル、数学的能力は 1,000 億規模の GPT-4 を超えます。
そのパフォーマンスはオープンソース モデルの限界を突破したと言え、アリババ同義の研究者ですらスケーリング則が破綻しているのではないかと嘆いていました。
外部ツールを使用せずに、競技レベルの MATH データ セットで 51.7% の精度を達成できます。
オープンソース モデルの中で、このデータセットで半分の精度を達成したのは初めてであり、GPT-4 の初期バージョンと API バージョンをも上回っています。
このパフォーマンスはオープンソース コミュニティ全体に衝撃を与え、Stability AI の創設者 Emad Mostaque 氏は、研究開発チームを「印象的」であり、「可能性が過小評価されている」と賞賛しました。
これは、ディープサーチチームの最新のオープンソース 7B 大規模数学モデル DeepSeekMath です。
7B モデルが群衆に勝つ
DeepSeekMath の数学的能力を評価するために、研究チームは中国語 (MGSM-zh、CMATH) English ( GSM8K、MATH )バイリンガル データ セットがテストされました。
補助ツールを使用せず、思考連鎖のプロンプトのみに依存する (CoT) により、DeepSeekMath のパフォーマンスは、70B の大規模数学モデル MetaMATH を含む他のオープンソース モデルを上回りました。
同社が発売した67Bの一般的な大型モデルと比較して、DeepSeekMathの結果も大幅に向上しました。
クローズドソース モデルを考慮すると、DeepSeekMath はいくつかのデータ セットで Gemini Pro と GPT-3.5 を上回り、中国の CMATH では GPT-4 を上回りました。数学もそれに近いです。
しかし、漏洩した仕様によると、GPT-4 は数千億のパラメーターを持つ巨大な存在であるのに対し、DeepSeekMath には 7B パラメーターしかないことに注意する必要があります。
ツール (Python) が支援として使用できる場合、競技難易度 (MATH) での DeepSeekMath のパフォーマンスデータセットはまだ良好であり、さらに 7 パーセントポイント増加する可能性があります。
では、DeepSeekMath の優れたパフォーマンスの背後にはどのようなテクノロジが適用されているのでしょうか?
コード モデルに基づいて構築
一般的なモデルよりも優れた数学的機能を得るために、研究チームはコード モデル DeepSeek-Coder-v1.5 を使用して初期化しました。
チームは、2 段階のトレーニング設定でも 1 段階のトレーニング設定でも、一般的なデータ トレーニングと比較して、コード トレーニングによりモデルの数学的能力を向上させることができることを発見したためです。
# # トレーニング データに関しては、DeepSeekMath は Common Crawl から抽出された 120B の高品質数学ウェブページ データを使用して DeepSeekMath Corpus を取得しており、総データ量はオープン ソース データ セット OpenWebMath の 9 倍です。
データ収集プロセスは反復的に実行され、4 回の反復の後、研究チームは 3,500 万以上の数学的 Web ページを収集し、トークンの数は 1,200 億に達しました。
トレーニング データにテスト セットのコンテンツが含まれていないことを確認するためです
、研究チームも特別にフィルタリングしました。 DeepSeekMath Corpus のデータ品質を検証するために、研究チームは MathPile などの複数のデータセットを使用して 1,500 億のトークンを学習させ、その結果、Corpus は複数の数学的ベンチマークで大幅に優れていました。
調整段階で、研究チームはまず、中国語と英語の数学ガイド付き教師あり微調整
データセット 776,000 個のサンプルを構築しました。 CoT、PoT、ツール統合型推論とその他の 3 つの形式。 強化学習 (RL) ステージでは、研究チームは「グループベースの相対ポリシー最適化」 (Group Relative Policy Optimization、GRPO) アルゴリズムと呼ばれる効率的な手法を使用しました。 GRPO は、Proximal Policy Optimization (PPO) のバリエーションであり、その過程で、従来の価値関数がグループベースの相対報酬推定値に置き換えられ、複雑さを軽減できます。トレーニング プロセス、計算およびメモリの要件。 同時に、GRPO は反復プロセスを通じてトレーニングされ、報酬モデルはポリシー モデルの出力に基づいて継続的に更新され、ポリシーの継続的な改善が保証されます。 DeepSeekMath を立ち上げた徹底調査チームは、国内のオープンソース MoE モデルの「トッププレイヤー」です。オープンソースモデル。 以前、チームは国内初のオープンソース MoE モデル DeepSeek MoE を発表し、その 7B バージョンは同規模の高密度モデル Llama 2 を 40% の計算量で破りました。 一般的なモデルとして、コーディングおよび数学的タスクにおける DeepSeek MoE のパフォーマンスはすでに非常に優れており、リソース消費は非常に低いです。 コードに関しては、チームが立ち上げた DeepSeek-Coder のプログラミング能力は、同規模のオープンソース ベンチマークである CodeLllama を上回っています。 同時に、GPT-3.5-Turbo にも打ち勝ち、GPT-4-Turbo に最も近いオープン ソース コード モデルになりました。 前述したように、今回リリースされた DeepSeekMath も Coder をベースに構築されています。 X では、すでに MoE バージョンの Coder と Math を楽しみにしている人もいます。 論文アドレス: https://arxiv.org/abs/2402.03300国内初のオープンソース MoE モデルを立ち上げました
以上が7B オープンソース数学モデルは、中国のチームが作成した数十億の GPT-4 を破るの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

HiddenLayerの画期的な研究は、主要な大規模な言語モデル(LLMS)における重大な脆弱性を明らかにしています。 彼らの発見は、ほぼすべての主要なLLMSを回避できる「政策の人形劇」と呼ばれる普遍的なバイパス技術を明らかにしています

環境責任と廃棄物の削減の推進は、企業の運営方法を根本的に変えています。 この変革は、製品開発、製造プロセス、顧客関係、パートナーの選択、および新しいものの採用に影響します

高度なAIハードウェアに関する最近の制限は、AI優位のためのエスカレートする地政学的競争を強調し、中国の外国半導体技術への依存を明らかにしています。 2024年、中国は3,850億ドル相当の半導体を大量に輸入しました

GoogleからのChromeの強制的な売却の可能性は、ハイテク業界での激しい議論に火をつけました。 Openaiが65%の世界市場シェアを誇る大手ブラウザを取得する見込みは、THの将来について重要な疑問を提起します

全体的な広告の成長を上回っているにもかかわらず、小売メディアの成長は減速しています。 この成熟段階は、生態系の断片化、コストの上昇、測定の問題、統合の複雑さなど、課題を提示します。 ただし、人工知能

古いラジオは、ちらつきと不活性なスクリーンのコレクションの中で静的なパチパチと鳴ります。簡単に不安定になっているこの不安定な電子機器の山は、没入型展示会の6つのインスタレーションの1つである「e-waste land」の核心を形成しています。

Google Cloudの次の2025年:インフラストラクチャ、接続性、およびAIに焦点を当てています Google Cloudの次の2025年の会議では、多くの進歩を紹介しました。 特定の発表の詳細な分析については、私の記事を参照してください

今週はAIとXR:AIを搭載した創造性の波が、音楽の世代から映画制作まで、メディアとエンターテイメントを席巻しています。 見出しに飛び込みましょう。 AIに生成されたコンテンツの影響力の高まり:テクノロジーコンサルタントのShelly Palme


ホットAIツール

Undresser.AI Undress
リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover
写真から衣服を削除するオンライン AI ツール。

Undress AI Tool
脱衣画像を無料で

Clothoff.io
AI衣類リムーバー

Video Face Swap
完全無料の AI 顔交換ツールを使用して、あらゆるビデオの顔を簡単に交換できます。

人気の記事

ホットツール

SecLists
SecLists は、セキュリティ テスターの究極の相棒です。これは、セキュリティ評価中に頻繁に使用されるさまざまな種類のリストを 1 か所にまとめたものです。 SecLists は、セキュリティ テスターが必要とする可能性のあるすべてのリストを便利に提供することで、セキュリティ テストをより効率的かつ生産的にするのに役立ちます。リストの種類には、ユーザー名、パスワード、URL、ファジング ペイロード、機密データ パターン、Web シェルなどが含まれます。テスターはこのリポジトリを新しいテスト マシンにプルするだけで、必要なあらゆる種類のリストにアクセスできるようになります。

ドリームウィーバー CS6
ビジュアル Web 開発ツール

SAP NetWeaver Server Adapter for Eclipse
Eclipse を SAP NetWeaver アプリケーション サーバーと統合します。

SublimeText3 Linux 新バージョン
SublimeText3 Linux 最新バージョン

SublimeText3 Mac版
神レベルのコード編集ソフト(SublimeText3)

ホットトピック









