7B オープンソース数学モデルは、中国のチームが作成した数十億の GPT-4 を破る-AI-php.cn

ホームページ

テクノロジー周辺機器

7B オープンソース数学モデルは、中国のチームが作成した数十億の GPT-4 を破る

王林

Feb 07, 2024 pm 05:03 PM

aiデータ

7B オープンソースモデル、数学的能力は 1,000 億規模の GPT-4 を超えます。

そのパフォーマンスはオープンソースモデルの限界を突破したと言え、アリババ同義の研究者ですらスケーリング則が破綻しているのではないかと嘆いていました。

7B オープンソース数学モデルは、中国のチームが作成した数十億の GPT-4 を破る

外部ツールを使用せずに、競技レベルの MATH データセットで 51.7% の精度を達成できます。

オープンソースモデルの中で、このデータセットで半分の精度を達成したのは初めてであり、GPT-4 の初期バージョンと API バージョンをも上回っています。

7B オープンソース数学モデルは、中国のチームが作成した数十億の GPT-4 を破る

このパフォーマンスはオープンソースコミュニティ全体に衝撃を与え、Stability AI の創設者 Emad Mostaque 氏は、研究開発チームを「印象的」であり、「可能性が過小評価されている」と賞賛しました。

7B オープンソース数学モデルは、中国のチームが作成した数十億の GPT-4 を破る

これは、ディープサーチチームの最新のオープンソース 7B 大規模数学モデル DeepSeekMath です。

7B モデルが群衆に勝つ

DeepSeekMath の数学的能力を評価するために、研究チームは中国語 (MGSM-zh、CMATH) English ( GSM8K、MATH )バイリンガルデータセットがテストされました。

補助ツールを使用せず、思考連鎖のプロンプトのみに依存する (CoT) により、DeepSeekMath のパフォーマンスは、70B の大規模数学モデル MetaMATH を含む他のオープンソースモデルを上回りました。

同社が発売した67Bの一般的な大型モデルと比較して、DeepSeekMathの結果も大幅に向上しました。

7B オープンソース数学モデルは、中国のチームが作成した数十億の GPT-4 を破る

クローズドソースモデルを考慮すると、DeepSeekMath はいくつかのデータセットで Gemini Pro と GPT-3.5 を上回り、中国の CMATH では GPT-4 を上回りました。数学もそれに近いです。

しかし、漏洩した仕様によると、GPT-4 は数千億のパラメーターを持つ巨大な存在であるのに対し、DeepSeekMath には 7B パラメーターしかないことに注意する必要があります。

7B オープンソース数学モデルは、中国のチームが作成した数十億の GPT-4 を破る

ツール (Python) が支援として使用できる場合、競技難易度 (MATH) での DeepSeekMath のパフォーマンスデータセットはまだ良好であり、さらに 7 パーセントポイント増加する可能性があります。

7B オープンソース数学モデルは、中国のチームが作成した数十億の GPT-4 を破る

では、DeepSeekMath の優れたパフォーマンスの背後にはどのようなテクノロジが適用されているのでしょうか?

コードモデルに基づいて構築

一般的なモデルよりも優れた数学的機能を得るために、研究チームはコードモデル DeepSeek-Coder-v1.5 を使用して初期化しました。

チームは、2 段階のトレーニング設定でも 1 段階のトレーニング設定でも、一般的なデータトレーニングと比較して、コードトレーニングによりモデルの数学的能力を向上させることができることを発見したためです。

7B オープンソース数学モデルは、中国のチームが作成した数十億の GPT-4 を破る

#Coder に基づいて、研究チームは 5,000 億トークンのトレーニングを継続しました。データ分布は次のとおりです:

7B オープンソース数学モデルは、中国のチームが作成した数十億の GPT-4 を破る # # トレーニングデータに関しては、DeepSeekMath は Common Crawl から抽出された 120B の高品質数学ウェブページデータを使用して DeepSeekMath Corpus を取得しており、総データ量はオープンソースデータセット OpenWebMath の 9 倍です。

データ収集プロセスは反復的に実行され、4 回の反復の後、研究チームは 3,500 万以上の数学的 Web ページを収集し、トークンの数は 1,200 億に達しました。

7B オープンソース数学モデルは、中国のチームが作成した数十億の GPT-4 を破るトレーニングデータにテストセットのコンテンツが含まれていないことを確認するためです

(GSM8K と MATH のコンテンツはインターネット上に大量に存在するため) )

、研究チームも特別にフィルタリングしました。 DeepSeekMath Corpus のデータ品質を検証するために、研究チームは MathPile などの複数のデータセットを使用して 1,500 億のトークンを学習させ、その結果、Corpus は複数の数学的ベンチマークで大幅に優れていました。

7B オープンソース数学モデルは、中国のチームが作成した数十億の GPT-4 を破る調整段階で、研究チームはまず、中国語と英語の数学ガイド付き教師あり微調整

(SFT)

データセット 776,000 個のサンプルを構築しました。 CoT、PoT、ツール統合型推論とその他の 3 つの形式。

強化学習 (RL) ステージでは、研究チームは「グループベースの相対ポリシー最適化」 (Group Relative Policy Optimization、GRPO) アルゴリズムと呼ばれる効率的な手法を使用しました。

GRPO は、Proximal Policy Optimization (PPO) のバリエーションであり、その過程で、従来の価値関数がグループベースの相対報酬推定値に置き換えられ、複雑さを軽減できます。トレーニングプロセス、計算およびメモリの要件。

同時に、GRPO は反復プロセスを通じてトレーニングされ、報酬モデルはポリシーモデルの出力に基づいて継続的に更新され、ポリシーの継続的な改善が保証されます。

7B オープンソース数学モデルは、中国のチームが作成した数十億の GPT-4 を破る

国内初のオープンソース MoE モデルを立ち上げました

DeepSeekMath を立ち上げた徹底調査チームは、国内のオープンソース MoE モデルの「トッププレイヤー」です。オープンソースモデル。

以前、チームは国内初のオープンソース MoE モデル DeepSeek MoE を発表し、その 7B バージョンは同規模の高密度モデル Llama 2 を 40% の計算量で破りました。

一般的なモデルとして、コーディングおよび数学的タスクにおける DeepSeek MoE のパフォーマンスはすでに非常に優れており、リソース消費は非常に低いです。

7B オープンソース数学モデルは、中国のチームが作成した数十億の GPT-4 を破る

コードに関しては、チームが立ち上げた DeepSeek-Coder のプログラミング能力は、同規模のオープンソースベンチマークである CodeLllama を上回っています。

同時に、GPT-3.5-Turbo にも打ち勝ち、GPT-4-Turbo に最も近いオープンソースコードモデルになりました。

7B オープンソース数学モデルは、中国のチームが作成した数十億の GPT-4 を破る

前述したように、今回リリースされた DeepSeekMath も Coder をベースに構築されています。

X では、すでに MoE バージョンの Coder と Math を楽しみにしている人もいます。

7B オープンソース数学モデルは、中国のチームが作成した数十億の GPT-4 を破る

論文アドレス: https://arxiv.org/abs/2402.03300

以上が7B オープンソース数学モデルは、中国のチームが作成した数十億の GPT-4 を破るの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

声明

この記事は51CTO.COMで複製されています。侵害がある場合は、admin@php.cn までご連絡ください。

1つのプロンプトは、すべての主要なLLMのセーフガードをバイパスできますApr 25, 2025 am 11:16 AM

HiddenLayerの画期的な研究は、主要な大規模な言語モデル（LLMS）における重大な脆弱性を明らかにしています。彼らの発見は、ほぼすべての主要なLLMSを回避できる「政策の人形劇」と呼ばれる普遍的なバイパス技術を明らかにしています

5つの間違いほとんどの企業が今年持続可能性を備えていますApr 25, 2025 am 11:15 AM

環境責任と廃棄物の削減の推進は、企業の運営方法を根本的に変えています。この変革は、製品開発、製造プロセス、顧客関係、パートナーの選択、および新しいものの採用に影響します

H20チップバンジョルツチャイナ企業ですが、彼らはインパクトのために長い間支えられてきましたApr 25, 2025 am 11:12 AM

高度なAIハードウェアに関する最近の制限は、AI優位のためのエスカレートする地政学的競争を強調し、中国の外国半導体技術への依存を明らかにしています。 2024年、中国は3,850億ドル相当の半導体を大量に輸入しました

OpenaiがChromeを購入すると、AIはブラウザ戦争を支配する場合がありますApr 25, 2025 am 11:11 AM

GoogleからのChromeの強制的な売却の可能性は、ハイテク業界での激しい議論に火をつけました。 Openaiが65％の世界市場シェアを誇る大手ブラウザを取得する見込みは、THの将来について重要な疑問を提起します

AIが小売メディアの成長する痛みをどのように解決できるかApr 25, 2025 am 11:10 AM

全体的な広告の成長を上回っているにもかかわらず、小売メディアの成長は減速しています。この成熟段階は、生態系の断片化、コストの上昇、測定の問題、統合の複雑さなど、課題を提示します。ただし、人工知能

「aiは私たちであり、それは私たち以上のものです」Apr 25, 2025 am 11:09 AM

古いラジオは、ちらつきと不活性なスクリーンのコレクションの中で静的なパチパチと鳴ります。簡単に不安定になっているこの不安定な電子機器の山は、没入型展示会の6つのインスタレーションの1つである「e-waste land」の核心を形成しています。

Google Cloudは、次の2025年にインフラストラクチャについてより深刻になりますApr 25, 2025 am 11:08 AM

Google Cloudの次の2025年：インフラストラクチャ、接続性、およびAIに焦点を当てています Google Cloudの次の2025年の会議では、多くの進歩を紹介しました。特定の発表の詳細な分析については、私の記事を参照してください

Baby Ai Meme、Arcanaの550万ドルのAI映画パイプライン、IRの秘密の支援者が明らかにした話Apr 25, 2025 am 11:07 AM

今週はAIとXR：AIを搭載した創造性の波が、音楽の世代から映画制作まで、メディアとエンターテイメントを席巻しています。見出しに飛び込みましょう。 AIに生成されたコンテンツの影響力の高まり：テクノロジーコンサルタントのShelly Palme

See all articles

ホットAIツール

Video Face Swap

完全無料の AI 顔交換ツールを使用して、あらゆるビデオの顔を簡単に交換できます。

ホットツール

SecLists は、セキュリティテスターの究極の相棒です。これは、セキュリティ評価中に頻繁に使用されるさまざまな種類のリストを 1 か所にまとめたものです。 SecLists は、セキュリティテスターが必要とする可能性のあるすべてのリストを便利に提供することで、セキュリティテストをより効率的かつ生産的にするのに役立ちます。リストの種類には、ユーザー名、パスワード、URL、ファジングペイロード、機密データパターン、Web シェルなどが含まれます。テスターはこのリポジトリを新しいテストマシンにプルするだけで、必要なあらゆる種類のリストにアクセスできるようになります。