ホームページ >テクノロジー周辺機器 >AI >Deepseek R1:Openai O1最大の競争相手がここにいます!

Deepseek R1:Openai O1最大の競争相手がここにいます!

William Shakespeare
William Shakespeareオリジナル
2025-03-09 12:01:14685ブラウズ

Deepseek AIの画期的なDeepSeek R1推論モデルは、生成AIを再定義します。 強化学習(RL)とオープンソースアプローチを活用して、DeepSeek R1は、研究者と開発者がグローバルにアクセスできる高度な推論機能を提供します。 ベンチマークテストでは、ライバルが示されており、場合によってはOpenaiのO1モデルを上回り、OpenaiのLLM優位性に挑戦しています。さらに探索しましょう!

? deepseek-r1が到着しました!

⚡パフォーマンスはOpenai-O1と一致します ?完全にオープンソースモデルとテクニカルレポート ? MITライセンス:研究および商業用使用は無料!

?ウェブサイトとAPIはライブです! https://www.php.cn/link/5d4d48d0359e45e4fdfdf997818d6407fd今日!

? 1/n

pic.twitter.com/7blpwapu6y

- deepseek(@deepseek_ai)2025年1月20日

目次

    deepseek r1とは?
  • deepseek-r1トレーニング
  • deepseek R1モデル
  • deepseek R1キー機能
  • r1
  • へのアクセス
  • アプリケーション
  • 結論

deepseek r1?とは何ですか

Deepseek R1は、生成AIシステム内の推論を優先する大規模な言語モデル(LLM)です。 高度な強化学習(RL)技術は、その機能を強化します

LLMの推論が大幅に改善され、監督された微調整(SFT)への依存度が最小限に抑えられます。
    deepseek R1はコアAIチャレンジに取り組んでいます。広範なSFTなしで推論を強化します。
  • 革新的なトレーニング方法により、モデルは数学、コーディング、ロジックの複雑なタスクを処理できます。

deepseek-r1トレーニング

DeepSeek R1: OpenAI o1 Biggest Competitor is HERE!

1。補強学習

deepseek-r1-zeroは、補強学習(RL)のみを使用し、SFTを上訴します。このアプローチは、モデルが自己検証、反省、考え方(COT)の推論を含む高度な推論スキルを独立して開発することを奨励しています。

報酬システム
報酬は、タスク固有のベンチマークの精度に基づいています

二次報酬は、構造化された、明確な、および一貫した推論出力を奨励します

拒絶サンプリング
  • RL中に、複数の推論パスが生成され、最高のパフォーマンスのパスがさらにトレーニングを導きます。

2。ヒトが解決したデータを使用したコールドスタート初期化

  • 広範なCOT推論のヒトではなく、DeepSeek-R1トレーニングを初期化する例。これにより、ユーザーの期待と読みやすさと調整が保証されます このステップは、純粋なRL(断片化または曖昧な出力を生成する可能性がある)と高品質の推論の間のギャップを橋渡しします。
  • 3。マルチステージトレーニングパイプライン

ステージ1:コールドスタートデータ事前削除:
    人間の注釈のキュレーションデータセットは、基本的な推論構造を備えたモデルをプライムします。
  • ステージ2:補強学習:モデルはRLタスクに取り組み、正確性、コヒーレンス、アライメントの報酬を獲得します。
  • ステージ3:拒否サンプリングを備えた微調整:システムは、最適な推論パターンを出力および強化します。
  • 4。蒸留
大きなモデルは小さなバージョンに蒸留され、推論パフォーマンスを維持しながら計算コストを大幅に削減します。

蒸留モデルは、パフォーマンスの大幅な損失なしに、deepseek-r1のような、より大きなカウンターパートの機能を継承します。

deepseek r1モデル
  • DeepSeek R1には、2つのコアと6つの蒸留モデルが含まれています
  • コアモデル

deepseek-r1-zero:

sftなしで、ベースモデルでRLのみを介して訓練されています。 自己検証や反省などの高度な推論行動を示し、AIME 2024やCodeforcesなどのベンチマークで強力な結果を達成します。 課題には、コールドスタートデータの欠如と構造化された微調整による読みやすさと言語の混合が含まれます。

deepseek-r1:

は、初期化を改善するためにコールドスタートデータ(ヒトが発表した長いCOTの例)を組み込むことにより、deepseek-r1-zeroに基づいて構築されます。推論指向のRLや、より良い人間のアライメントのための拒絶サンプリングなど、マルチステージトレーニングを採用しています。

OpenaiのO1-1217と直接競合し、達成:

aime 2024:@1スコア79.8%を渡し、O1-1217をわずかに超えています

math-500

:O1-1217に匹敵する@1スコア97.3%を渡します DeepSeek R1: OpenAI o1 Biggest Competitor is HERE!

それは知識集約型およびステムのタスクとコーディングの課題に優れています。

    蒸留モデル:
  • deepseek-aiは、R1モデルの蒸留バージョンもリリースされ、小規模で計算効率の良いモデルが大規模なカウンターパートの推論能力を保持するようにします。 これらには、QwenおよびLlamaシリーズモデルが含まれます。 これらの小規模なモデルは、QWQ-32B-PREVIEWなどのオープンソースの競合他社よりも優れていますが、OpenaiのO1-Miniなどの独自モデルと効果的に競合しています。
  • deepseek r1キー機能

    deepseek-r1モデルのライバル大手LLMS。 AIME 2024、Math-500、CodeForcesなどのベンチマークは、OpenaiのO1-1217およびAnthropicのClaude Sonnet 3と比較して競争力のあるパフォーマンスまたは優れたパフォーマンスを示しています。

    r1 へのアクセス

    Web Access: に移動します:https://www.php.cn/link/9f3ad7a14cd3d1cf5d73e8ec7205e7f1

    • サインアップして、deephinkを選択します。 DeepThink R1が自動的に選択されます。

    APIアクセス:DeepSeek R1: OpenAI o1 Biggest Competitor is HERE!

    https://www.php.cn/link/23264092bdaf8349c3cec606151be6bd

    でAPIにアクセスします。 入力コストが低いと、DeepSeek-R1は多くの独自モデルよりもはるかに手頃な価格です。

    アプリケーション

    DeepSeek R1: OpenAI o1 Biggest Competitor is HERE!

    STEM Education:数学ベンチマークでのその強力なパフォーマンスは、教育者と学生を支援するのに理想的です。

    コーディングとソフトウェア開発:
      codeforcesやlivecodebenchなどのプラットフォームでの高性能により、開発者にとって有益です。
    • 一般的な知識タスク:GPQAダイヤモンドのようなベンチマークでの成功は、事実に基づく推論の強力なツールとして位置付けています。
    • 結論

以上がDeepseek R1:Openai O1最大の競争相手がここにいます!の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

声明:
この記事の内容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰属します。このサイトは、それに相当する法的責任を負いません。盗作または侵害の疑いのあるコンテンツを見つけた場合は、admin@php.cn までご連絡ください。