ホームページ >テクノロジー周辺機器 >AI >Deepseek R1:Openai O1最大の競争相手がここにいます!
Deepseek AIの画期的なDeepSeek R1推論モデルは、生成AIを再定義します。 強化学習(RL)とオープンソースアプローチを活用して、DeepSeek R1は、研究者と開発者がグローバルにアクセスできる高度な推論機能を提供します。 ベンチマークテストでは、ライバルが示されており、場合によってはOpenaiのO1モデルを上回り、OpenaiのLLM優位性に挑戦しています。さらに探索しましょう!
? deepseek-r1が到着しました!
⚡パフォーマンスはOpenai-O1と一致します ?完全にオープンソースモデルとテクニカルレポート ? MITライセンス:研究および商業用使用は無料!
?ウェブサイトとAPIはライブです! https://www.php.cn/link/5d4d48d0359e45e4fdfdf997818d6407fd今日!
? 1/n - deepseek(@deepseek_ai)2025年1月20日
目次
deepseek r1?とは何ですか
Deepseek R1は、生成AIシステム内の推論を優先する大規模な言語モデル(LLM)です。 高度な強化学習(RL)技術は、その機能を強化しますLLMの推論が大幅に改善され、監督された微調整(SFT)への依存度が最小限に抑えられます。
1。補強学習
deepseek-r1-zeroは、補強学習(RL)のみを使用し、SFTを上訴します。このアプローチは、モデルが自己検証、反省、考え方(COT)の推論を含む高度な推論スキルを独立して開発することを奨励しています。
報酬システム二次報酬は、構造化された、明確な、および一貫した推論出力を奨励します
拒絶サンプリング2。ヒトが解決したデータを使用したコールドスタート初期化
ステージ1:コールドスタートデータ事前削除:
蒸留モデルは、パフォーマンスの大幅な損失なしに、deepseek-r1のような、より大きなカウンターパートの機能を継承します。
deepseek r1モデルdeepseek-r1-zero:
sftなしで、ベースモデルでRLのみを介して訓練されています。 自己検証や反省などの高度な推論行動を示し、AIME 2024やCodeforcesなどのベンチマークで強力な結果を達成します。 課題には、コールドスタートデータの欠如と構造化された微調整による読みやすさと言語の混合が含まれます。 deepseek-r1:は、初期化を改善するためにコールドスタートデータ(ヒトが発表した長いCOTの例)を組み込むことにより、deepseek-r1-zeroに基づいて構築されます。推論指向のRLや、より良い人間のアライメントのための拒絶サンプリングなど、マルチステージトレーニングを採用しています。
OpenaiのO1-1217と直接競合し、達成:
aime 2024:@1スコア79.8%を渡し、O1-1217をわずかに超えています
math-500:O1-1217に匹敵する@1スコア97.3%を渡します
deepseek r1キー機能
deepseek-r1モデルのライバル大手LLMS。 AIME 2024、Math-500、CodeForcesなどのベンチマークは、OpenaiのO1-1217およびAnthropicのClaude Sonnet 3と比較して競争力のあるパフォーマンスまたは優れたパフォーマンスを示しています。
r1 へのアクセス
Web Access:
APIアクセス:
でAPIにアクセスします。 入力コストが低いと、DeepSeek-R1は多くの独自モデルよりもはるかに手頃な価格です。
アプリケーション
STEM Education:
以上がDeepseek R1:Openai O1最大の競争相手がここにいます!の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。