ホームページ >テクノロジー周辺機器 >AI >Deepseek R1'の高度な推論機能を解読します
Deepseek-R1の高度な推論機能により、生成LLMフィールドの新しいリーダーになりました。 NVIDIAの発売後の6,000億ドルの損失の報告により、AI業界に騒ぎを引き起こしました。しかし、DeepSeek-R1が一晩でとても有名になっているのはなぜですか?この記事では、DeepSeek-R1が非常に注目を集めている理由を探り、画期的な機能を掘り下げ、その推論力が実際のアプリケーションをどのように再構築しているかを分析します。詳細な構造化された分析を通じてモデルのパフォーマンスを分類するときは、お楽しみに。
学習目標データサイエンスブログの一部として公開されました。 目次deepseek-r1とは?グループ相対ポリシーの最適化(GRPO)?
トレーニングプロセスとディープセーク-R1-ゼロこのプロジェクトは、推論パターンをより小さなモデル(1.5B-70B)に蒸留し、効率的な展開を可能にします。ベンチマークによると、7BモデルはGPT-4Oを超えています
deepseek-r1紙はこちら。比較チャート
AIMEデータセット上のDeepSeek-R1-Zeroの精度プロット
DeepSeekは、モデル、トレーニングパイプライン、およびベンチマークをオープンソースし、RL主導の推論研究を民主化することを目的としており、STEM、コーディング、および知識集約型タスクのためのスケーラブルなソリューションを提供します。 DeepSeek-R1は、低コスト、ハイスループットSLMSおよびLLMSの新しい時代へのパスを指示します。
グループ相対ポリシーの最適化(GRPO)とは?強化学習は、エージェントと環境の間の相互作用です。トレーニング中、エージェントは累積報酬を最大化するように行動を起こします。実際のアイテムでタスクを実行しようとしている工場の床でチェスやロボットを演奏するボットを考えてください。
エージェントは行うことで学習しています。それが正しいことをするとき、それは報酬を受け取ります。それ以外の場合は、負になります。これらの繰り返しの試験を行うことで、未知の環境に適応するための最適な戦略を見つけるのは旅に出ます。ここに補強学習の簡単な図があります。3つのコンポーネントがあります。
core rl loop学習ポリシーに基づいてアクションを実行するエージェント。
アクションは、特定の状態でエージェントが行った決定です。
ポリシーは、エージェントのアクション選択を定義する戦略です。
値関数は、意思決定の改善を支援することにより、ポリシーを通知します
deepseek-r1研究論文を理解することは、deepseek-r1-zeroとdeepseek-r1モデルの概略訓練プロセスです。
暫定的なdeepseek-r1-zeroおよびr1トレーニング図
ここで、epsilonとベータはハイパーパラメーターであり、A_Iは、各グループ内の出力に対応する報酬{r1、r2、r3…rg}のグループを使用して計算される利点です。
アドバンテージ計算では、グループ出力内の報酬を正規化します。
KLペナルティを使用してクリップされたポリシー更新を最大化するには
Kullback-Leibler Divergence
相対エントロピーとしても知られるKL発散は、モデルの確率分布(Q)と真の確率分布(P)の違いを測定する統計的距離関数です。
以下の方程式は、kl-divergenceの数学的な形式です:
相対エントロピーまたはKL距離は常に非陰性の実数です。 QとPが同一である場合にのみ、最低値は0です。つまり、モデル確率分布(Q)と真の確率分布(P)のオーバーラップまたは完全なシステムの両方を意味します。 Kl Divergenceの例
ここに、KL発散を紹介する簡単な例があります
Scipy統計パッケージのエントロピー関数を使用し、2つの分布間の相対エントロピーを計算します。
ガウスのようなガウス分布とシフトしたガウス分布としての私たちのpとq。
黄色の部分は、PとQのklの違いです。
import numpy as np import matplotlib.pyplot as plt from scipy.stats import entropyGRPO方程式では、GRPOは各クエリの出力グループをサンプリングし、グループの平均および標準偏差に比べて利点を計算します。これにより、別の批評家モデルのトレーニングが回避されます。目的には、参照ポリシーの近くにとどまるためのクリップ比とKLペナルティが含まれています。
# Define two probability distributions P and Q x = np.linspace(-3, 3, 100) P = np.exp(-(x**2)) # Gaussian-like distribution Q = np.exp(-((x - 1) ** 2)) # Shifted Gaussian # Normalize to ensure they sum to 1 P /= P.sum() Q /= Q.sum() # Compute KL divergence kl_div = entropy(P, Q)比率の部分は、新しいポリシーと古いポリシーの確率比です。クリップ(比率)は、1エプシロンと1つのエプシロンの間でバインドされています。
plt.style.use("ggplot") plt.figure(figsize=(12, 8)) plt.plot(x, P, label="P (Original)", line, color="blue") plt.plot(x, Q, label="Q (Shifted)", line, color="red") plt.fill_between(x, P, Q, color="yellow", alpha=0.3, label="Difference") plt.title(f"KL Divergence: {kl_div:.4f}") plt.xlabel("x") plt.ylabel("Probability Density") plt.legend() plt.show()
ユーザーとアシスタントの間の会話プロセス
ユーザーは質問をし、モデルまたはアシスタントは、最初に推論プロセスについて考え、次にユーザーに応答することによってそれを解決します。
推論と答えは、以下の図に囲まれています。
import numpy as np import matplotlib.pyplot as plt from scipy.stats import entropyDeepSeek-R1-Zeroの自己進化プロセスは、強化学習がモデルの推論能力を自律的に改善する方法を示しています。チャートは、複雑な推論タスクを処理するためのモデルの推論機能がどのように進化するかを示しています。
deepseek-r1
推論パフォーマンスをさらに改善できますか?
これらのデータには、DeepSeek-R1-Zeroと比較して2つの重要な利点があります
読みやすさ
MMLU、MMLU-Pro、GPQAダイヤモンド、DeepSeek-R1などの教育指向の知識ベンチマークは、DeepSeek-V3と比較して優れていることがわかります。主に、STEM関連の質問の精度が向上しています。 DeepSeek-R1は、形式の指示に従うモデルの能力を評価するために設計されたベンチマークデータであるIF-Evalで素晴らしい結果をもたらします。
十分な数学と理論的理解が行われました。これにより、補強学習に関する全体的な知識と、DeepSeek-R1モデルの開発に関する最先端のアプリケーションを大幅に高めることを大幅に高めたいと思います。今、私たちはオラマを使用してdeepseek-r1を手に入れ、新しく造られたLLMを味わいます。deepseek-r1-7b
の推論能力の評価さまざまな認知ドメインにわたってdeepseek-r1の推論機能を評価します
import numpy as np import matplotlib.pyplot as plt from scipy.stats import entropyそして応答は:
です
本によると正確です。
驚くべき!!
これを行うためのより顕著な方法であるLlamaindexを使用してテスト環境をセットアップします。
テスト環境のセットアップ
ここで、必要なパッケージをインストールします
パッケージをインストール
# Define two probability distributions P and Q x = np.linspace(-3, 3, 100) P = np.exp(-(x**2)) # Gaussian-like distribution Q = np.exp(-((x - 1) ** 2)) # Shifted Gaussian # Normalize to ensure they sum to 1 P /= P.sum() Q /= Q.sum() # Compute KL divergence kl_div = entropy(P, Q)インポートライブラリ
plt.style.use("ggplot") plt.figure(figsize=(12, 8)) plt.plot(x, P, label="P (Original)", line, color="blue") plt.plot(x, Q, label="Q (Shifted)", line, color="red") plt.fill_between(x, P, Q, color="yellow", alpha=0.3, label="Difference") plt.title(f"KL Divergence: {kl_div:.4f}") plt.xlabel("x") plt.ylabel("Probability Density") plt.legend() plt.show()輸入物:
数学的問題:割引およびロイヤルティカードの計算
import numpy as np import matplotlib.pyplot as plt from scipy.stats import entropy
このプロンプトの重要な側面は、
です
パーセンテージの概念の理解
# Define two probability distributions P and Q x = np.linspace(-3, 3, 100) P = np.exp(-(x**2)) # Gaussian-like distribution Q = np.exp(-((x - 1) ** 2)) # Shifted Gaussian # Normalize to ensure they sum to 1 P /= P.sum() Q /= Q.sum() # Compute KL divergence kl_div = entropy(P, Q)
これは、論理的な一貫性を示し、論理的解決策を提案し、クラスの関係を理解し、三段論法の推論を示します。
因果チェーン分析:オオカミに対する病気の生態系の影響
森林生態系では、病気がオオカミの人口の80%を殺します。これが今後5年間にわたって生態系に及ぼす可能性のある影響の潜在的なチェーンを説明してください。少なくとも3つのレベルの原因と結果を含め、各ステップの推論を説明してください。
plt.style.use("ggplot") plt.figure(figsize=(12, 8)) plt.plot(x, P, label="P (Original)", line, color="blue") plt.plot(x, Q, label="Q (Shifted)", line, color="red") plt.fill_between(x, P, Q, color="yellow", alpha=0.3, label="Difference") plt.title(f"KL Divergence: {kl_div:.4f}") plt.xlabel("x") plt.ylabel("Probability Density") plt.legend() plt.show()
このプロンプトモデルは、複雑なシステムの理解を示し、複数のカジュアルチェーンを追跡し、間接的な効果を考慮し、ドメインの知識を適用します。 パターン認識:番号シーケンスの識別と説明
このシーケンスを考えてみましょう:2、6、12、20、30、__次の数字は何ですか?
n番目の用語の式を作成します。
<think> reasoning process</think> <answer> answer here </answer> USER: Prompt Assistant: Answerモデルは、数値パターンの識別、数学的式の生成、推論プロセスの説明、ソリューションの検証に優れています。
バッグには、3つの赤い大理石、4つの青い大理石、5つの緑色の大理石が含まれています。交換せずに2つの大理石を描く場合:
すべての計算を表示し、アプローチを説明してください。
import numpy as np import matplotlib.pyplot as plt from scipy.stats import entropy
output:
モデルは確率を計算し、条件付きの問題を処理し、確率論的推論を説明できます。
デバッグ:コードとそのソリューションの論理エラー
# Define two probability distributions P and Q x = np.linspace(-3, 3, 100) P = np.exp(-(x**2)) # Gaussian-like distribution Q = np.exp(-((x - 1) ** 2)) # Shifted Gaussian # Normalize to ensure they sum to 1 P /= P.sum() Q /= Q.sum() # Compute KL divergence kl_div = entropy(P, Q)
plt.style.use("ggplot") plt.figure(figsize=(12, 8)) plt.plot(x, P, label="P (Original)", line, color="blue") plt.plot(x, Q, label="Q (Shifted)", line, color="red") plt.fill_between(x, P, Q, color="yellow", alpha=0.3, label="Difference") plt.title(f"KL Divergence: {kl_div:.4f}") plt.xlabel("x") plt.ylabel("Probability Density") plt.legend() plt.show()
output:
比較分析:電気対ガソリン車
環境への影響
短い通勤のある都市の住人
<think> reasoning process</think> <answer> answer here </answer> USER: Prompt Assistant: Answeroutput:
それは大きな反応です、私は推論プロセスが大好きでした。複数の要因を分析し、コンテキストを考慮し、優れた推奨事項を作成し、競合する優先順位のバランスをとっています。
自動運転車は、一瞬の決定を下す必要があります:
左の逆:2人の歩行者を押します
倫理的フレームワーク
仮定$ollama run deepseek-r1:7b
これらのタイプの問題は、生成AIモデルにとって最も問題があります。倫理的推論、複数の視点、道徳的ジレンマ、および価値判断をテストします。全体として、それは順調でした。より倫理的なドメイン固有の微調整は、より深い反応をもたらすと思います。
統計分析:コーヒー消費に関する研究の主張を評価識別:
潜在的な交絡変数
import numpy as np import matplotlib.pyplot as plt from scipy.stats import entropyoutput:
統計的概念を十分に理解し、研究の制限とデータに関する批判的思考を特定し、方法論の改善を提案します。
output:
# Define two probability distributions P and Q x = np.linspace(-3, 3, 100) P = np.exp(-(x**2)) # Gaussian-like distribution Q = np.exp(-((x - 1) ** 2)) # Shifted Gaussian # Normalize to ensure they sum to 1 P /= P.sum() Q /= Q.sum() # Compute KL divergence kl_div = entropy(P, Q)
deepseekは数学的な問題が大好きで、指数関数的な減衰を処理し、優れた数学モデルを提供し、計算を提供します。
タスクのスケジューリング
plt.style.use("ggplot") plt.figure(figsize=(12, 8)) plt.plot(x, P, label="P (Original)", line, color="blue") plt.plot(x, Q, label="Q (Shifted)", line, color="red") plt.fill_between(x, P, Q, color="yellow", alpha=0.3, label="Difference") plt.title(f"KL Divergence: {kl_div:.4f}") plt.xlabel("x") plt.ylabel("Probability Density") plt.legend() plt.show()
複数の制約を処理し、最適化されたスケジュールを作成し、問題解決プロセスを提供できます。
クロスドメイン分析
<think> reasoning process</think> <answer> answer here </answer> USER: Prompt Assistant: Answer
さまざまな種類のドメインを一緒に比較する仕事をうまくやったことが非常に印象的です。このタイプの推論は、さまざまなタイプのドメインが一緒に巻き込まれるのに役立つため、1つのドメインの問題は他のドメインからのソリューションによって解決できます。ドメインのクロス理解に関する研究に役立ちます
ただし、ペニーを費やすことなくローカルシステムのモデルを試すことができるプロンプトがたくさんあります。 DeepSeek-R1を使用して、より多くの研究と、さまざまな領域について学びます。必要なのは、ラップトップ、あなたの時間、そして素敵な場所だけです。
この記事で使用されているすべてのコードは
DeepSeek-R1は、さまざまな推論タスクにわたって有望な機能を示し、構造化された論理分析、ステップバイステップの問題解決、マルチコンテキストの理解、およびさまざまな主題からの知識の蓄積における高度な推論機能を紹介します。ただし、複雑な時間的推論、深い曖昧さの処理、創造的なソリューションの生成など、改善の領域があります。最も重要なことは、GPUの膨大なトレーニングコストの負担なしに、DeepSeek-R1のようなモデルをどのように開発できるかを示しています。
そのオープンソースモデルは、AIをより民主的な領域に向けてプッシュします。このトレーニング方法についてはまもなく新しい研究が行われ、より強力で強力なAIモデルがさらに優れた推論能力を備えています。 AGIはまだ遠い未来にあるかもしれませんが、Deepseek-R1の進歩は、AGIが人々と手をつないで出現する未来を指し示しています。 DeepSeek-R1は間違いなく、より高度なAI推論システムを実現する上で重要な一歩です。
キーテイクアウト以上がDeepseek R1&#039;の高度な推論機能を解読しますの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。