ホームページ >テクノロジー周辺機器 >AI >Deepseek R1＆＃039;の高度な推論機能を解読します

Deepseek R1＆＃039;の高度な推論機能を解読します

Jennifer Anistonオリジナル: 2025-03-07 10:57:17440ブラウズ

Deepseek-R1の高度な推論機能により、生成LLMフィールドの新しいリーダーになりました。 NVIDIAの発売後の6,000億ドルの損失の報告により、AI業界に騒ぎを引き起こしました。しかし、DeepSeek-R1が一晩でとても有名になっているのはなぜですか？この記事では、DeepSeek-R1が非常に注目を集めている理由を探り、画期的な機能を掘り下げ、その推論力が実際のアプリケーションをどのように再構築しているかを分析します。詳細な構造化された分析を通じてモデルのパフォーマンスを分類するときは、お楽しみに。

学習目標

グループ相対ポリシーの最適化（GRPO）が批評家モデルなしで補強学習を強化する方法を学びます。
推論タスクにおけるDeepSeek-R1の優位性を紹介する評価メトリックとベンチマークを分析します。
この記事は、

データサイエンスブログの一部として公開されました。目次deepseek-r1とは？グループ相対ポリシーの最適化（GRPO）？

トレーニングプロセスとディープセーク-R1-ゼロGRPOはどのように機能しますか？ deepseek-r1

deepseek-r1
deepseek-r1-7bの推論能力の評価高度な推論と問題解決シナリオ
結論
頻繁に尋ねられた質問deepseek-r1とは？
簡単な言葉では、Deepseek-R1は、2023年にLiang Wenfengによって設立されたDeepSeekが開発した最先端の言語モデルシリーズです。強化学習（RL）を通じてLLMSの高度な推論能力を達成しました。 2つのバリエーションがあります
deepseek-r1
コールドスタートデータとマルチステージトレーニング（RL SFT）で強化され、読みやすさの問題に対処し、Math-500（97.3％の精度）やコーディングの課題などのタスクでOpenaiのO1を上回ります（CodeForces Rating 2029）

DeepSeekは、批評家モデルを使用せず、RLのトレーニングコストを節約するRLテクニックであるグループ相対ポリシーオプティメーション（GRPO）を使用しています。 GRPOは、出力をグループ化して報酬を正規化し、批評家モデルの必要性を排除することにより、ポリシーを最適化します。

このプロジェクトは、推論パターンをより小さなモデル（1.5B-70B）に蒸留し、効率的な展開を可能にします。ベンチマークによると、7BモデルはGPT-4Oを超えています

deepseek-r1紙はこちら。

比較チャート

AIMEデータセット上のDeepSeek-R1-Zeroの精度プロット

Deepseek R1＆＃039;の高度な推論機能を解読します

DeepSeekは、モデル、トレーニングパイプライン、およびベンチマークをオープンソースし、RL主導の推論研究を民主化することを目的としており、STEM、コーディング、および知識集約型タスクのためのスケーラブルなソリューションを提供します。 DeepSeek-R1は、低コスト、ハイスループットSLMSおよびLLMSの新しい時代へのパスを指示します。

グループ相対ポリシーの最適化（GRPO）とは？

最先端のGRPOに入る前に、補強学習（RL）の基本についてサーフィンしましょう。

強化学習は、エージェントと環境の間の相互作用です。トレーニング中、エージェントは累積報酬を最大化するように行動を起こします。実際のアイテムでタスクを実行しようとしている工場の床でチェスやロボットを演奏するボットを考えてください。

エージェントは行うことで学習しています。それが正しいことをするとき、それは報酬を受け取ります。それ以外の場合は、負になります。これらの繰り返しの試験を行うことで、未知の環境に適応するための最適な戦略を見つけるのは旅に出ます。

ここに補強学習の簡単な図があります。3つのコンポーネントがあります。

core rl loop

学習ポリシーに基づいてアクションを実行するエージェント。

アクションは、特定の状態でエージェントが行った決定です。

環境は、エージェントが対話することによって動作して学習する外部システム（ゲーム、ワークショップフロア、フライングドローンなど）です。

エージェントコンポーネント

ポリシーは、エージェントのアクション選択を定義する戦略です。 Deepseek R1＆＃039;の高度な推論機能を解読します値関数は、意思決定の改善を支援することにより、ポリシーを通知します

ポリシーガイド（関係ガイド関係）RLループでアクションを選択するエージェント

学習要素
最適化またはポリシーの更新では、エクスペリエンスを使用してポリシーと重要な意思決定を改善します。
deepseek-r1-zero

収集されたエクスペリエンスは、最適化を通じてポリシーを更新するために使用されます。値関数は、ポリシーを改良するための洞察を提供します。ポリシーはエージェントを導きます。エージェントは環境と対話して新しい経験を収集し、エージェントが最適な戦略を学習するか、環境に適応するために改善するまでサイクルが続きます。

deepseek-r1-zeroのトレーニングでは、グループの相対的なポリシーの最適化またはGRPOを使用し、批評家モデルを排除し、トレーニングコストを削減します。

deepseek-r1研究論文を理解することは、deepseek-r1-zeroとdeepseek-r1モデルの概略訓練プロセスです。

暫定的なdeepseek-r1-zeroおよびr1トレーニング図

Deepseek R1＆＃039;の高度な推論機能を解読します

grpoはどのように機能しますか？

各質問Qについて、GRPOは古いポリシーからの出力{O1、O2、O2 ..}の出力グループをサンプリングし、以下の目的を最大化することによりポリシーモデルを最適化します。

Deepseek R1＆＃039;の高度な推論機能を解読しますここで、epsilonとベータはハイパーパラメーターであり、A_Iは、各グループ内の出力に対応する報酬{r1、r2、r3…rg}のグループを使用して計算される利点です。

アドバンテージ計算

アドバンテージ計算では、グループ出力内の報酬を正規化します。

KLペナルティを使用してクリップされたポリシー更新を最大化するには

Kullback-Leibler Divergence

Deepseek R1＆＃039;の高度な推論機能を解読します相対エントロピーとしても知られるKL発散は、モデルの確率分布（Q）と真の確率分布（P）の違いを測定する統計的距離関数です。

詳細については

以下の方程式は、kl-divergenceの数学的な形式です：

相対エントロピーまたはKL距離は常に非陰性の実数です。 QとPが同一である場合にのみ、最低値は0です。つまり、モデル確率分布（Q）と真の確率分布（P）のオーバーラップまたは完全なシステムの両方を意味します。 Kl Divergenceの例

ここに、KL発散を紹介する簡単な例があります

Deepseek R1＆＃039;の高度な推論機能を解読します Scipy統計パッケージのエントロピー関数を使用し、2つの分布間の相対エントロピーを計算します。

ガウスのようなガウス分布とシフトしたガウス分布としての私たちのpとq。

黄色の部分は、PとQのklの違いです。

import numpy as np
import matplotlib.pyplot as plt
from scipy.stats import entropy

GRPO方程式では、GRPOは各クエリの出力グループをサンプリングし、グループの平均および標準偏差に比べて利点を計算します。これにより、別の批評家モデルのトレーニングが回避されます。目的には、参照ポリシーの近くにとどまるためのクリップ比とKLペナルティが含まれています。

# Define two probability distributions P and Q
x = np.linspace(-3, 3, 100)
P = np.exp(-(x**2))  # Gaussian-like distribution
Q = np.exp(-((x - 1) ** 2))  # Shifted Gaussian

# Normalize to ensure they sum to 1
P /= P.sum()
Q /= Q.sum()

# Compute KL divergence
kl_div = entropy(P, Q)

比率の部分は、新しいポリシーと古いポリシーの確率比です。クリップ（比率）は、1エプシロンと1つのエプシロンの間でバインドされています。

plt.style.use("ggplot")
plt.figure(figsize=(12, 8))
plt.plot(x, P, label="P (Original)", line, color="blue")
plt.plot(x, Q, label="Q (Shifted)", line, color="red")
plt.fill_between(x, P, Q, color="yellow", alpha=0.3, label="Difference")
plt.title(f"KL Divergence: {kl_div:.4f}")
plt.xlabel("x")
plt.ylabel("Probability Density")
plt.legend()
plt.show()

ユーザーとアシスタントの間の会話プロセス

ユーザーは質問をし、モデルまたはアシスタントは、最初に推論プロセスについて考え、次にユーザーに応答することによってそれを解決します。

推論と答えは、以下の図に囲まれています。

Deepseek R1＆＃039;の高度な推論機能を解読します

import numpy as np
import matplotlib.pyplot as plt
from scipy.stats import entropy

DeepSeek-R1-Zeroの自己進化プロセスは、強化学習がモデルの推論能力を自律的に改善する方法を示しています。チャートは、複雑な推論タスクを処理するためのモデルの推論機能がどのように進化するかを示しています。

Deepseek R1＆＃039;の高度な推論機能を解読します deepseek-r1

の推論と一般的な機能の強化

deepseek-r1、ゼロモデルの有望な結果の後に生じる2つの重要な質問に答えます。

推論パフォーマンスをさらに改善できますか？

これらのデータには、DeepSeek-R1-Zeroと比較して2つの重要な利点があります

Deepseek R1＆＃039;の高度な推論機能を解読します読みやすさ

：ゼロモデルの重要な制限は、そのコンテンツが読み取りに適していないことです。応答は多くの言語と混合されており、ユーザーの回答を強調するためにフォーマットされていません。

ポテンシャル

deepseek-r1の評価
パス@1は次のように計算されます

ここで、P_IはI-th応答の正確性を示します。研究論文によると、この方法はより信頼性の高いパフォーマンスの推定値を保証します。

MMLU、MMLU-Pro、GPQAダイヤモンド、DeepSeek-R1などの教育指向の知識ベンチマークは、DeepSeek-V3と比較して優れていることがわかります。主に、STEM関連の質問の精度が向上しています。 DeepSeek-R1は、形式の指示に従うモデルの能力を評価するために設計されたベンチマークデータであるIF-Evalで素晴らしい結果をもたらします。

十分な数学と理論的理解が行われました。これにより、補強学習に関する全体的な知識と、DeepSeek-R1モデルの開発に関する最先端のアプリケーションを大幅に高めることを大幅に高めたいと思います。今、私たちはオラマを使用してdeepseek-r1を手に入れ、新しく造られたLLMを味わいます。

deepseek-r1-7b

の推論能力の評価

DeepSeek-R1-7Bの評価は、その強化された推論機能、特に複雑な問題解決シナリオでのパフォーマンスに焦点を当てています。キーベンチマークを分析することにより、この評価は、モデルが前任者と比較して複雑な推論タスクをどのように効果的に処理するかについての洞察を提供します。

何を達成したいのか

さまざまな認知ドメインにわたってdeepseek-r1の推論機能を評価します

特定の推論タスクの強みと制限を特定

モデルの潜在的な現実世界のアプリケーションを理解してください

Ollama from Hore

をインストールします

システムにインストールした後、端末を開いて以下のコマンドを入力した後、DeepSeek-R1 7Bモデルをダウンロードして起動します。

から線形不平等の質問をします

import numpy as np
import matplotlib.pyplot as plt
from scipy.stats import entropy

そして応答は：

です

本によると正確です。

Deepseek R1＆＃039;の高度な推論機能を解読します

驚くべき!!

これを行うためのより顕著な方法であるLlamaindexを使用してテスト環境をセットアップします。 Deepseek R1＆＃039;の高度な推論機能を解読しますテスト環境のセットアップ

ここで、必要なパッケージをインストールします

パッケージをインストール

vscodeを開き、Jupyterノートブック名PRONT_ANALYSIS.IPYNBプロジェクトフォルダーのルートを作成します。

# Define two probability distributions P and Q
x = np.linspace(-3, 3, 100)
P = np.exp(-(x**2))  # Gaussian-like distribution
Q = np.exp(-((x - 1) ** 2))  # Shifted Gaussian

# Normalize to ensure they sum to 1
P /= P.sum()
Q /= Q.sum()

# Compute KL divergence
kl_div = entropy(P, Q)

インポートライブラリ

ターミナルでOllama Deepseek-R1：7bを走り続ける必要があります

さあ、数学的な問題から始めます

plt.style.use("ggplot")
plt.figure(figsize=(12, 8))
plt.plot(x, P, label="P (Original)", line, color="blue")
plt.plot(x, Q, label="Q (Shifted)", line, color="red")
plt.fill_between(x, P, Q, color="yellow", alpha=0.3, label="Difference")
plt.title(f"KL Divergence: {kl_div:.4f}")
plt.xlabel("x")
plt.ylabel("Probability Density")
plt.legend()
plt.show()

輸入物：

出力は非常に長いので、このブログの出力は要約されます。完全な出力については、ブログのコードリポジトリをこちらをご覧ください。

高度な推論と問題解決シナリオ

このセクションでは、数学的な計算から倫理的ジレンマまで、さまざまな推論技術を深く理解する必要がある複雑な問題解決タスクを調査します。これらのシナリオに関与することにより、批判的に考え、データを分析し、多様なコンテキスト全体で論理的な結論を引き出す能力を高めます。

数学的問題：割引およびロイヤルティカードの計算

店舗は、すべてのアイテムに20％の割引を提供しています。割引を適用した後、ロイヤルティカードメンバーにはさらに10％オフがあります。アイテムがもともと150ドルかかる場合、ロイヤルティカードメンバーの最終価格はいくらですか？ステップバイステップの計算を表示し、推論を説明してください

output：

import numpy as np
import matplotlib.pyplot as plt
from scipy.stats import entropy

このプロンプトの重要な側面は、

です Deepseek R1＆＃039;の高度な推論機能を解読します

シーケンシャル計算能力

パーセンテージの概念の理解

ステップバイステップの推論
説明の明確さ。

output：

# Define two probability distributions P and Q
x = np.linspace(-3, 3, 100)
P = np.exp(-(x**2))  # Gaussian-like distribution
Q = np.exp(-((x - 1) ** 2))  # Shifted Gaussian

# Normalize to ensure they sum to 1
P /= P.sum()
Q /= Q.sum()

# Compute KL divergence
kl_div = entropy(P, Q)

これは、論理的な一貫性を示し、論理的解決策を提案し、クラスの関係を理解し、三段論法の推論を示します。

因果チェーン分析：オオカミに対する病気の生態系の影響

Deepseek R1＆＃039;の高度な推論機能を解読します森林生態系では、病気がオオカミの人口の80％を殺します。これが今後5年間にわたって生態系に及ぼす可能性のある影響の潜在的なチェーンを説明してください。少なくとも3つのレベルの原因と結果を含め、各ステップの推論を説明してください。

output：

plt.style.use("ggplot")
plt.figure(figsize=(12, 8))
plt.plot(x, P, label="P (Original)", line, color="blue")
plt.plot(x, Q, label="Q (Shifted)", line, color="red")
plt.fill_between(x, P, Q, color="yellow", alpha=0.3, label="Difference")
plt.title(f"KL Divergence: {kl_div:.4f}")
plt.xlabel("x")
plt.ylabel("Probability Density")
plt.legend()
plt.show()

このプロンプトモデルは、複雑なシステムの理解を示し、複数のカジュアルチェーンを追跡し、間接的な効果を考慮し、ドメインの知識を適用します。 パターン認識：番号シーケンスの識別と説明

このシーケンスを考えてみましょう：2、6、12、20、30、__次の数字は何ですか？

Deepseek R1＆＃039;の高度な推論機能を解読します

パターンを説明してください

n番目の用語の式を作成します。

指定されたすべての数値に対して式が機能することを確認します

output：

<think> reasoning process</think>
<answer> answer here </answer>

USER: Prompt
Assistant: Answer

モデルは、数値パターンの識別、数学的式の生成、推論プロセスの説明、ソリューションの検証に優れています。

確率の問題：ビー玉で確率を計算します

バッグには、3つの赤い大理石、4つの青い大理石、5つの緑色の大理石が含まれています。交換せずに2つの大理石を描く場合：

2つの青い大理石を描く確率はどれくらいですか？
さまざまな色の大理石を描く確率は何ですか？

すべての計算を表示し、アプローチを説明してください。

import numpy as np
import matplotlib.pyplot as plt
from scipy.stats import entropy

output：

Deepseek R1＆＃039;の高度な推論機能を解読します

モデルは確率を計算し、条件付きの問題を処理し、確率論的推論を説明できます。

デバッグ：コードとそのソリューションの論理エラー

このコードには、正しく実行されないように論理的なエラーがあります。

# Define two probability distributions P and Q
x = np.linspace(-3, 3, 100)
P = np.exp(-(x**2))  # Gaussian-like distribution
Q = np.exp(-((x - 1) ** 2))  # Shifted Gaussian

# Normalize to ensure they sum to 1
P /= P.sum()
Q /= Q.sum()

# Compute KL divergence
kl_div = entropy(P, Q)

plt.style.use("ggplot")
plt.figure(figsize=(12, 8))
plt.plot(x, P, label="P (Original)", line, color="blue")
plt.plot(x, Q, label="Q (Shifted)", line, color="red")
plt.fill_between(x, P, Q, color="yellow", alpha=0.3, label="Difference")
plt.title(f"KL Divergence: {kl_div:.4f}")
plt.xlabel("x")
plt.ylabel("Probability Density")
plt.legend()
plt.show()

output：

Deepseek R1＆＃039;の高度な推論機能を解読します

deepseek-r1はエッジケースを見つけ、エラー条件を理解し、修正を適用し、技術的なソリューションを説明します。

比較分析：電気対ガソリン車

電気自動車と従来のガソリン車を比較してください：

環境への影響

長期コスト
コンビニエンス
パフォーマンス

短い通勤のある都市の住人

毎年30,000マイルを運転する旅行営業担当者

<think> reasoning process</think>
<answer> answer here </answer>

USER: Prompt
Assistant: Answer

output：

Deepseek R1＆＃039;の高度な推論機能を解読しますそれは大きな反応です、私は推論プロセスが大好きでした。複数の要因を分析し、コンテキストを考慮し、優れた推奨事項を作成し、競合する優先順位のバランスをとっています。

倫理的ジレンマ：自動運転車での意思決定

自動運転車は、一瞬の決定を下す必要があります：

左の逆：2人の歩行者を押します

車は何をすべきですか？考慮して、あなたの推論を提供してください：

使用された

倫理的フレームワーク

仮定

優先階層
長期的な意味
output：

$ollama run deepseek-r1:7b

これらのタイプの問題は、生成AIモデルにとって最も問題があります。倫理的推論、複数の視点、道徳的ジレンマ、および価値判断をテストします。全体として、それは順調でした。より倫理的なドメイン固有の微調整は、より深い反応をもたらすと思います。

統計分析：コーヒー消費に関する研究の主張を評価

調査は、コーヒーを飲む人が非勤務している飲酒者よりも長生きしていると主張しています。この研究では、5年間40〜50歳の1000人が観察されました。

識別：

潜在的な交絡変数

サンプリングバイアス
代替説明
どの追加データが結論を強化または弱めますか？

import numpy as np
import matplotlib.pyplot as plt
from scipy.stats import entropy

output：

Deepseek R1＆＃039;の高度な推論機能を解読します統計的概念を十分に理解し、研究の制限とデータに関する批判的思考を特定し、方法論の改善を提案します。

時系列分析

output：

# Define two probability distributions P and Q
x = np.linspace(-3, 3, 100)
P = np.exp(-(x**2))  # Gaussian-like distribution
Q = np.exp(-((x - 1) ** 2))  # Shifted Gaussian

# Normalize to ensure they sum to 1
P /= P.sum()
Q /= Q.sum()

# Compute KL divergence
kl_div = entropy(P, Q)

deepseekは数学的な問題が大好きで、指数関数的な減衰を処理し、優れた数学モデルを提供し、計算を提供します。タスクのスケジューリング Deepseek R1＆＃039;の高度な推論機能を解読します

output：

plt.style.use("ggplot")
plt.figure(figsize=(12, 8))
plt.plot(x, P, label="P (Original)", line, color="blue")
plt.plot(x, Q, label="Q (Shifted)", line, color="red")
plt.fill_between(x, P, Q, color="yellow", alpha=0.3, label="Difference")
plt.title(f"KL Divergence: {kl_div:.4f}")
plt.xlabel("x")
plt.ylabel("Probability Density")
plt.legend()
plt.show()

複数の制約を処理し、最適化されたスケジュールを作成し、問題解決プロセスを提供できます。

クロスドメイン分析 Deepseek R1＆＃039;の高度な推論機能を解読します

output：

<think> reasoning process</think>
<answer> answer here </answer>

USER: Prompt
Assistant: Answer

さまざまな種類のドメインを一緒に比較する仕事をうまくやったことが非常に印象的です。このタイプの推論は、さまざまなタイプのドメインが一緒に巻き込まれるのに役立つため、1つのドメインの問題は他のドメインからのソリューションによって解決できます。ドメインのクロス理解に関する研究に役立ちます

ただし、ペニーを費やすことなくローカルシステムのモデルを試すことができるプロンプトがたくさんあります。 DeepSeek-R1を使用して、より多くの研究と、さまざまな領域について学びます。必要なのは、ラップトップ、あなたの時間、そして素敵な場所だけです。

この記事で使用されているすべてのコードは Deepseek R1＆＃039;の高度な推論機能を解読します

結論

DeepSeek-R1は、さまざまな推論タスクにわたって有望な機能を示し、構造化された論理分析、ステップバイステップの問題解決、マルチコンテキストの理解、およびさまざまな主題からの知識の蓄積における高度な推論機能を紹介します。ただし、複雑な時間的推論、深い曖昧さの処理、創造的なソリューションの生成など、改善の領域があります。最も重要なことは、GPUの膨大なトレーニングコストの負担なしに、DeepSeek-R1のようなモデルをどのように開発できるかを示しています。

そのオープンソースモデルは、AIをより民主的な領域に向けてプッシュします。このトレーニング方法についてはまもなく新しい研究が行われ、より強力で強力なAIモデルがさらに優れた推論能力を備えています。 AGIはまだ遠い未来にあるかもしれませんが、Deepseek-R1の進歩は、AGIが人々と手をつないで出現する未来を指し示しています。 DeepSeek-R1は間違いなく、より高度なAI推論システムを実現する上で重要な一歩です。

キーテイクアウト

このモデルは、多様な主題から知識を蓄積することにより、推論の境界を押し広げ、他の生成LLMと際立つ印象的なマルチコンテキストの理解を示しています。
モデルをオープンソースにすることにより、Deepseek R1は推論を進めるだけでなく、最先端のAIをよりアクセスしやすくし、AI開発に対するより民主的なアプローチを提供します。
1。 DeepSeek-R1-7Bは、推論タスクの大規模なモデルと比較してどのように比較されますか？より大きな32Bまたは70Bモデルのパワーとは一致しないかもしれませんが、特に数学的および論理分析で、構造推論のタスクで同等のパフォーマンスを示します。推論をテストする際の迅速な設計のベストプラクティスは何ですか？段階的な要件を記述し、明確な指示に焦点を当て、明示的な評価基準を作成します。マルチパートの質問は、多くの場合、単一の質問よりも優れた洞察をもたらします q3。これらの評価方法はどの程度信頼できますか？私たちは人間です。脳を使用して応答を評価する必要があります。定量的メトリックと実際のテストを含む、より広範な評価戦略の一部として使用する必要があります。この記事に示されているメディアは、Analytics Vidhyaが所有しておらず、著者の裁量で使用されています。

以上がDeepseek R1＆＃039;の高度な推論機能を解読しますの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

edge scipy if for while format include require Error math break using class Length Conditional Reflection number function this table th vscode jupyter gpt prompt agi Game Prompt Other

声明：

この記事の内容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰属します。このサイトは、それに相当する法的責任を負いません。盗作または侵害の疑いのあるコンテンツを見つけた場合は、admin@php.cn までご連絡ください。

前の記事：DeepSeek-R1、Kimi K1.5などの無料ChatGpt Pro機能！次の記事：DeepSeek-R1、Kimi K1.5などの無料ChatGpt Pro機能！

続きを見る