ホームページ >テクノロジー周辺機器 >AI >Deepseek V3:685BモデルはGPT-4oとLlama 3.1を打ち負かします
昨年、 Deepseek LLMは、670億の印象的なパラメーターを備えた波を作りました。これは、英語と中国の理解における2兆トークンの広大なデータセットで細心の注意を払って訓練されました。研究コラボレーションのための新しいベンチマークを設定して、DeepSeekは7B/67Bベースモデルとチャットモデルの両方をオープンソースで整えました。さて、6850億パラメーターを持つAIがあり、AIスペースのほぼすべてのモデルよりも優れており、オープンソースであるとしたらどうなるでしょうか?興味をそそるように聞こえますか? Deepseekは、Deepseekの中国の研究室によって開発されたDeepseek V3のリリースで巨大な飛躍を遂げ、AIイノベーションの境界をさらに押し上げました。これは、各トークンに対して37Bがアクティブ化された合計パラメーターを備えた強力な混合物(MOE)言語モデルです。
ここで印象的な部分は、わずか550万ドルでトレーニングで驚くべきコスト効率を達成しました!!!
寛容なライセンスの下でリリースされたDeepSeek V3は、開発者がモデルを商用アプリケーションを含む多様なアプリケーションにダウンロード、変更、統合することを可能にします。その汎用性は、説明的なプロンプトからエッセイや電子メールのコーディング、翻訳、電子メールの生成など、さまざまなテキストベースのタスクに及び、開発者とビジネスの両方の強力なツールになります。
また、 DeepSeek V3は、いくつかの重要なドメインで、公然と利用可能なAIモデルの両方を上回ります。 Codeforcesの競争力のあるプログラミングでは、Deepseek V3は、 MetaのLlama 3.1 405b 、OpenaiのGPT-4o 、AlibabaのQwen 2.5 72bを含むライバルを凌ぎます。このモデルは、エイダーポリグロットテスト(リーダーボードの2番目のスポット)にも優れており、既存のプロジェクトとシームレスに統合する新しいコードを生成する比類のない機能を示しています。
まだ最大の飛躍:
6850億のパラメーター(671bのメインモデルの重みとマルチトークン予測(MTP)モジュールの重みの14b)があることをご存知ですか、 Deepseek V3は2017年に何杯のビールを飲んだかを思い出すことができますか?印象的ですよね?また、クリエイターによると、彼らは550万ドルをDeepseek V3の訓練に費やしました。これをOpenaiのCEOであるSam Altmanと比較すると、GPT-4のトレーニングコストは1億ドルを超えていると述べました。
また、DeepSeek-V3は、30.8m GPU時間を使用するLlama 3 405Bと比較して、わずか2.8m GPU時間(〜11倍の計算率)でより強力なモデルであると考えられています。
Deepseek(Chinese AI Co)は、予算の冗談で訓練されたフロンティアグレードのLLMのオープンウェイトリリースで、今日簡単に見えるようにしています(2048 GPU、600万ドル)。
- Andrej Karpathy(@karpathy)2024年12月26日
参照のために、このレベルの機能は、16K GPUに近いクラスターを必要とすることになっています。
Deepseek V3は、AIアーキテクチャとトレーニング効率の記念碑的な飛躍を表し、大規模な言語モデルの境界を押し広げます。このオープンソースモデルは、最先端のパフォーマンスを提供するだけでなく、驚くべき効率とスケーラビリティを備えています。 DeepSeek V3を傑出したイノベーションにしているのは次のとおりです。
Deepseek V3は、前任者のDeepseek V2から実績のあるフレームワークを構築し、マルチヘッドの潜在的な注意(MLA)と最先端のDeepSeekmoeアーキテクチャを採用しています。これらの革新により、効率的な推論と費用対効果の高いトレーニングが保証されます。さらに、DeepSeek V3は、補助障害のない負荷分散戦略を採用しており、負荷分散メカニズムに関連する典型的なパフォーマンストレードオフを排除します。
このモデルは、マルチトークン予測(MTP)の目標も統合し、複数のトークンを同時に予測する能力を高めます。これにより、パフォーマンスが向上するだけでなく、投機的なデコードが可能になり、推論速度が大幅に加速されます。
Deepseek V3は、14.8兆個の多様で高品質のトークンの広大なデータセットで事前に訓練されています(よりよく理解するために、100万個のトークンは約750,000語です)。このトレーニング前は、革新的なFP8混合精密トレーニングフレームワークを使用して達成され、超大型スケールモデルでのFP8の最初の成功したアプリケーションをマークします。結果は次のとおりです。
Deepseek V3は、革新的な知識蒸留パイプラインを統合し、DeepSeek R1シリーズモデルの推論機能を活用しています。このパイプラインには、高度な検証と反射パターンがモデルに組み込まれ、推論パフォーマンスが劇的に改善されます。さらに、出力スタイルと長さは細心の注意を払って制御され、タスク全体の汎用性と一貫性が確保されます。
広範な評価により、Deepseek V3がすべてのオープンソースモデルを上回り、ライバルをリードするクローズドソースAIシステムを上回ることが確認されています。その大規模と複雑さにもかかわらず、トレーニングプロセスは非常に安定しており、サイクル全体を通して回復可能な損失のスパイクやロールバックはありませんでした。
Deepseek V3は、イノベーションとコラボレーションの力の証であり、開発者と研究者に、AI以上の幅広い課題に取り組むための強力でスケーラブルで費用対効果の高いツールを提供します。そのオープンソースの性質により、アクセシビリティが保証され、コーディング、推論、マルチモーダルアプリケーションのブレークスルーへの道が開かれます。
ダウンロードするリンクは次のとおりです。
モデル | 合計パラメーター | コンテキストの長さ | ダウンロード |
deepseek-v3-base | 671b | 128K | ハギングフェイス |
deepseek-v3 | 671b | 128K | ハギングフェイス |
この評価は、複雑な推論、高度な数学、競争力のあるプログラミングタスクを処理する際のDeepSeek-V3の優れた機能を強調しています。
また、ここにオープンエンドジェネレーションの評価があります:
モデル | アリーナハード | アルパカエバル2.0 |
DeepSeek-V2.5-0905 | 76.2 | 50.5 |
QWEN2.5-72B-Instruct | 81.2 | 49.1 |
llama-3.1405b | 69.3 | 40.5 |
GPT-4O-0513 | 80.4 | 51.1 |
Claude-sonnet-3.5-1022 | 85.2 | 52.0 |
deepseek-v3 | 85.5 | 70.0 |
これを参照して、評価をよりよく理解することもできます。
Deepseek V3 Githubへのリンク
エイダーポリグロットベンチマークの結果を以下に示します。この結果は、モデルを正しく完了する能力に関するモデルを評価します。評価は2つの出力形式に分けられます。
これは最終的に、ベンチマークタスクの完了におけるさまざまなAIシステムの汎用性と特殊な強度を反映しています。
チャットUIを使用したくなく、モデルを直接操作したい場合は、代替手段があります。このモデル、DeepSeek-V3には、すべての重量が顔にリリースされています。そこにあるセーフテンザーファイルにアクセスできます。
モデルサイズとハードウェアの要件:
第一に、このモデルは大規模であり、6710億のパラメーターがあり、標準の消費者グレードのハードウェアで実行するのが難しいです。ハードウェアが十分に強力でない場合は、DeepSeekプラットフォームを使用して直接アクセスすることをお勧めします。利用可能になった場合は、ハグする顔のスペースを待ちます。
十分なハードウェアがある場合は、DeepSeek-Inferデモ、Sglang、LMDeploy、Tensort-llm、VLLM、AMD GPU、Huawei Ascend NPUを使用してモデルをローカルに実行できます。
モデルを量子化されたバージョンに変換して、メモリ要件を削減します。これは、ローエンドシステムに特に役立ちます。
FP8ウェイトをBF16に変換する方法は次のとおりです。
BF16が必要な場合は変換スクリプト
CD推論 python fp8_cast_bf16.py - input-fp8-hf-path/path/to/fp8_weights - output-bf16-hf-path/path/to/bf16_weights
Hugging FaceのTransformersライブラリは、まだモデルを直接サポートしていません。セットアップするには、次のことが必要です。
DeepSeek AI GitHubリポジトリをクローンします。
git clone https://github.com/deepseek-ai/deepseek-v3.git
必要な依存関係をインストールします。
CD DeepSeek-V3/推論 PIPインストール-R要件。txt
ハグの顔のチェックポイントをダウンロードして、モデルをローカルに実行します。
これを参照してください:Deepseek V3
おすすめ:
LLM-DeepSeekプラグインを使用して、モデルにアクセスすることもできます。
#ステップ1:LLMパッケージをインストールします !ピップインストールLLM #ステップ2:DeepSeekプラグインをインストールします !llmインストールllm-deepseek #ステップ3:DeepSeek APIキーを設定します !llmキーはdeepseekを設定します #プロンプトが表示されたら、APIキーを貼り付けます #ステップ4:DeepSeekチャットモデルを実行します !llm -m deepseek -chat 'ペットのオセロットのための5つの偉大な名前' #ステップ5:DeepSeek Coderモデルを実行します !llm -m deepseek -coder 'pythonでリンクされたリストを逆にする方法'
DeepSeekプラットフォームでは、Webを探索し、Openaiのアプローチと同様に、複雑な問題を解決するために深い推論に従事することができます。
ここにいくつかのプロンプトと出力があります:
プロンプト:子供とサッカーのSVGを生成する
これは、サッカーで遊んでいる子供のシンプルなSVG表現です。あなたはできる
このコードをHTMLファイルまたはSVGビューアーにコピーして貼り付けて、
画像:
<svg xmlns="http://www.w3.org/2000/svg" viewbox="0 0 200 200" width="200" height="200"> <circle cx="100" cy="70" r="20" fill="#ffcc99"></circle> <rect x="90" y="90" width="20" height="40" fill="#4caf50"></rect> <ellipse cx="140" cy="140" rx="10" ry="5" fill="#8b4513"></ellipse> </svg> 説明: 子供は単純な形で表されます:頭のための円、長方形 体のために、そして腕と脚の線。 サッカーは、クラシックフットボールを模倣するために2つの白いラインを持つ楕円です デザイン。 色、サイズ、および位置を調整して、画像をカスタマイズできます さらに遠く。 これを強化または変更したい場合はお知らせください!
プロンプト:クラシックなヘビゲームを作成します
クラシックなヘビゲームの作成には、HTML、CSS、およびJavaScriptの使用が含まれます
。以下は簡単な実装です。
<meta name="Viewport" content="width = device-width、initial-scale = 1.0"> <title> Snake Game </title> <style> 体 { ディスプレイ:Flex; justify-content:center; Align-Items:Center; 高さ:100VH; マージン:0; バックグラウンドカラー:#000; } キャンバス{ ボーダー:1pxソリッド#fff; } </style> <canvas width="400" height="400"> </canvas> JavaScript(snake.js) const canvas = document.getElementById( "gamecanvas"); const ctx = canvas.getContext( "2d"); const gridsize = 20; const tilecount = canvas.width / gridsize; snake = [{x:10、y:10}]; let direction = {x:0、y:0}; let food = {x:math.floor(math.random() * tilecount)、y: math.floor(math.random() * tilecount)}; スコア= 0とします。 function gameloop(){ アップデート(); 描く(); Settimeout(Gameloop、100); } function update(){ const head = {x:snake [0] .x rirect.x、y:snake [0] .y direction.y}; //壁またはそれ自体との衝突を確認してください if(head.x = tilecount || head.y = tilecount || Snake.some(segment => segment.x === head.x && segment.y === head.y)){ resetgame(); 戻る; } snake.unshift(head); //ヘビが食べ物を食べるかどうかを確認します if(head.x === food.x && head.y === food.y){ スコア ; food = {x:math.floor(math.random() * tilecount)、y: math.floor(math.random() * tilecount)}; } それ以外 { snake.pop(); } } 関数draw(){ //キャンバスをクリアします ctx.fillstyle = "#000"; ctx.fillrect(0、0、canvas.width、canvas.height); //ヘビを描きます ctx.fillstyle = "#0f0"; snake.foreach(segment => ctx.fillrect(segment.x * gridsize、segment.y * gridsize、gridsize、gridsize)); //食べ物を描きます ctx.fillstyle = "#f00"; ctx.fillrect(food.x * gridsize、food.y * gridsize、gridsize、gridsize); //スコアを描きます ctx.fillstyle = "#fff"; ctx.font = "20px arial"; ctx.filltext( "スコア:"スコア、10、30); } function resetgame(){ スネーク= [{x:10、y:10}]; 方向= {x:0、y:0}; スコア= 0; food = {x:math.floor(math.random() * tilecount)、y: math.floor(math.random() * tilecount)}; } window.addeventlistener( "keydown"、e => { switch(e.key){ ケース「矢印」: if(direction.y === 0)方向= {x:0、y:-1}; 壊す; ケース「Arrowdown」: if(direction.y === 0)方向= {x:0、y:1}; 壊す; ケース「arrowleft」: if(direction.x === 0)方向= {x:-1、y:0}; 壊す; ケース「arrowright」: if(direction.x === 0)方向= {x:1、y:0}; 壊す; } }); gameloop(); それがどのように機能するか: キャンバスのセットアップ:ゲームは<canvas>要素に描画されます。 ヘビの動き:ヘビは一連のセグメントとして表されます。頭 方向に基づいて動き、尾が続きます。 食品:食べ物のランダムな位置が生成されます。ヘビが食べるとき 食べ物、それは成長し、スコアが増加します。 衝突検出:ゲームは、ヘビが壁と衝突するか、または それ自体、そしてそれがそうであればリセットします。 コントロール:矢印キーは、ヘビの方向を変更するために使用されます。 実行方法: HTMLとJavaScriptコードをファイルに保存します(index.htmlおよびsnake.js)。 ブラウザでindex.htmlファイルを開きます。 矢印キーを使用してヘビを制御します。 機能を追加するか、ゲームを改善したい場合はお知らせください! </canvas>
プロンプト:GITリポジトリをクローンする方法は?
まず、6秒間考えてから出力を与えます
GITリポジトリのクローニングには、既存のリポジトリのコピーの作成が含まれます<br> 遠隔地(github、gitlab、bitbucketなど)からお近くの場所まで<br> 機械。このコピーには、すべてのプロジェクトファイル、履歴のコミット、および<br> 枝。<br><br> Gitリポジトリをクローンする手順は次のとおりです。<br><br> 1. gitをインストールします<br>gitがマシンに取り付けられていることを確認してください。インストールされていない場合は、ダウンロードしてください<br> 公式のGIT Webサイトからインストールします。<br><br> 2。端子またはコマンドプロンプトを開きます<br>ターミナル(Linux/Mac)またはコマンドプロンプト(Windows)を開きます。<br><br> 3.目的のディレクトリに移動します<br>CDコマンドを使用して、クローンを作成するディレクトリに移動します<br> リポジトリ。<br><br>バッシュ<br>コピー<br>cd/path/to/directory<br> 4。リポジトリをクローンします<br>Gitクローンコマンドを使用して、リポジトリのURLが続きます。<br><br>バッシュ<br>コピー<br>git clone https://github.com/username/repository.git<br> https://github.com/username/repository.gitを実際のURLに置き換えます<br> クローンするリポジトリ。<br><br> 5.クローン化されたディレクトリを入力します<br>クローニング後、リポジトリディレクトリに移動します。<br><br>バッシュ<br>コピー<br>CDリポジトリ<br>6.クローンを確認します<br>リポジトリが確認されていることを確認できます。<br> リモートURL。<br><br>バッシュ<br>コピー<br>git remote -v<br>これにより、リモートリポジトリのURLが表示されます。<br><br>例<br>バッシュ<br>コピー<br>#目的のディレクトリに移動します<br>CD〜/ドキュメント<br><br>#リポジトリをクローンします<br>git clone https://github.com/username/repository.git<br><br> #リポジトリディレクトリを入力します<br>CDリポジトリ<br><br>#リモートURLを確認します<br>git remote -v<br>オプション:SSHを使用したクローニング<br>SSHキーを設定している場合は、SSH URLを使用してリポジトリをクローンできます。<br><br>バッシュ<br>コピー<br>git clone [電子メール保護]:username/repository.git<br>オプション:浅いクローン<br>歴史の一部だけが必要な場合(たとえば、最新のコミット)、<br> 浅いクローンを実行します:<br><br>バッシュ<br>コピー<br>gitクローン - デプス1 https://github.com/username/repository.git<br>これは、完全な履歴が必要ない大規模なリポジトリに役立ちます。<br><br>結論<br>これで、Gitリポジトリをローカルマシンに正常にクローニングしました。あなた<br> プロジェクトの作業を開始し、変更を加え、必要に応じてコミットできます。
deepseekチャットはV3を搭載しており、強力です!
- Ivan Fioravantiᯅ(@ivanfioravanti)2024年12月25日
ここでは、AI企業のロゴを備えた小惑星ゲームのMVPです。数分で完全に構築されました!
ソネット3.5は王ではありませんか?もう?
人類はあなたの番です!
コメントpic.twitter.com/fcmztb52fqで作成されたアーティファクト
すべての出力はマークまであり、出力速度は非常に印象的でした。さらに、DeepSeekを使用すると、モデルに推論的な質問をすることができ、複雑な問題解決と詳細な分析のための多用途で効率的なツールになります。
また読む:Deepseek V3 vs GPT-4O:オープンソースAIはGPT-4Oのパワーと競合できますか?
Deepseek V3は、前例のないスケールと比類のない効率を組み合わせて、大規模なAIモデルの進化における記念碑的な成果として立っています。革新的なアーキテクチャ、費用対効果の高いトレーニング、印象的な6850億パラメーターにより、Deepseek V3はAIスペースで可能なことを再定義します。多様なベンチマークで優れたモデルの能力は、オープンソースとクローズドソースの競合他社の両方を上回ることで、その並外れた能力を強調しています。
DeepSeek V3は、コーディング、推論、数学的問題解決などのタスクで最先端のパフォーマンスを提供するだけでなく、オープンソースの可用性を備えた最先端のAIへのアクセスを民主化します。開発者、研究者、企業は、イノベーションとコラボレーションを促進する寛容なライセンスによってサポートされている計り知れない力を活用できます。
わずか550万ドルのトレーニングコストで例外的な結果を達成することにより、Deepseek V3は、スケーラビリティと効率が共存できることを証明し、AI開発の将来の新しい基準を設定します。このリリースは、Deepseekだけでなく、AIコミュニティ全体のために、機械学習、自然言語処理などのブレークスルーへの道を開いて、大幅に前進します。
DeepSeekを始めて、その可能性を最大限に発揮してください!初心者向けのコースに参加して、その機能とマスターキーテクニックを探りましょう。
以上がDeepseek V3:685BモデルはGPT-4oとLlama 3.1を打ち負かしますの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。