最新の国内オープンソースMoE大型モデルは、デビュー直後から人気を集めています。
DeepSeek-V2 のパフォーマンスは GPT-4 レベルに達しますが、オープンソースで商用利用は無料で、API 価格は GPT-4-Turbo のわずか 1% です。
そのため、リリースされるとすぐに、すぐに多くの議論を引き起こしました。
写真
公開されたパフォーマンス指標から判断すると、DeepSeek V2 の包括的な中国語機能は多くのオープンソース モデルを上回っています。同時に、GPT-4 Turbo や Wenkuai 4.0 などのクローズド ソース モデルも最初に含まれています。階層。
総合的な英語力もLLaMA3-70Bと同じ第一段階にあり、同じくMoEであるMixtral 8x22Bを上回っています。
知識、数学、推論、プログラミングなどでも優れたパフォーマンスを発揮します。 128K コンテキストをサポートします。
写真
これらの機能は、一般ユーザーが無料で直接使用できます。クローズドベータ版が公開されており、登録後すぐに体験することができます。
Pictures
API はさらに高価です。入力は 1 元、出力は 100 万トークン (32K コンテキスト) あたり 2 元です。価格は GPT-4-Turbo のわずか 1% 近くです。
同時に、モデル アーキテクチャも革新され、自社開発の MLA (マルチヘッド潜在注意) とスパース構造を使用して、モデルの計算と推論メモリの量を大幅に削減できます。
ネチズンは嘆きました: DeepSeek は常に人々に驚きをもたらします!
写真
具体的な効果をいち早く体験してきました!
実際にテストしてみよう
現在、V2 内部ベータ版ではユニバーサル ダイアログとコード アシスタントを体験できます。
写真
一般的な会話で、大きなモデルの論理、知識、生成、数学、その他の能力をテストできます。
たとえば、「ジェン・フアンの伝説」のスタイルを模倣して口紅を植えるコピーライティングを書くように依頼できます。
写真
は、量子もつれとは何かを一般的な方法で説明することもできます。
写真
数学に関しては、次のような高度な微積分の質問に答えることができます。
微積分を使用して、自然対数の底 e の無限級数表現を証明します。
Picture
は、いくつかの言語論理の罠を回避することもできます。
写真
テストにより、DeepSeek-V2 の知識コンテンツが 2023 に更新されたことがわかります。
写真
コードに関しては、内部テスト ページでは、質問に答えるために DeepSeek-Coder-33B が使用されていることが示されています。
より単純なコードを生成する際、いくつかの実際のテストではエラーは発生しませんでした。
写真
は、指定されたコードを説明および分析することもできます。
Pictures
Pictures
しかし、テストでは誤答するケースもあります。
次の論理質問では、計算プロセス中に、DeepSeek-V2 が、ろうそくの両端から同時に点火して燃え尽きるまでにかかる時間を、ろうそくが燃えるまでにかかる時間の 4 分の 1 として誤って計算しました。片端から出ます。
写真
はどのようなアップグレードをもたらしますか?
公式の紹介によると、DeepSeek-V2 の合計パラメータは 236B、アクティベーションは 21B で、これはおおよそ 70B ~ 110B Dense のモデル能力に達します。
写真
以前の DeepSeek 67B と比較して、パフォーマンスが向上し、トレーニング コストが 42.5% 節約され、KV キャッシュが 93.3% 削減され、最大スループットが 5.76 倍に増加します。
これは、DeepSeek-V2が消費するビデオメモリ(KVキャッシュ)が同レベルのDenseモデルの1/5~1/100に過ぎず、トークン当たりのコストが大幅に削減されることを意味すると公式に述べられています。
H800 仕様に合わせて多くの通信が最適化されており、実際には 8 カードの H800 マシンにデプロイされており、入力スループットは 1 秒あたり 100,000 トークンを超え、出力は 1 秒あたり 50,000 トークンを超えています。
Pictures
いくつかの基本的なベンチマークでは、DeepSeek-V2 基本モデルのパフォーマンスは次のとおりです:
Pictures
DeepSeek-V2 は革新的なアーキテクチャを採用しています。
計算メモリと推論メモリの量を大幅に削減するための MLA (マルチヘッド潜在注意) アーキテクチャを提案しました。
同時に、計算量をさらに削減するためにSparse構造を独自に開発しました。
写真
これらのアップグレードはデータセンターの大規模コンピューティングに非常に役立つ可能性があると言う人もいます。
写真
そして、API 価格の観点から見ると、DeepSeek-V2 は市場のすべてのスター モデルよりもほぼ低価格です。
写真
チームは、DeepSeek-V2 モデルと論文も完全にオープンソースになると述べました。モデルの重量と技術レポートが提供されます。
今すぐ DeepSeek API オープン プラットフォームにログインし、登録して 1,000 万入力/500 万出力トークンをギフトとして受け取りましょう。通常お試しは完全無料です。
以上が国内のオープンソース MoE 指標が爆発的に増加: GPT-4 レベルの機能、API 価格はわずか 1%の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

食品の準備を強化するAI まだ初期の使用中ですが、AIシステムは食品の準備にますます使用されています。 AI駆動型のロボットは、ハンバーガーの製造、SAの組み立てなど、食品の準備タスクを自動化するためにキッチンで使用されています

導入 Python関数における変数の名前空間、スコープ、および動作を理解することは、効率的に記述し、ランタイムエラーや例外を回避するために重要です。この記事では、さまざまなASPを掘り下げます

導入 鮮やかな絵画や彫刻に囲まれたアートギャラリーを歩くことを想像してください。さて、各ピースに質問をして意味のある答えを得ることができたらどうでしょうか?あなたは尋ねるかもしれません、「あなたはどんな話を言っていますか?

製品のケイデンスを継続して、今月MediaTekは、新しいKompanio UltraやDimenity 9400を含む一連の発表を行いました。これらの製品は、スマートフォン用のチップを含むMediaTekのビジネスのより伝統的な部分を埋めます

#1 GoogleはAgent2Agentを起動しました 物語:月曜日の朝です。 AI駆動のリクルーターとして、あなたはより賢く、難しくありません。携帯電話の会社のダッシュボードにログインします。それはあなたに3つの重要な役割が調達され、吟味され、予定されていることを伝えます

私はあなたがそうであるに違いないと思います。 私たちは皆、精神障害がさまざまな心理学の用語を混ぜ合わせ、しばしば理解できないか完全に無意味であることが多い、さまざまなおしゃべりで構成されていることを知っているようです。 FOを吐き出すために必要なことはすべてです

今週公開された新しい研究によると、2022年に製造されたプラスチックの9.5%のみがリサイクル材料から作られていました。一方、プラスチックは埋め立て地や生態系に積み上げられ続けています。 しかし、助けが近づいています。エンジンのチーム

主要なエンタープライズ分析プラットフォームAlteryxのCEOであるAndy Macmillanとの私の最近の会話は、AI革命におけるこの重要でありながら過小評価されている役割を強調しました。 MacMillanが説明するように、生のビジネスデータとAI-Ready情報のギャップ


ホットAIツール

Undresser.AI Undress
リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover
写真から衣服を削除するオンライン AI ツール。

Undress AI Tool
脱衣画像を無料で

Clothoff.io
AI衣類リムーバー

AI Hentai Generator
AIヘンタイを無料で生成します。

人気の記事

ホットツール

SublimeText3 Linux 新バージョン
SublimeText3 Linux 最新バージョン

mPDF
mPDF は、UTF-8 でエンコードされた HTML から PDF ファイルを生成できる PHP ライブラリです。オリジナルの作者である Ian Back は、Web サイトから「オンザフライ」で PDF ファイルを出力し、さまざまな言語を処理するために mPDF を作成しました。 HTML2FPDF などのオリジナルのスクリプトよりも遅く、Unicode フォントを使用すると生成されるファイルが大きくなりますが、CSS スタイルなどをサポートし、多くの機能強化が施されています。 RTL (アラビア語とヘブライ語) や CJK (中国語、日本語、韓国語) を含むほぼすべての言語をサポートします。ネストされたブロックレベル要素 (P、DIV など) をサポートします。

AtomエディタMac版ダウンロード
最も人気のあるオープンソースエディター

DVWA
Damn Vulnerable Web App (DVWA) は、非常に脆弱な PHP/MySQL Web アプリケーションです。その主な目的は、セキュリティ専門家が法的環境でスキルとツールをテストするのに役立ち、Web 開発者が Web アプリケーションを保護するプロセスをより深く理解できるようにし、教師/生徒が教室環境で Web アプリケーションを教え/学習できるようにすることです。安全。 DVWA の目標は、シンプルでわかりやすいインターフェイスを通じて、さまざまな難易度で最も一般的な Web 脆弱性のいくつかを実践することです。このソフトウェアは、

VSCode Windows 64 ビットのダウンロード
Microsoft によって発売された無料で強力な IDE エディター
