社長が辞めてから初投稿です！安定性公式コードモデル Stable Code Instruct 3B-AI-php.cn

ホームページ

テクノロジー周辺機器

社長が辞めてから初投稿です！安定性公式コードモデル Stable Code Instruct 3B

PHPz

Mar 29, 2024 pm 10:16 PM

正確さモデルコード配置overflow

ボスが去った後、最初のモデルが登場しました!

本日、Stability AI は新しいコードモデルである Stable Code Instruct 3B を正式に発表しました。

大佬出走后首个发布！Stability官宣代码模型Stable Code Instruct 3B 写真

安定性は非常に重要です。CEO の辞任により、Stable Diffusion にいくつかの問題が発生しました。投資会社は、何か問題があれば、給料も下がってしまうかもしれません。

しかし、建物の外は騒然としていますが、研究室の中は静まっており、研究する必要があり、議論する必要があり、モデルを調整する必要があり、各分野で戦争が発生します。大型モデルが所定の位置に収まりました。

全面戦争に向けて広がっているだけでなく、あらゆる研究も日進月歩です例えば、今日の安定版コード命令 3B は以前の安定版コードをベースにしています3B. 命令のチューニング。

大佬出走后首个发布！Stability官宣代码模型Stable Code Instruct 3B 写真

論文アドレス: https://static1.squarespace.com/static/6213c340453c3f502425776e/t/6601c5713150412edcd56f8e/1711392114564 /Stable_Code_TechReport_release.pdf

自然言語プロンプトを使用すると、Stable Code Instruct 3B は、コード生成、数学、その他のソフトウェア開発関連のクエリなどのさまざまなタスクを処理できます。

大佬出走后首个发布！Stability官宣代码模型Stable Code Instruct 3B 画像

同レベルでは無敵、飛び跳ねによる強力なキル

安定した Code Instruct 同じパラメータ数のモデルでは、3B は現在の SOTA を達成しており、サイズが 2 倍以上である CodeLlama 7B Instruct などのモデルよりも優れており、ソフトウェアエンジニアリング関連のタスクにおけるパフォーマンスは StarChat と同等です。 15B.

大佬出走后首个发布！Stability官宣代码模型Stable Code Instruct 3B 写真

上の写真からわかるように、Codellama 7B Instruct や DeepSeek などの主要モデルと同等です。 -Coder Instruct 1.3B Stable Code Instruct 3B と比較すると、Stable Code Instruct 3B は、さまざまなコーディングタスクにわたって良好に実行されます。

テストの結果、Stable Code Instruct 3B は、コード補完の精度、自然言語命令の理解、およびさまざまなプログラミング言語の相手に対する汎用性の点で競合製品と同等またはそれを上回っていることが示されています。

大佬出走后首个发布！Stability官宣代码模型Stable Code Instruct 3B 画像

安定したコードの指示 3B Stack Overflow 2023 開発者アンケートの結果に基づいて、トレーニングは Python に焦点を当てています。 Javascript、Java、C、C、Goなどのプログラミング言語。

上のグラフは、Multi-PL ベンチマークを使用して、さまざまなプログラミング言語の 3 つのモデルによって生成された出力の強度を比較しています。 Stable Code Instruct 3B は、すべての言語において CodeLlama よりも大幅に優れており、パラメーターの数が半分以上であることがわかります。

上記の一般的なプログラミング言語に加えて、Stable Code Instruct 3B には、他の言語 (SQL、PHP、Rust など) のトレーニングも含まれています。トレーニングのない言語 (Lua など) では、強力なテストパフォーマンスを提供することもできます。

安定したコード Instruct 3B は、コード生成だけでなく、FIM (Fill-in-the-Code) タスク、データベースクエリ、コード変換、解釈、作成にも熟練しています。

命令チューニングを通じて、モデルは微妙な命令を理解し、それに基づいて動作できるようになり、単純なコード補完を超えた、数学的理解、論理的推論、ソフトウェア処理などの幅広いコーディングタスクを容易にします。複雑な技術の開発。

大佬出走后首个发布！Stability官宣代码模型Stable Code Instruct 3B 写真

モデルのダウンロード: https://huggingface.co/stabilityai/stable-code-instruct-3b

Stable Code Instruct 3B は、Stability AI メンバーシップを通じて商用目的で利用できるようになりました。非営利目的の場合、モデルの重みとコードは Hugging Face からダウンロードできます。

技術的な詳細

大佬出走后首个发布！Stability官宣代码模型Stable Code Instruct 3B 写真

モデルアーキテクチャ

Stable Code は Stable LM 3B に基づいて構築されており、LLaMA と同様の設計を持つデコーダ専用の Transformer 構造です。次の表は、重要な構造情報の一部です:

大佬出走后首个发布！Stability官宣代码模型Stable Code Instruct 3B 写真

##LLaMA との主な違いは次のとおりです:

位置埋め込み: ヘッダー埋め込みの最初の 25% で回転位置埋め込みを使用して、その後のスループットを向上させます。

正則化: RMSNorm の代わりに学習バイアス項を含む LayerNorm を使用します。

バイアス項: KQV を除き、フィードフォワードネットワークとマルチヘッドセルフアテンション層のすべてのバイアス項が削除されます。

Stable LM 3B モデルと同じトークナイザー (BPE) を使用し、サイズは 50,257 です。さらに、ファイル名を示すなど、StarCoder の特別なマーカーも参照されます。、ストレージライブラリスター、中間補充 (FIM) など。

長いコンテキストトレーニングの場合、連結された 2 つのファイルが同じリポジトリに属していることを示すために特別なマーカーが使用されます。

トレーニングプロセス

トレーニングデータ

トレーニング前データコードリポジトリ、技術文書 (readthedocs など)、数学に焦点を当てたテキスト、広範な Web データセットなど、公的にアクセス可能なさまざまな大規模データソースが収集されます。

最初の事前トレーニング段階の主な目標は、豊富な内部表現を学習して、数学的理解、論理的推論、ソフトウェア開発に関連する複雑な技術文書の処理におけるモデルの能力を大幅に向上させることです。。

さらに、トレーニングデータには、より広範な言語知識とコンテキストをモデルに提供するための一般的なテキストデータセットが含まれており、最終的にはモデルがより広範囲のクエリやタスクを会話形式で処理できるようになります。。

次の表は、事前トレーニングコーパスのデータソース、カテゴリ、およびサンプリングの重みを示しています。コードデータと自然言語データの比率は 80:20 です。

大佬出走后首个发布！Stability官宣代码模型Stable Code Instruct 3B 写真

さらに、研究者らは小規模な合成データセットも導入しました。データは CodeAlpaca のシードプロンプトから合成されました。データセット、174,000 のヒントが含まれています。

そして、WizardLM メソッドに従い、指定されたシードプロンプトの複雑さを徐々に増やし、追加の 100,000 プロンプトを取得しました。

著者らは、トレーニング前の段階の早い段階でこの合成データを導入することで、モデルが自然言語テキストに対してより適切に応答できるようになると考えています。

長いコンテキストデータセット

リポジトリ内の複数のファイルは相互に依存していることが多いため、コンテキストの長さが重要ですエンコードにはモデルが重要です。

研究者らは、ソフトウェアリポジトリ内のトークン数の中央値と平均値がそれぞれ 12,000 と 18,000 であると推定したため、コンテキストの長さとして 16,384 が選択されました。

次のステップは、長いコンテキストデータセットを作成することでした。研究者たちは、リポジトリ内の一般的な言語で書かれたいくつかのファイルを取得し、それらを結合し、各ファイルの間に挿入しました。特別なタグコンテンツの流れを維持しながら分離を維持します。

ファイルの順序が固定されていることによって生じる可能性のある潜在的なバイアスを回避するために、作成者はランダム化戦略を採用しました。リポジトリごとに、2 つの異なるシーケンスの接続ファイルが生成されます。

大佬出走后首个发布！Stability官宣代码模型Stable Code Instruct 3B 写真

フェーズベースのトレーニング

安定版コードは、256 個の NVIDIA A100 (40GB HBM2) GPU を含む 32 個の Amazon P4d インスタンスをトレーニングに使用し、分散最適化に ZeRO を使用します。

大佬出走后首个发布！Stability官宣代码模型Stable Code Instruct 3B 図

上の図に示すように、ここでは段階的なトレーニング方法が使用されます。

トレーニングは、標準の自己回帰シーケンスモデリングに従って次のトークンを予測します。モデルは Stable LM 3B のチェックポイントを使用して初期化され、トレーニングの最初の段階のコンテキスト長は 4096 で、その後継続的な事前トレーニングが実行されます。

トレーニングは BFloat16 混合精度で実行され、FP32 は all-reduce に使用されます。 AdamW オプティマイザ設定は、β1=0.9、β2=0.95、ε=1e−6、λ (重み減衰)=0.1 です。学習率 = 3.2e-4 から開始し、最小学習率を 3.2e-5 に設定し、コサイン減衰を使用します。

大佬出走后首个发布！Stability官宣代码模型Stable Code Instruct 3B 図

自然言語モデルのトレーニングの中核となる前提の 1 つは、左から右への因果的順序ですが、これはコードの場合です。たとえば、この仮定は常に成り立つわけではありません (たとえば、多くの関数では、関数呼び出しと関数宣言は任意の順序で実行できます)。

この問題を解決するために、研究者たちは FIM (fill-in-the-middle) を使用しました。文書をランダムにプレフィックス、中間、サフィックスの 3 つのセグメントに分割し、中央のセグメントを文書の末尾に移動します。再配置後、同じ自己回帰トレーニングプロセスが続きます。

命令の微調整

事前トレーニングの後、作成者は、次のような微調整段階を通じてモデルの対話スキルをさらに向上させます。教師あり微調整 (SFT) と直接優先最適化 (DPO)。

まず、Hugging Face で公開されているデータセット (OpenHermes、Code Feedback、CodeAlpaca など) を使用して SFT 微調整を実行します。

完全一致重複排除を実行すると、3 つのデータセットから合計約 500,000 のトレーニングサンプルが提供されます。

コサイン学習率スケジューラを使用してトレーニングプロセスを制御し、グローバルバッチサイズを 512 に設定して、入力を長さ 4096 を超えないシーケンスにパックします。

SFT の後、DPO フェーズが開始され、UltraFeedback からのデータを使用して、約 7,000 のサンプルを含むデータセットがキュレーションされます。さらに、モデルのセキュリティを向上させるために、著者は有益で無害な RLFH データセットも含めました。

研究者らは、最適化アルゴリズムとして RMSProp を採用し、DPO トレーニングの初期段階で学習率をピークの 5e-7 に高めました。

パフォーマンステスト

以下では、マルチ PL ベンチマークを使用してモデルを評価し、コード補完タスクでのモデルのパフォーマンスを比較します。。

安定したコードベース

次の表は、マルチ PL パフォーマンスに関する 3B パラメータ以下のサイズを示しています。異なるコードモデル。

大佬出走后首个发布！Stability官宣代码模型Stable Code Instruct 3B 写真

安定版コードのパラメーターは、Code Llama および StarCoder 15B のパラメーターの 40% および 20% 未満ですが、、それぞれ、プログラミング言語全体のモデルの平均パフォーマンスはそれらと同等です。

安定したコード命令

次の表は、Multi-PL ベンチマークテスト Fine でのいくつかのモデルの命令を評価したものです。 -チューンバージョン。

大佬出走后首个发布！Stability官宣代码模型Stable Code Instruct 3B 図

SQL パフォーマンス

コード言語モデルの重要なアプリケーションは、データベースクエリタスクです。この分野では、Stable Code Instruct のパフォーマンスが、他の一般的な命令調整モデルや SQL 専用にトレーニングされたモデルと比較されます。ここでは Defog AI を使用して作成されたベンチマーク。

大佬出走后首个发布！Stability官宣代码模型Stable Code Instruct 3B 図

推論パフォーマンス

下の表コンシューマーグレードのデバイスおよび対応するシステム環境で安定したコードを実行するときのスループットと消費電力が示されています。

大佬出走后首个发布！Stability官宣代码模型Stable Code Instruct 3B 写真

結果は、より低い精度を使用すると、スループットがほぼ 2 倍増加することを示しています。ただし、低精度の量子化を実装すると、モデルのパフォーマンスがある程度 (潜在的に大幅に) 低下する可能性があることに注意することが重要です。

#参考:https://www.php.cn/link/8cb3522da182ff9ea5925bbd8975b203

# #

以上が社長が辞めてから初投稿です！安定性公式コードモデル Stable Code Instruct 3Bの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

声明

この記事は51CTO.COMで複製されています。侵害がある場合は、admin@php.cn までご連絡ください。

踊りましょう：私たちの人間のニューラルネットを微調整するための構造化された動きApr 27, 2025 am 11:09 AM

科学者は、彼らの機能を理解するために、人間とより単純なニューラルネットワーク（C. elegansのものと同様）を広く研究してきました。ただし、重要な疑問が生じます。新しいAIと一緒に効果的に作業するために独自のニューラルネットワークをどのように適応させるのか

新しいGoogleリークは、Gemini AIのサブスクリプションの変更を明らかにしますApr 27, 2025 am 11:08 AM

GoogleのGemini Advanced：Horizonの新しいサブスクリプションティア現在、Gemini Advancedにアクセスするには、1か月あたり19.99ドルのGoogle One AIプレミアムプランが必要です。ただし、Android Authorityのレポートは、今後の変更を示唆しています。最新のGoogle p

データ分析の加速がAIの隠されたボトルネックをどのように解決しているかApr 27, 2025 am 11:07 AM

高度なAI機能を取り巻く誇大宣伝にもかかわらず、エンタープライズAIの展開内に大きな課題が潜んでいます：データ処理ボトルネック。 CEOがAIの進歩を祝う間、エンジニアはクエリの遅い時間、過負荷のパイプライン、

MarkitDown MCPは、任意のドキュメントをマークダウンに変換できます！Apr 27, 2025 am 09:47 AM

ドキュメントの取り扱いは、AIプロジェクトでファイルを開くだけでなく、カオスを明確に変えることです。 PDF、PowerPoint、Wordなどのドキュメントは、あらゆる形状とサイズでワークフローをフラッシュします。構造化された取得

建物のエージェントにGoogle ADKを使用する方法は？ - 分析VidhyaApr 27, 2025 am 09:42 AM

Googleのエージェント開発キット（ADK）のパワーを活用して、実際の機能を備えたインテリジェントエージェントを作成します。このチュートリアルは、ADKを使用して会話エージェントを構築し、GeminiやGPTなどのさまざまな言語モデルをサポートすることをガイドします。 w

効果的な問題解決のためにLLMを介したSLMの使用 - 分析VidhyaApr 27, 2025 am 09:27 AM

まとめ： Small Language Model（SLM）は、効率のために設計されています。それらは、リソース不足、リアルタイム、プライバシーに敏感な環境の大手言語モデル（LLM）よりも優れています。特にドメインの特異性、制御可能性、解釈可能性が一般的な知識や創造性よりも重要である場合、フォーカスベースのタスクに最適です。 SLMはLLMSの代替品ではありませんが、精度、速度、費用対効果が重要な場合に理想的です。テクノロジーは、より少ないリソースでより多くを達成するのに役立ちます。それは常にドライバーではなく、プロモーターでした。蒸気エンジンの時代からインターネットバブル時代まで、テクノロジーの力は、問題の解決に役立つ範囲にあります。人工知能（AI）および最近では生成AIも例外ではありません