ホームページ >テクノロジー周辺機器 >AI >Stability AI がローカルで実行され、GPU を必要としない安定したコード 3B モデルをリリース

Stability AI がローカルで実行され、GPU を必要としない安定したコード 3B モデルをリリース

WBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWB転載: 2024-01-17 16:03:061062ブラウズ

Stability AI は最近、Stable Code 3B と呼ばれる最初の AI モデルを 2024 年にリリースしました。このモデルには 30 億のパラメーターがあり、補助コードタスクに焦点を当てています。

専用の GPU を必要とせずにラップトップでネイティブに実行しながら、Meta の CodeLLaMA 7B のような大規模モデルでも競争力のあるパフォーマンスを提供します。

2023 年末、Stability AI は、テキスト生成用の StableLM Zephyr 3B モデルなど、より小さく、よりコンパクトで、より強力なモデルの開発を促進し始めました。

2024 年初頭に、Stability AI は Stable Code 3B と呼ばれる重要な言語モデルをリリースしました。実際、そのプレビューバージョンである Stable Code Alpha 3B は、すでに昨年 8 月にリリースされていました。それ以来、Stability AI はテクノロジーの改善を続けてきました。この新しいバージョンの Stable Code 3B は、コード補完専用に設計されており、さまざまな追加機能も備えています。

CodeLLaMA 7b と比較すると、Stable Code 3B はサイズが 60% 小さいですが、プログラミングタスクでは前者と同等のパフォーマンスを実現します。

Stability AI发布Stable Code 3B模型，没有GPU也能本地运行

Stable Code 3B は、MultiPL-E ベンチマークで (同様のサイズのモデルと比較して) SOTA パフォーマンスを達成します (Python の Stable Code 3B など)。 C、JavaScript、Java、PHP、Rust プログラミング言語では StarCoder よりも優れています。

Stability AI发布Stable Code 3B模型，没有GPU也能本地运行

研究紹介

Stable Code 3B は、Stable LM 3B に基づいてトレーニングされています。トークンは4兆にも達します。さらに、Stable Code はソフトウェアエンジニアリングに固有のデータもトレーニングに使用します。

Stable Code 3B は、より多くの機能を提供し、複数の言語間でも良好なパフォーマンスを発揮します。また、FIM (Fill in the Middle、新しいトレーニング手法) 機能のサポートなどの利点もあります。コンテキストサイズを拡張することもできます。基本的な安定したコードは、最大 16,384 個のトークンシーケンスでトレーニングされ、CodeLlama と同様のアプローチ、つまりロータリーエンベディングを使用し、オプションで最大 1,000,000 個の回転ベースの変更を許可します。モデルのコンテキスト長はさらに 100k トークンまで拡張されます。。

モデルアーキテクチャの観点から見ると、Stable Code 3B モデルは、LLaMA アーキテクチャに似た純粋なデコーダトランスフォーマですが、次の変更が加えられています。

Stability AI发布Stable Code 3B模型，没有GPU也能本地运行

位置埋め込み: スループットを向上させるために、回転された位置埋め込みがヘッド埋め込み次元の最初の 25% に適用されます。
トークナイザー: GPTNeoX Tokenizer.NeoX の修正バージョンを使用し、、などの FIM 関数をトレーニングするための特別なトークンを追加します。

#トレーニング

トレーニングデータセット

Stable Code 3B のトレーニングデータセットは、Falcon RefinedWeb、CommitPackFT、Github Issues、StarCoder など、HuggingFace Hub で提供されるオープンソースの大規模データセットをフィルター処理した混合物で構成されており、さらにデータが補足されています。数学の分野から。

#トレーニングインフラストラクチャ

##ハードウェア: Stability AI 256 NVIDIA の安定コード 3B A100 40GB GPU はトレーニング用にクラスターで使用されます。

ソフトウェア: 安定版コード 3B は gpt-neox のブランチを採用し、ZeRO-1 を使用して 2D 並列処理 (データおよびテンソル並列処理) でトレーニングし、フラッシュアテンション、SwiGLU に依存します。 FlashAttendant-2 のローテーション埋め込みカーネル。

Stability AI发布Stable Code 3B模型，没有GPU也能本地运行

Stability AI发布Stable Code 3B模型，没有GPU也能本地运行 Stable Code 3B に関するより詳細な技術レポートは、後日公開される予定ですので、楽しみにお待ちください。

以上がStability AI がローカルで実行され、GPU を必要としない安定したコード 3B モデルをリリースの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

Python Java php JavaScript rust 架构 Token github transformer 软件工程 gpt llama

声明：

この記事は51cto.comで複製されています。侵害がある場合は、admin@php.cn までご連絡ください。

前の記事：ワット株は、ロボット電子皮膚製品は現在存在しないと述べた次の記事：ワット株は、ロボット電子皮膚製品は現在存在しないと述べた

続きを見る