ホームページ >テクノロジー周辺機器 >AI >Databricks DBRXチュートリアル:ステップバイステップガイド

Databricks DBRXチュートリアル:ステップバイステップガイド

Jennifer Aniston
Jennifer Anistonオリジナル
2025-03-07 09:46:11917ブラウズ

databricksはdbrxを発表します:高性能でオープンソースの大手言語モデル

DataBricksは、洗練された専門家(MOE)アーキテクチャに基づいて構築された画期的なオープンソースラージモデル(LLM)であるDBRXを発売しました。 単一のニューラルネットワークに依存する従来のLLMとは異なり、DBRXは複数の専門化された「専門家」ネットワークを採用しており、それぞれ特定のタスクとデータ型に最適化されています。この革新的なアプローチは、GPT-3.5やLlama 2などのモデルと比較して優れたパフォーマンスと効率につながります。DBRXは、Llama 2の69.8%を上回る言語理解ベンチマークに73.7%のスコアを誇っています。この記事では、DBRXの機能、アーキテクチャ、および使用法を掘り下げています

DataBricks DBRX DBRXは、次のトークン予測を使用してトレーニングされた、変圧器ベースのデコーダーのみのアーキテクチャを活用します。その核となる革新は、そのきめの細かいMOEアーキテクチャにあります。 これらの「専門家」は、ドメイン固有の知識と高度な推論能力で強化された専門のLLMエージェントです。 DBRXは16人の小規模な専門家を利用して、入力ごとに4のサブセットを選択します。 MixTralやGROK-1などのモデルの65倍の専門家の組み合わせを備えたこのきめの細かいアプローチにより、モデルの品質が大幅に向上します。 DBRXの重要な機能は

を含みます

パラメーターサイズ:

合計1,320億パラメーター。
  1. トレーニングデータ:綿密にキュレーションされたデータの大規模な12兆トークンで事前に訓練されており、MPTモデルに使用されるデータセットのトークン向けの有効性を少なくとも2倍にします。 32,000トークンのコンテキスト長がサポートされています
  2. dBRXトレーニング方法
  3. DBRXのトレーニングには、多様な入力全体のパフォーマンスを最適化するために、慎重に設計されたカリキュラムと戦略的データミックス調整が含まれていました。 このプロセスは、Apache Spark、Databricksノートブック、Unityカタログなど、Databricksの強力なツールを活用しました。 トレーニング前に採用されている主要なテクノロジーには、回転位置エンコーディング(ロープ)、ゲート線形ユニット(GLU)、グループ化されたクエリ注意(GQA)、およびTiktokenリポジトリからのGPT-4トークンザーが含まれます。

DBRXの競合他社に対するベンチマーク

Databricksは、DBRXの優れた効率とパフォーマンスを強調しています。
Model Comparison General Knowledge Commonsense Reasoning Databricks Gauntlet Programming Reasoning Mathematical Reasoning
DBRX vs LLaMA2-70B 9.8% 3.1% 14% 37.9% 40.2%
DBRX vs Mixtral Instruct 2.3% 1.4% 6.1% 15.3% 5.8%
DBRX vs Grok-1 0.7% N/A N/A 6.9% 4%
DBRX vs Mixtral Base 1.8% 2.5% 10% 29.9% N/A

(これらの結果の一部を視覚化するグラフがここに含まれます。画像URL:[Databricks DBRX Tutorial: A Step-by-Step Guide ]

dbrxの使用:実用的なガイド

DBRXを使用する前に、システムに少なくとも320GBのRAMがあることを確認してください。 次の手順に従ってください:

  1. インストール:transformersライブラリをインストール:pip install "transformers>=4.40.0"
  2. アクセストークン:読み取り許可を備えた抱きしめるフェイスアクセストークンを取得します。
  3. モデルの読み込み:次のコードを使用します(トークンにを置き換えます):hf_YOUR_TOKEN
from transformers import AutoTokenizer, AutoModelForCausalLM
import torch

tokenizer = AutoTokenizer.from_pretrained("databricks/dbrx-base", token="hf_YOUR_TOKEN")
model = AutoModelForCausalLM.from_pretrained("databricks/dbrx-base", device_map="auto", torch_dtype=torch.bfloat16, token="hf_YOUR_TOKEN")

input_text = "Databricks was founded in "
input_ids = tokenizer(input_text, return_tensors="pt").to("cuda")

outputs = model.generate(**input_ids, max_new_tokens=100)
print(tokenizer.decode(outputs[0]))
DBRXは、テキストの完成、言語理解、クエリの最適化、コード生成、説明、デバッグ、脆弱性の識別など、さまざまなタスクに優れています。

(簡単なコマンドに応答するDBRXを紹介する画像がここに含まれます。画像URL:[

]Databricks DBRX Tutorial: A Step-by-Step Guide

微調整dbrx

GitHubのオープンソースLLMファウンドリを使用して、微調整DBRXが可能です。 トレーニングの例は、辞書としてフォーマットする必要があります。 Foundryは、ハグFace Hub、ローカルデータセット、StreamingDataset(.MDS)形式のデータセットで微調整をサポートしています。 各メソッドの詳細な手順は、元の記事で入手できます。 (微調整のためのYAML構成ファイルの詳細は、簡潔にするために省略されています)。

結論{'prompt': <prompt_text>, 'response': <response_text>}</response_text></prompt_text>

DataBricks DBRXは、LLMテクノロジーの大幅な進歩を表しており、革新的なMOEアーキテクチャを活用して、速度、費用対効果、パフォーマンスを向上させます。 そのオープンソースの性質は、さらなる開発とコミュニティの貢献を促進します

以上がDatabricks DBRXチュートリアル:ステップバイステップガイドの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

声明:
この記事の内容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰属します。このサイトは、それに相当する法的責任を負いません。盗作または侵害の疑いのあるコンテンツを見つけた場合は、admin@php.cn までご連絡ください。