首页 >科技周边 >人工智能 >Databricks DBRX教程:逐步指南

Databricks DBRX教程:逐步指南

Jennifer Aniston
Jennifer Aniston原创
2025-03-07 09:46:11920浏览
Databricks 启动了DBRX,这是一种开创性的开源大型语言模型(LLM),建立在精致的Experts(MOE)体系结构上。 与依赖单个神经网络的传统LLM不同,DBRX采用多个专业的“专家”网络,每个网络都针对特定的任务和数据类型进行了优化。与GPT-3.5和Llama 2相比,这种创新的方法可以提高性能和效率。DBRX在语言理解基准方面的得分为73.7%,超过了Llama 2的69.8%。本文深入研究了DBRX的功能,体系结构和用法。

>

理解数据链球dbrx

dbrx利用了基于变压器的纯解码体架构,该体系结构使用下一步的预测进行了训练。它的核心创新在于其精细的Moe建筑。 这些“专家”是专业的LLM代理,具有特定于领域的知识和高级推理功能。 DBRX利用16个较小的专家,为每个输入选择4个子集。这种细粒度的方法是专家组合的65倍,是Mixtral和Grok-1等模型,可显着提高模型质量。 DBRX的关键功能包括:

参数大小:
    总共1320亿个参数,任何给定输入的360亿个活动。
  1. 培训数据:在精心策划的数据的12万亿代币上进行了预训练,至少提供了用于MPT模型的数据集的代币效率的两倍。 支持上下文长度为32,000个令牌。
  2. dbrx训练方法
  3. DBRX的培训涉及精心设计的课程和战略数据混合调整,以优化各种输入的性能。 该过程利用数据助剂的功能强大工具,包括Apache Spark,Databricks笔记本电脑和Unity目录。 预训练期间采用的关键技术包括旋转位置编码(绳索),封闭式线性单元(GLU),分组查询注意(GQA)和Tiktoken存储库中的GPT-4 Tokenizer。

>对竞争对手进行基准测试dbrx 与领先的开源LLM相比,Databricks强调了DBRX的卓越效率和性能:

Model Comparison General Knowledge Commonsense Reasoning Databricks Gauntlet Programming Reasoning Mathematical Reasoning
DBRX vs LLaMA2-70B 9.8% 3.1% 14% 37.9% 40.2%
DBRX vs Mixtral Instruct 2.3% 1.4% 6.1% 15.3% 5.8%
DBRX vs Grok-1 0.7% N/A N/A 6.9% 4%
DBRX vs Mixtral Base 1.8% 2.5% 10% 29.9% N/A

(在此处可视化其中一些结果的图。 Databricks DBRX Tutorial: A Step-by-Step Guide 利用dbrx:实用指南

> 在使用DBRX之前,请确保您的系统至少具有320GB的RAM。 请按照以下步骤:

安装:

>安装
    库:
  1. 访问令牌:transformers>获得带有读取权限的拥抱脸访问令牌。pip install "transformers>=4.40.0"
  2. >
  3. 模型加载:>使用以下代码(用令牌替换):>
  4. DBRX在各种任务中脱颖而出,包括文本完成,语言理解,查询优化,代码生成,说明,调试和脆弱性标识。> hf_YOUR_TOKEN(在此处将包括一个响应简单命令的图像显示dbrx。
>微调dbrx
from transformers import AutoTokenizer, AutoModelForCausalLM
import torch

tokenizer = AutoTokenizer.from_pretrained("databricks/dbrx-base", token="hf_YOUR_TOKEN")
model = AutoModelForCausalLM.from_pretrained("databricks/dbrx-base", device_map="auto", torch_dtype=torch.bfloat16, token="hf_YOUR_TOKEN")

input_text = "Databricks was founded in "
input_ids = tokenizer(input_text, return_tensors="pt").to("cuda")

outputs = model.generate(**input_ids, max_new_tokens=100)
print(tokenizer.decode(outputs[0]))

使用GitHub的开源LLM Foundry,可以进行微调DBRX。 培训示例应格式化为字典:

。 Foundry支持来自拥抱面线,本地数据集和StreamingDataSet(.MDS)格式的数据集进行微调。 每种方法的详细说明可在原始文章中找到。 (对于简洁而言,省略了有关用于微调的YAML配置文件的更多详细信息)。

Databricks DBRX Tutorial: A Step-by-Step Guide 结论

Databricks DBRX代表了LLM技术的重大进步,利用其创新的MOE架构来提高速度,成本效益和性能。 它的开源自然促进了进一步的发展和社区贡献。

以上是Databricks DBRX教程:逐步指南的详细内容。更多信息请关注PHP中文网其他相关文章!

声明:
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系admin@php.cn