>
理解数据链球dbrx
dbrx利用了基于变压器的纯解码体架构,该体系结构使用下一步的预测进行了训练。它的核心创新在于其精细的Moe建筑。 这些“专家”是专业的LLM代理,具有特定于领域的知识和高级推理功能。 DBRX利用16个较小的专家,为每个输入选择4个子集。这种细粒度的方法是专家组合的65倍,是Mixtral和Grok-1等模型,可显着提高模型质量。 DBRX的关键功能包括:参数大小:
>对竞争对手进行基准测试dbrx 与领先的开源LLM相比,Databricks强调了DBRX的卓越效率和性能:
Model Comparison | General Knowledge | Commonsense Reasoning | Databricks Gauntlet | Programming Reasoning | Mathematical Reasoning |
---|---|---|---|---|---|
DBRX vs LLaMA2-70B | 9.8% | 3.1% | 14% | 37.9% | 40.2% |
DBRX vs Mixtral Instruct | 2.3% | 1.4% | 6.1% | 15.3% | 5.8% |
DBRX vs Grok-1 | 0.7% | N/A | N/A | 6.9% | 4% |
DBRX vs Mixtral Base | 1.8% | 2.5% | 10% | 29.9% | N/A |
(在此处可视化其中一些结果的图。
利用dbrx:实用指南
> 在使用DBRX之前,请确保您的系统至少具有320GB的RAM。 请按照以下步骤:
安装:
>安装transformers
>获得带有读取权限的拥抱脸访问令牌。pip install "transformers>=4.40.0"
hf_YOUR_TOKEN
(在此处将包括一个响应简单命令的图像显示dbrx。
from transformers import AutoTokenizer, AutoModelForCausalLM import torch tokenizer = AutoTokenizer.from_pretrained("databricks/dbrx-base", token="hf_YOUR_TOKEN") model = AutoModelForCausalLM.from_pretrained("databricks/dbrx-base", device_map="auto", torch_dtype=torch.bfloat16, token="hf_YOUR_TOKEN") input_text = "Databricks was founded in " input_ids = tokenizer(input_text, return_tensors="pt").to("cuda") outputs = model.generate(**input_ids, max_new_tokens=100) print(tokenizer.decode(outputs[0]))
使用GitHub的开源LLM Foundry,可以进行微调DBRX。 培训示例应格式化为字典:
。 Foundry支持来自拥抱面线,本地数据集和StreamingDataSet(.MDS)格式的数据集进行微调。 每种方法的详细说明可在原始文章中找到。 (对于简洁而言,省略了有关用于微调的YAML配置文件的更多详细信息)。
结论
以上是Databricks DBRX教程:逐步指南的详细内容。更多信息请关注PHP中文网其他相关文章!