首页 >科技周边 >人工智能 >Salesforce XGEN-7B：关于使用和微调XGEN-7B的分步教程

Salesforce XGEN-7B：关于使用和微调XGEN-7B的分步教程

William Shakespeare原创: 2025-03-08 11:44:09132浏览

> Salesforce的XGEN-7B：一个功能强大的，紧凑的开源LLM，具有8K上下文长度

>几种领先的开源大型语言模型（LLMS）受到了一个重要的限制：短上下文窗口，通常限制为2048代币。这与诸如GPT-3.5和GPT-4（GPT-4）的专有模型形成鲜明对比，具有高达32,000个令牌的上下文长度。这种限制严重影响了需要广泛上下文理解的任务的性能，例如汇总，翻译和代码生成。

输入Salesforce的XGEN-7B。该型号可以正面处理上下文长度瓶颈，提供了令人印象深刻的8,000个上下文窗口 - 四倍比可比的开源替代方案要大。本文探讨了XGEN-7B在示例数据集上的关键功能，用法和微调。

为什么选择XGEN-7B？

> XGEN-7B的优势范围超出了其扩展上下文长度。它的主要功能包括：

出色的效率：尽管其相对较小的70亿参数，XGEN-7B可以提供性能与更大的模型相比。这种效率允许在高端本地机器上部署，从而消除了对广泛的云计算资源的需求。这使得从个人研究人员到小型企业的广泛用户都可以使用。

多功能模型变体：

salesforce提供了三个XGEN-7B变体，以满足各种需求：>

XGEN-7B-4K基础：一个4,000 token模型，适用于需要适度上下文的任务。根据Apache 2.0许可证许可。
> XGEN-7B-8K基础：
>用于交互式和教学应用程序（非商业用途）的微调。非常适合教育工具和聊天机器人。

优质基准性能：针对长序列进行了优化的： Xgen-7b的体系结构专门针对长期任务进行了优化。这对于诸如详细文档摘要和全面提问的应用至关重要，其中了解整个输入对于准确且连贯的输出至关重要。 salesforce XGEN-7B培训方法

> XGEN-7B令人印象深刻的功能源于其复杂的培训过程：>

阶段1：在1.37万亿个代币的自然语言和代码数据上进行培训。
>
阶段2：对550亿个代码数据的代币进行进一步培训，以增强代码生成功能。
>培训杠杆Salesforce的JaxFormer图书馆，旨在在TPU-V4硬件上有效的LLM培训。

设置并运行XGEN-7B

>在本地运行XGEN-7B需要一台功能强大的机器（32GB RAM，高端GPU）。另外，诸如Google Colab Pro之类的服务提供足够的资源。

>安装：
设置环境后，安装必要的库：

pip install torch torchvision torchaudio transformers[torch] accelerate peft bitsandbytes trl datasets --upgrade
初始运行：
此代码段使用8k-token模型演示了基本运行：>
>微调XGEN-7B

>微调XGEN-7B涉及多个步骤（省略了详细说明，但原始文本提供了全面的指南）：
import torch from transformers import AutoTokenizer, AutoModelForCausalLM tokenizer = AutoTokenizer.from_pretrained("Salesforce/xgen-7b-8k-base", trust_remote_code=True) model = AutoModelForCausalLM.from_pretrained("Salesforce/xgen-7b-8k-base", torch_dtype=torch.bfloat16) inputs = tokenizer("DataCamp is one he ...", return_tensors="pt") sample = model.generate(**inputs, max_length=128) print(tokenizer.decode(sample[0]))
>

>安装（上面已经覆盖）。

>
>导入必要的模块（来自，
，
，，datasets）。 transformerspeft定义基本和微调模型的配置。trl>

>加载数据集（例如，Guanaco Llama2数据集）。 >使用
。
>加载模型和令牌。
>使用
。 BitsAndBytesConfig>使用。

>使用。
>评估微型模型。
LoraConfig>保存微调模型和令牌。

结论 TrainingArguments虽然直接使用，但将XGEN-7B适应特定任务需要仔细考虑数据集和计算资源。如上所述，微调过程为您为您的特定需求定制这种强大的LLM提供了一个强大的框架。请记住要查阅提供的链接，以获取有关LLM和微调技术的更详细的解释和资源。>

以上是Salesforce XGEN-7B：关于使用和微调XGEN-7B的分步教程的详细内容。更多信息请关注PHP中文网其他相关文章！

define for while include Token using Length this input windows apache gpt

声明：

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系admin@php.cn

上一篇：OpenAI's Operator - ChatGPT Like Moment for AI Agents下一篇：How to Fine-Tune Phi-4 Locally?

查看更多