首页 >科技周边 >人工智能 >Salesforce XGEN-7B:关于使用和微调XGEN-7B的分步教程

Salesforce XGEN-7B:关于使用和微调XGEN-7B的分步教程

William Shakespeare
William Shakespeare原创
2025-03-08 11:44:09132浏览

> Salesforce的XGEN-7B:一个功能强大的,紧凑的开源LLM,具有8K上下文长度

>几种领先的开源大型语言模型(LLMS)受到了一个重要的限制:短上下文窗口,通常限制为2048代币。 这与诸如GPT-3.5和GPT-4(GPT-4)的专有模型形成鲜明对比,具有高达32,000个令牌的上下文长度。 这种限制严重影响了需要广泛上下文理解的任务的性能,例如汇总,翻译和代码生成。

输入Salesforce的XGEN-7B。该型号可以正面处理上下文长度瓶颈,提供了令人印象深刻的8,000个上下文窗口 - 四倍比可比的开源替代方案要大。本文探讨了XGEN-7B在示例数据集上的关键功能,用法和微调。

为什么选择XGEN-7B?

> XGEN-7B的优势范围超出了其扩展上下文长度。 它的主要功能包括:

出色的效率:尽管其相对较小的70亿参数,XGEN-7B可以提供性能与更大的模型相比。这种效率允许在高端本地机器上部署,从而消除了对广泛的云计算资源的需求。 这使得从个人研究人员到小型企业的广泛用户都可以使用。

>

多功能模型变体:

salesforce提供了三个XGEN-7B变体,以满足各种需求:>
  • XGEN-7B-4K基础:一个4,000 token模型,适用于需要适度上下文的任务。根据Apache 2.0许可证许可。
  • > XGEN-7B-8K基础:
  • XGEN-7B- {4K,8K} -INST:
  • >用于交互式和教学应用程序(非商业用途)的微调。 非常适合教育工具和聊天机器人。
优质基准性能: 针对长序列进行了优化的 Xgen-7b的体系结构专门针对长期任务进行了优化。这对于诸如详细文档摘要和全面提问的应用至关重要,其中了解整个输入对于准确且连贯的输出至关重要。 salesforce XGEN-7B培训方法

> XGEN-7B令人印象深刻的功能源于其复杂的培训过程:>

  • 阶段1:在1.37万亿个代币的自然语言和代码数据上进行培训。 Salesforce XGen-7B: A Step-by-Step Tutorial on Using And Fine-Tuning XGen-7B
  • >
  • 阶段2:对550亿个代码数据的代币进行进一步培训,以增强代码生成功能。 Salesforce XGen-7B: A Step-by-Step Tutorial on Using And Fine-Tuning XGen-7B
  • >培训杠杆Salesforce的JaxFormer图书馆,旨在在TPU-V4硬件上有效的LLM培训。

设置并运行XGEN-7B

>在本地运行XGEN-7B需要一台功能强大的机器(32GB RAM,高端GPU)。 另外,诸如Google Colab Pro之类的服务提供足够的资源。

>安装:

设置环境后,安装必要的库:

pip install torch torchvision torchaudio transformers[torch] accelerate peft bitsandbytes trl datasets --upgrade
初始运行:

此代码段使用8k-token模型演示了基本运行:>

>微调XGEN-7B

>微调XGEN-7B涉及多个步骤(省略了详细说明,但原始文本提供了全面的指南):
import torch
from transformers import AutoTokenizer, AutoModelForCausalLM

tokenizer = AutoTokenizer.from_pretrained("Salesforce/xgen-7b-8k-base", trust_remote_code=True)
model = AutoModelForCausalLM.from_pretrained("Salesforce/xgen-7b-8k-base", torch_dtype=torch.bfloat16)

inputs = tokenizer("DataCamp is one he ...", return_tensors="pt")
sample = model.generate(**inputs, max_length=128)

print(tokenizer.decode(sample[0]))
>

>安装(上面已经覆盖)。

    >
  1. >导入必要的模块(来自
  2. datasets)。 transformerspeft定义基本和微调模型的配置。trl>
  3. >加载数据集(例如,Guanaco Llama2数据集)。 >使用
  4. >加载模型和令牌。
  5. >使用
  6. BitsAndBytesConfig>使用
  7. >使用
  8. >评估微型模型。
  9. LoraConfig>保存微调模型和令牌。
  10. 结论 TrainingArguments虽然直接使用,但将XGEN-7B适应特定任务需要仔细考虑数据集和计算资源。 如上所述,微调过程为您为您的特定需求定制这种强大的LLM提供了一个强大的框架。 请记住要查阅提供的链接,以获取有关LLM和微调技术的更详细的解释和资源。>

以上是Salesforce XGEN-7B:关于使用和微调XGEN-7B的分步教程的详细内容。更多信息请关注PHP中文网其他相关文章!

声明:
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系admin@php.cn