> Salesforce的XGEN-7B:一个功能强大的,紧凑的开源LLM,具有8K上下文长度
>几种领先的开源大型语言模型(LLMS)受到了一个重要的限制:短上下文窗口,通常限制为2048代币。 这与诸如GPT-3.5和GPT-4(GPT-4)的专有模型形成鲜明对比,具有高达32,000个令牌的上下文长度。 这种限制严重影响了需要广泛上下文理解的任务的性能,例如汇总,翻译和代码生成。
输入Salesforce的XGEN-7B。该型号可以正面处理上下文长度瓶颈,提供了令人印象深刻的8,000个上下文窗口 - 四倍比可比的开源替代方案要大。本文探讨了XGEN-7B在示例数据集上的关键功能,用法和微调。
为什么选择XGEN-7B?
> XGEN-7B的优势范围超出了其扩展上下文长度。 它的主要功能包括:
出色的效率:尽管其相对较小的70亿参数,XGEN-7B可以提供性能与更大的模型相比。这种效率允许在高端本地机器上部署,从而消除了对广泛的云计算资源的需求。 这使得从个人研究人员到小型企业的广泛用户都可以使用。
>多功能模型变体:
salesforce提供了三个XGEN-7B变体,以满足各种需求:
> XGEN-7B令人印象深刻的功能源于其复杂的培训过程: 设置并运行XGEN-7B >在本地运行XGEN-7B需要一台功能强大的机器(32GB RAM,高端GPU)。 另外,诸如Google Colab Pro之类的服务提供足够的资源。
设置环境后,安装必要的库:
此代码段使用8k-token模型演示了基本运行:
>安装(上面已经覆盖)。
pip install torch torchvision torchaudio transformers[torch] accelerate peft bitsandbytes trl datasets --upgrade
初始运行:import torch
from transformers import AutoTokenizer, AutoModelForCausalLM
tokenizer = AutoTokenizer.from_pretrained("Salesforce/xgen-7b-8k-base", trust_remote_code=True)
model = AutoModelForCausalLM.from_pretrained("Salesforce/xgen-7b-8k-base", torch_dtype=torch.bfloat16)
inputs = tokenizer("DataCamp is one he ...", return_tensors="pt")
sample = model.generate(**inputs, max_length=128)
print(tokenizer.decode(sample[0]))
>
>
datasets
)。
transformers
peft
定义基本和微调模型的配置。trl
>
BitsAndBytesConfig
>使用。
LoraConfig
>保存微调模型和令牌。
TrainingArguments
虽然直接使用,但将XGEN-7B适应特定任务需要仔细考虑数据集和计算资源。 如上所述,微调过程为您为您的特定需求定制这种强大的LLM提供了一个强大的框架。 请记住要查阅提供的链接,以获取有关LLM和微调技术的更详细的解释和资源。>
以上是Salesforce XGEN-7B:关于使用和微调XGEN-7B的分步教程的详细内容。更多信息请关注PHP中文网其他相关文章!