>本教程在患者doctor对话数据集上演示了Google的Google的Gemma 2模型,并将其部署以供离线使用。 我们将介绍模型准备,与LORA进行微调,模型合并,量化和与JAN应用程序的本地部署。
了解Gemma 2
Google 2 Gemma 2,Google最新的开源大语言模型(LLM),在允许许可下提供9B和27B参数版本。其改进的体系结构为各种硬件提供了更快的推断,与拥抱面孔,JAX,Pytorch和Tensorflow无缝集成。 还包括增强的安全功能和道德AI部署工具。>
>访问和运行Gemma 2
本节详细详细介绍了使用4位量化的下载和运行推断(对于消费者硬件上的内存效率所必需)。
>安装软件包: install ,bitsandbytes
和transformers
。
accelerate
使用拥抱的脸象征(从您的拥抱脸部帐户中获得)进行身份验证。>
使用4位量化和适当的设备映射加载>模型。
google/gemma-2-9b-it
创建一个提示,将其引起,生成响应并解码。>
>
微调gemma 2 >本节使用LORA(低级适应)在医疗保健数据集上引导您进行微调Gemma 2,以进行有效的培训。
>
安装必需的软件包(,,transformers
,datasets
,accelerate
,peft
,trl
,bitsandbytes
,wandb
)。 通过拥抱的脸,体重和偏见进行身份验证。
模型和令牌加载:带有4位量化的Load Gemma 2(9b-it),根据您的GPU功能调整数据类型和注意力实现。 配置Lora参数。
>>数据集加载:> load and preprocess
> 训练:设置训练参数(根据需要调整超参数),并使用SFTTrainer
训练模型。 监控培训进度与重量和偏见。
>评估:>完成重量和偏见以生成评估报告。
保存模型:在本地保存微调的洛拉适配器,然后将其推到拥抱的脸上轮毂上。>
合并适配器和基本模型>
>此步骤将微调的洛拉适配器与基本gemma 2模型合并为单个可部署模型。 这是在CPU上进行的,以管理内存约束。
>设置:创建一个新笔记本(基于CPU),安装必要的软件包,并用拥抱的脸进行身份验证。
加载和合并:>加载基本模型和保存的适配器,然后使用>。PeftModel.merge_and_unload()
合并它们
保存并推动:在本地保存合并的模型和令牌,然后将它们推到拥抱的面枢纽。
>用拥抱的脸部空间进行量化
>使用GGUF我的仓库拥抱面部空间,轻松将模型转换为GGUF格式以进行最佳本地部署。
>使用JAN本地的微调模型
>
结论
本教程提供了一个综合指南,以进行微调和部署Gemma 2。请记住,请根据您的硬件和数据集调整超参数和设置。 考虑探索Keras 3进行潜在的更快的训练和推理。>
以上是微调Gemma 2并在本地使用的详细内容。更多信息请关注PHP中文网其他相关文章!