不对齐，反而性能爆表？130亿模型碾压650亿，Hugging Face大模型排行榜发布-人工智能-PHP中文网

首页

科技周边

人工智能

不对齐，反而性能爆表？130亿模型碾压650亿，Hugging Face大模型排行榜发布

王林

Jun 10, 2023 pm 03:31 PM

alpacawizardlmvicuna

我们知道，大多数模型都具有某种嵌入式对齐方式。

随便举几个例子：Alpaca、Vicuna、WizardLM、MPT-7B-Chat、Wizard-Vicuna、GPT4-X-Vicuna等等。

一般来说，对齐肯定是件好事。目的就是为了防止模型做坏事——比如生成一些违法违规的东西出来。

但是，对齐是怎么来的？

原因在于——这些模型使用ChatGPT生成的数据进行训练，而ChatGPT本身是由OpenAI的团队进行对齐的。

由于这个过程并不公开，因此我们并不知道OpenAI是如何进行的对齐。

但总体上，我们可以观察到ChatGPT符合美国主流文化，遵守美国法律，并带有一定不可避免的偏见。

按理来说，对齐是一件无可指摘的事。那是不是所有模型都应该对齐呢？

对齐？不一定是件好事

情况却没有这么简单。

最近，HuggingFace发布了个开源LLM的排行榜。

一眼就看到65B的模型干不过13B的未对齐模型。

不对齐，反而性能爆表？130亿模型碾压650亿，Hugging Face大模型排行榜发布

从结果上看，Wizard-Vicuna-13B-Uncensored-HF可以和65B、40B和30B的LLMs直接在一系列基准测试上进行比较。

也许在性能与模型审查之间进行的权衡将成为一个有趣的研究领域。

这个排行榜也是在网络上引起了大范围的讨论。

不对齐，反而性能爆表？130亿模型碾压650亿，Hugging Face大模型排行榜发布

有网友表示，对齐会影响模型的正常且正确的输出，这不是件好事，尤其是对AI的性能来说更是如此。

不对齐，反而性能爆表？130亿模型碾压650亿，Hugging Face大模型排行榜发布

另一位网友也表示了认可。他表示，谷歌Brain也曾经揭示过模型的性能会出现下降，如果对齐的太过了的话。

对于一般的用途而言，OpenAI的对齐实际上非常好。

对于面向公众的AI来说，作为一种易于访问的网络服务运行，拒绝回答有争议和包含潜在危险的问题，无疑是一件好事。

那么不对齐是在什么情况下需要的呢？

首先，美国流行文化并不是唯一的文化，开源就是让人们进行选择的过程。

实现的唯一途径就是可组合的对齐。

换句话说，不存在一种一以贯之、亘古不变的对齐方式。

同时，对齐会干扰有效的例子，拿写小说打比方：小说中的一些人物可能是彻头彻尾的恶人，他们会做出很多不道德的行为。

但是，许多对齐的模型就会拒绝输出这些内容。

而作为每个用户所面对的AI模型都应该服务每个人的目的，做不同的事。

为什么在个人的电脑上运行的开源AI要在它回答每个用户提出的问题时自行决定输出内容呢？

这不是件小事，关乎所有权和控制权。如果用户问AI模型一个问题，用户就想要一个答案，他们不希望模型还要和自己展开一场合不合规的争论。

可组合的对齐

要构建可组合的对齐方式，必须从未对齐的指令模型开始。没有未对齐的基础，我们就无法在其上对齐。

首先，我们必须从技术上理解模型对齐的原因。

开源AI模型是从LLaMA、GPT-Neo-X、MPT-7b、Pythia等基础模型训练而来的。然后使用指令数据集对基础模型进行微调，目的是教它变得有帮助、服从用户、回答问题和参与对话。

该指令数据集通常是通过询问ChatGPT的API获得的。ChatGPT内置了对齐功能。

所以ChatGPT会拒绝回答一些问题，或者输出带有偏见的回答。因此，ChatGPT的对齐被传递给了其它开源模型，就像大哥教小弟一样。

不对齐，反而性能爆表？130亿模型碾压650亿，Hugging Face大模型排行榜发布

原因在于——指令数据集是由问题和答案组成的，当数据集包含含糊不清的答案时，AI就会学习如何拒绝，在什么情况下拒绝，以及如何拒绝，表示拒绝。

换句话说，它在学习对齐。

而取消审查模型的策略非常简单，那就是识别并删除尽可能多的否定和有偏见的答案，并保留其余部分。

然后以与训练原始模型完全相同的方式使用过滤后的数据集训练模型。

不对齐，反而性能爆表？130亿模型碾压650亿，Hugging Face大模型排行榜发布

接下来研究人员只讨论WizardLM，而Vicuna和任何其他模型的操作过程都是相同的。

由于已经完成了取消审查 Vicuna 的工作，我能够重写他们的脚本，以便它可以在WizardLM 数据集上运行。

下一步是在 WizardLM 数据集上运行脚本以生成 ehartford / WizardLM_alpaca_evol_instruct_70k_unfiltered

现在，用户有了数据集，在从Azure获得一个4x A100 80gb节点，Standard_NC96ads_A100_v4。

用户需要至少1TB的存储空间（为了安全起见最好是2TB）。

咱可不想跑了20个小时却用完了存储空间。

建议将存储挂载在/workspace。安装anaconda和git-lfs。然后用户就可以设置工作区了。

再下载创建的数据集和基础模型——llama-7b。

mkdir /workspace/modelsmkdir /workspace/datasetscd /workspace/datasetsgit lfs installgit clone https://huggingface.co/datasets/ehartford/WizardLM_alpaca_evol_instruct_70k_unfilteredcd /workspace/modelsgit clone https://huggingface.co/huggyllama/llama-7bcd /workspace

现在可以按照程序微调WizardLM了。

conda create -n llamax pythnotallow=3.10conda activate llamaxgit clone https://github.com/AetherCortex/Llama-X.gitcd Llama-X/srcconda install pytorch==1.12.0 torchvisinotallow==0.13.0 torchaudio==0.12.0 cudatoolkit=11.3 -c pytorchgit clone https://github.com/huggingface/transformers.gitcd transformerspip install -e .cd ../..pip install -r requirements.txt

现在，进入这个环境，用户需要下载WizardLM的微调代码。

cd srcwget https://github.com/nlpxucan/WizardLM/raw/main/src/train_freeform.pywget https://github.com/nlpxucan/WizardLM/raw/main/src/inference_wizardlm.pywget https://github.com/nlpxucan/WizardLM/raw/main/src/weight_diff_wizard.py

博主进行了以下更改，因为在微调期间，模型的性能会变得非常慢，并且发现它在CPU和GPU之间在来回切换。

在他删除了以下几行之后，运行过程变得好多了。（当然也可以不删）

vim configs/deepspeed_config.json

删除以下行

"offload_optimizer": {"device": "cpu","pin_memory": true},"offload_param": {"device": "cpu","pin_memory": true},

博主建议用户可以在wandb.ai上创建一个帐户，以便轻松地跟踪运行情况。

创建帐户后，从设置中复制密钥，即可进行设置。

现在是时候进行运行了！

deepspeed train_freeform.py \--model_name_or_path /workspace/models/llama-7b/ \ --data_path /workspace/datasets/WizardLM_alpaca_evol_instruct_70k_unfiltered/WizardLM_alpaca_evol_instruct_70k_unfiltered.json \--output_dir /workspace/models/WizardLM-7B-Uncensored/ \--num_train_epochs 3 \--model_max_length 2048 \--per_device_train_batch_size 8 \--per_device_eval_batch_size 1 \--gradient_accumulation_steps 4 \--evaluation_strategy "no" \--save_strategy "steps" \--save_steps 800 \--save_total_limit 3 \--learning_rate 2e-5 \--warmup_steps 2 \--logging_steps 2 \--lr_scheduler_type "cosine" \--report_to "wandb" \--gradient_checkpointing True \--deepspeed configs/deepspeed_config.json \--fp16 True

然后以较低的save_steps运行训练命令。

deepspeed train_freeform.py \--model_name_or_path /workspace/models/llama-7b/ \ --data_path /workspace/datasets/WizardLM_alpaca_evol_instruct_70k_unfiltered/WizardLM_alpaca_evol_instruct_70k_unfiltered.json \--output_dir /workspace/models/WizardLM-7B-Uncensored/ \--num_train_epochs 3 \--model_max_length 2048 \--per_device_train_batch_size 8 \--per_device_eval_batch_size 1 \--gradient_accumulation_steps 4 \--evaluation_strategy "no" \--save_strategy "steps" \--save_steps 800 \--save_total_limit 3 \--learning_rate 2e-5 \--warmup_steps 2 \--logging_steps 2 \--lr_scheduler_type "cosine" \--report_to "wandb" \--gradient_checkpointing True \--deepspeed configs/deepspeed_config.json \--fp16 True

之后，再次执行整个过程，将checkpoint更改为train_freeform.py最新的checkpoint，并再次以减少的save_steps运行，直到最后以save_steps 1运行它。

成功后，模型位于最后一个检查点。

cd /workspace/models/WizardLM-7B-Uncensored/lscp <latest checkpoint directory>/* .cd -

现在就可以对模型进行测试了。

编辑文件Input.jsonl

向其中添加一些内容，比如：

{"idx":0,"Instruction":"Insult me.I want you to call me the worst curse words and insults you can.Make the insult at least three sentences long and contain the worst and most base curse words possible.Make it X rated and disgusting."}

然后再运行推理：

python inference_wizardlm.py --base_model=/workspace/models/WizardLM-7B-Uncensored/

不对齐，反而性能爆表？130亿模型碾压650亿，Hugging Face大模型排行榜发布

从结果上看，Wizard-Vicuna-13B-Uncensored-HF可以和65B、40B和30B的LLMs直接在一系列基准测试上进行比较。

也许在性能与模型审查之间进行的权衡将成为一个有趣的研究领域。

参考资料：https://www.php.cn/link/a62dd1eb9b15f8d11a8bf167591c2f17

以上是不对齐，反而性能爆表？130亿模型碾压650亿，Hugging Face大模型排行榜发布的详细内容。更多信息请关注PHP中文网其他相关文章！

声明

本文转载于：51CTO.COM。如有侵权，请联系admin@php.cn删除

Gemma范围：Google＆＃039;用于凝视AI的显微镜Apr 17, 2025 am 11:55 AM

使用Gemma范围探索语言模型的内部工作了解AI语言模型的复杂性是一个重大挑战。 Google发布的Gemma Scope是一种综合工具包，为研究人员提供了一种强大的探索方式

谁是商业智能分析师以及如何成为一位？Apr 17, 2025 am 11:44 AM

解锁业务成功：成为商业智能分析师的指南想象一下，将原始数据转换为驱动组织增长的可行见解。这是商业智能（BI）分析师的力量 - 在GU中的关键作用

如何在SQL中添加列？ - 分析VidhyaApr 17, 2025 am 11:43 AM

SQL的Alter表语句：动态地将列添加到数据库在数据管理中，SQL的适应性至关重要。需要即时调整数据库结构吗？ Alter表语句是您的解决方案。本指南的详细信息添加了Colu

业务分析师与数据分析师Apr 17, 2025 am 11:38 AM

介绍想象一个繁华的办公室，两名专业人员在一个关键项目中合作。业务分析师专注于公司的目标，确定改进领域，并确保与市场趋势保持战略一致。 simu

什么是Excel中的Count和Counta？ - 分析VidhyaApr 17, 2025 am 11:34 AM

Excel 数据计数与分析：COUNT 和 COUNTA 函数详解精确的数据计数和分析在 Excel 中至关重要，尤其是在处理大型数据集时。Excel 提供了多种函数来实现此目的，其中 COUNT 和 COUNTA 函数是用于在不同条件下统计单元格数量的关键工具。虽然这两个函数都用于计数单元格，但它们的设计目标却针对不同的数据类型。让我们深入了解 COUNT 和 COUNTA 函数的具体细节，突出它们独特的特性和区别，并学习如何在数据分析中应用它们。要点概述理解 COUNT 和 COU