首页  >  文章  >  科技周边  >  不做数值运算、纯靠嘴炮也能机器学习?基于自然语言的全新ML范式来了

不做数值运算、纯靠嘴炮也能机器学习?基于自然语言的全新ML范式来了

WBOY
WBOY原创
2024-06-22 02:06:40356浏览
不做数值运算、纯靠嘴炮也能机器学习?基于自然语言的全新ML范式来了
AIxiv专栏是本站发布学术、技术内容的栏目。过去数年,本站AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术交流与传播。如果您有优秀的工作想要分享,欢迎投稿或者联系报道。投稿邮箱:liyazhou@jiqizhixin.com;zhaoyunfeng@jiqizhixin.com

本文作者肖镇中是德国马克思普朗克-智能系统研究所和图宾根大学的博士生,Robert Bamler 是图宾根大学机器学习方向的教授,Bernhard Schölkopf 是马克思普朗克-智能系统研究所的所长,刘威杨是马普所剑桥大学联合项目的研究员。

不做数值运算、纯靠嘴炮也能机器学习?基于自然语言的全新ML范式来了

论文地址:https://arxiv.org/abs/2406.04344

在传统的机器学习场景如分类和回归问题中,给定训练数据不做数值运算、纯靠嘴炮也能机器学习?基于自然语言的全新ML范式来了,我们通过优化参数不做数值运算、纯靠嘴炮也能机器学习?基于自然语言的全新ML范式来了学到一个函数模型不做数值运算、纯靠嘴炮也能机器学习?基于自然语言的全新ML范式来了来准确描述训练集和测试集中不做数值运算、纯靠嘴炮也能机器学习?基于自然语言的全新ML范式来了不做数值运算、纯靠嘴炮也能机器学习?基于自然语言的全新ML范式来了的关系。其中不做数值运算、纯靠嘴炮也能机器学习?基于自然语言的全新ML范式来了是基于数值的函数,它的参数不做数值运算、纯靠嘴炮也能机器学习?基于自然语言的全新ML范式来了通常是连续空间中的数值向量或矩阵,优化算法通过计算数值梯度迭代更新不做数值运算、纯靠嘴炮也能机器学习?基于自然语言的全新ML范式来了从而达到学习的效果。

与其用数值,我们是否能用自然语言来表示一个模型?这种基于自然语言的非数值模型又该如何做推理和训练

Verbalized Machine Learning (VML;言语化的机器学习) 回答了这些问题,并提出了一种基于自然语言的机器学习全新范式。VML 把大语言模型 (LLM) 当作自然语言空间中的通用近似函数 (universial function approximator)不做数值运算、纯靠嘴炮也能机器学习?基于自然语言的全新ML范式来了,数据不做数值运算、纯靠嘴炮也能机器学习?基于自然语言的全新ML范式来了和参数不做数值运算、纯靠嘴炮也能机器学习?基于自然语言的全新ML范式来了都是自然语言空间中的字符串。在做推理时,我们可以将给定的输入数据不做数值运算、纯靠嘴炮也能机器学习?基于自然语言的全新ML范式来了和参数不做数值运算、纯靠嘴炮也能机器学习?基于自然语言的全新ML范式来了提交给 LLM,LLM 的回答就是推理的答案不做数值运算、纯靠嘴炮也能机器学习?基于自然语言的全新ML范式来了

对于任意任务和数据不做数值运算、纯靠嘴炮也能机器学习?基于自然语言的全新ML范式来了,我们如何得到不做数值运算、纯靠嘴炮也能机器学习?基于自然语言的全新ML范式来了?在基于数值的传统机器学习中,我们通过计算损失函数的梯度,将现有的模型参数往损失下降的方向更新,从而得到不做数值运算、纯靠嘴炮也能机器学习?基于自然语言的全新ML范式来了的优化函数:

不做数值运算、纯靠嘴炮也能机器学习?基于自然语言的全新ML范式来了

where 不做数值运算、纯靠嘴炮也能机器学习?基于自然语言的全新ML范式来了 and 不做数值运算、纯靠嘴炮也能机器学习?基于自然语言的全新ML范式来了 are the learning rate and loss function respectively.

In the setting of VML, since the data 不做数值运算、纯靠嘴炮也能机器学习?基于自然语言的全新ML范式来了 and parameters 不做数值运算、纯靠嘴炮也能机器学习?基于自然语言的全新ML范式来了 are both strings and LLM is regarded as a black-box inference engine, we cannot optimize 不做数值运算、纯靠嘴炮也能机器学习?基于自然语言的全新ML范式来了 through numerical calculations. But since we have used LLM as a general approximation function in natural language space to approximate the model function, and the optimizer of 不做数值运算、纯靠嘴炮也能机器学习?基于自然语言的全新ML范式来了 is also a function, why don’t we also use LLM to approximate it? Therefore, the verbal 不做数值运算、纯靠嘴炮也能机器学习?基于自然语言的全新ML范式来了 optimization function can be written as 不做数值运算、纯靠嘴炮也能机器学习?基于自然语言的全新ML范式来了

不做数值运算、纯靠嘴炮也能机器学习?基于自然语言的全新ML范式来了

, where
is the training data and model prediction results of a batch of 不做数值运算、纯靠嘴炮也能机器学习?基于自然语言的全新ML范式来了, and 不做数值运算、纯靠嘴炮也能机器学习?基于自然语言的全新ML范式来了 is the parameters of the optimization function (the same is natural language). 不做数值运算、纯靠嘴炮也能机器学习?基于自然语言的全新ML范式来了

不做数值运算、纯靠嘴炮也能机器学习?基于自然语言的全新ML范式来了

                                                                                  图 1:VML 的训练算法。

不做数值运算、纯靠嘴炮也能机器学习?基于自然语言的全新ML范式来了

                            图 2:VML 中模型和优化器的自然语言模版样例。

图 1 显示了 VML 的完整算法。可以看见其跟传统机器学习算法基本相同,唯一的区别是数据和参数是在自然语言空间里的字符串, 以及模型不做数值运算、纯靠嘴炮也能机器学习?基于自然语言的全新ML范式来了和优化器不做数值运算、纯靠嘴炮也能机器学习?基于自然语言的全新ML范式来了都是通过 LLM 在自然语言空间中进行推理。图 2 为回归任务中模型不做数值运算、纯靠嘴炮也能机器学习?基于自然语言的全新ML范式来了和优化器不做数值运算、纯靠嘴炮也能机器学习?基于自然语言的全新ML范式来了的具体模板样例。

跟传统机器学习比,VML 的优势包括:(1)用自然语言简单的描述就可以对模型加入归纳偏置 (inductive bias);(2)由于不需要预设模型的函数族 (function family),优化器不做数值运算、纯靠嘴炮也能机器学习?基于自然语言的全新ML范式来了可以在训练过程中自动对模型的函数族进行选择;(3)优化函数对模型参数的每一步更新都会提供自然语言的解释,同时模型的描述和推理也是自然语言且可解释的。

实验展示

多项式回归

如图 3 所示,模型的初始参数不做数值运算、纯靠嘴炮也能机器学习?基于自然语言的全新ML范式来了为线性回归的定义。在第一步优化时,优化器说它发现不做数值运算、纯靠嘴炮也能机器学习?基于自然语言的全新ML范式来了不做数值运算、纯靠嘴炮也能机器学习?基于自然语言的全新ML范式来了有更大的值域,且它们似乎存在正相关性,所以它决定将模型更新为简单的线性回归模型。

在第二步优化时,优化器说当前模型的不良表现让它意识到线性模型的假设过于简单了,同时它发现不做数值运算、纯靠嘴炮也能机器学习?基于自然语言的全新ML范式来了不做数值运算、纯靠嘴炮也能机器学习?基于自然语言的全新ML范式来了之间存在非线性关系, 因此它决定将模型更新为二次函数。

第三步优化时,优化器的关注点从函数族选择转换成二次函数的参数修改。最终模型学到了真实函数很接近的结果。

不做数值运算、纯靠嘴炮也能机器学习?基于自然语言的全新ML范式来了

                                   图 3: VML 在多项式回归任务中的训练过程记录。

非线性二维平面分类

如图 4 所示,模型的初始参数不做数值运算、纯靠嘴炮也能机器学习?基于自然语言的全新ML范式来了为二维平面二分类的定义,同时用了一句话「决策边界是个圆」加入归纳偏置。在第一步优化中,优化器说它基于提供的先验,将模型更新为了一个圆方程。接下来的优化步骤中,优化器都在根据训练数据调整圆方程的圆心和半径。直到第四十一步,优化器说当前模型似乎拟合得很好了,于是停止了对模型的更新。

同时,我们也可以看见在不加归纳偏置的情况下,VML 也能学到一个基于决策树的不错的模型,但相比之下训练损失的波动更大。

不做数值运算、纯靠嘴炮也能机器学习?基于自然语言的全新ML范式来了

                               图 4: VML 在非线性二维平面分类任务中的训练过程记录。

医疗图像二分类

如果大模型接受多模态输入,如不做数值运算、纯靠嘴炮也能机器学习?基于自然语言的全新ML范式来了和文字,那 VML 也可以用在不做数值运算、纯靠嘴炮也能机器学习?基于自然语言的全新ML范式来了任务上。这个实验中,我们使用了 GPT-4o 和 PneumoniaMNIST 数据集,做了一个 X 光片肺炎检测的任务。

如图 5 所示,我们初始化了两个模型,模型的初始参数不做数值运算、纯靠嘴炮也能机器学习?基于自然语言的全新ML范式来了都为不做数值运算、纯靠嘴炮也能机器学习?基于自然语言的全新ML范式来了二分类的定义, 但其中一个添加了一句话「输入是用于肺炎检测的 X 光不做数值运算、纯靠嘴炮也能机器学习?基于自然语言的全新ML范式来了」的归纳偏置作为先验。在训练了五十步后,两个模型都达到了 75% 左右的准确度,其中有先验的模型准确度要稍微高一点点。

仔细观察第五十步后的模型参数,我们可以看到加了归纳偏置的模型描述中包含了很多与肺炎相关的医学词汇,比如「感染」、「发炎」;而没有加归纳偏置的模型描述中只有对肺部 X 光片的特征描述,比如「透明度」、「对称」。

同时,这些模型所学到的描述,都是可以被具备专业知识的医生验证的。这种可解释和人工检验的机器学习模型在以安全为重的医疗场景下十分有价值。

不做数值运算、纯靠嘴炮也能机器学习?基于自然语言的全新ML范式来了

                               图 5: VML 在 PneumoniaMNIST 不做数值运算、纯靠嘴炮也能机器学习?基于自然语言的全新ML范式来了二分类上的训练记录。不做数值运算、纯靠嘴炮也能机器学习?基于自然语言的全新ML范式来了
结语

该文章介绍了一种基于大语言模型的机器学习新范式 Verbalized Machine Learning (VML; 言语化的机器学习),并在回归和分类任务上展示了 VML 的有效性和可解释性的特点。

以上是不做数值运算、纯靠嘴炮也能机器学习?基于自然语言的全新ML范式来了的详细内容。更多信息请关注PHP中文网其他相关文章!

声明:
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系admin@php.cn