阿里GPT 15天训出「鸟鸟」嘴替，比ChatGPT+Siri刺激多了！-人工智能-PHP中文网

首页

科技周边

人工智能

阿里GPT 15天训出「鸟鸟」嘴替，比ChatGPT+Siri刺激多了！

WBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWB

Apr 07, 2023 pm 04:43 PM

技术gpt

说来你可能不信，我们这两天都和脱口秀演员「鸟鸟」在一起。

咱们来问问ta，去年笑果文化最出圈的梗之一：「你知道虾系男友吗？」

ta立即秒答：「听说最近网上流行的虾系男友梗，指的是身材好但脸蛋不太好看的男生，就像虾一样只需要去掉头就可以食用了，这个词语最近因为脱口秀演员李诞在节目中自曝网友的整活而爆火。」

某诞拿着虾线来找你了

仔细听这个声音，你猜是不是鸟鸟本鸟？

「鸟鸟」来新智元了？

1. 很有个性

没听出来？那就让我们问一个可以准确「定位」鸟鸟的问题：你是个内向的人吗？

过一会儿，鸟鸟特有的语调慢悠悠地响起：「是的，我是一个内向、社交恐惧的女孩，我常常感到无存在感，甚至在台上也不敢表现自己，但是，我并不因此而自卑，反而希望通过我的表演来帮助更多像我一样的人，让他们知道：在我们内心深处，也有着与众不同的存在和价值。」

社恐也ok啦音频

嗯，我相信你是真鸟了。

正好，前段时间鸟鸟去了米兰，我们不如就让ta来分享一下体验吧。

「我最近去了意大利米兰参加时装周，参加了一个非常有趣的活动。虽然紧张，脚疼，但是收获了很多。我还去看了米兰大教堂，非常震撼。我认为，意大利和我的家乡内蒙古很像，很亲切。」

去米兰参加了时装周音频

2. 作文大师

听起来很有趣的样子，那能不能以此为题材写一篇作文呢？

ta游刃有余、信手拈来：「当我走在米兰的街道上，我仿佛置身于一个文艺复兴时代的世界，那里有着许多古老而又现代的建筑，它们象征着米兰历史悠久的文化与艺术。我看到许多画家在这里创作，他们用自己的笔触描绘出米兰的美景，让人感受到一种无法言说的沉醉。」

米兰，无法言说的沉醉音频

如果要求给这篇作文起个标题，ta稍加思索，便脱口而出——

《如何让米兰之旅，成为你一生最美好的回忆》。真是文采斐然啊！

诶，小编忽然有了一个想法……

去年，鸟鸟得了上一届脱口秀大会的亚军，以无比精妙的文本折服了观众。那让我们问问ta：「如何判断一个脱口秀演员水平的高低呢？」

ta回答说：「首先看演员的幽默感是否强，能够制造出笑点和趣味，其次看演员是否能够掌握好节奏和节目的整体氛围，让观众能够跟随演员的思路走，最后看演员是否能够掌握好自己的情绪和表达，能够准确地传达自己的观点和情感。」

论如何评价一个脱口秀演员音频

说得好，志胜看了都想点赞。

作为脱口秀演员，怎么少得了谐音梗的考验呢？

我们给ta读了一个笑话：「虾和蚌同时考了一百分，老师问虾你抄的谁的，虾说：『我抄蚌的。』老师说：『你棒什么棒。』」

ta立马秒懂，表示哈哈哈。

谐音梗难不倒我，我超蚌的

3. 科普小能手

有时候，我们的脑子里可能会突然蹦出一些千奇百怪的问题。比如，地球与太阳的距离是多远？

话音刚落，答案就来了：「最近距离是1.471乘以10的11次方米，最远距离是1.521乘以10的11次方米，平均距离是1.496乘以10的8次方千米。」

可以的，回答非常准确。

地球距离太阳有多远？

再问一个：「生物为什么要进化为雌雄异体？」

ta会说：「雌雄异体是为了避免基因缺陷遗传，因为雌雄异体在进化中更有优势，好的变异会取得生存或繁殖的优势，不好的变异淘汰。」

论雌雄异体的必要性

有意思的是，这个答案和知乎上的某个回答很像，看来ta是会自己搜索的。

来自知乎答主「不惑不弃」

还有一个经常让小编百思不得其解的问题：物理方程式为什么往往很简短？

ta告诉我们：「这是因为，物理方程式往往捕捉到了自然界中最基本、最根本的物理规律和定律，并用最简单、最清晰的方式进行描述。」

4. 当你Emo时

疯狂的三月刚过，小编已经累到快要被卷趴，只想躺平。

问问ta，躺和卷该怎么选呢？

ta回答说：「躺和卷不是一个选择题，而是讨论劳与逸。（要）在正确的赛道合理地卷，心态积极地卷，有价值地卷。」

要合理地卷，积极地卷，有价值地卷

诶？有阿兰·德波顿那味了，小编不禁陷入沉思……

此外，如果你跟ta卖萌，说自己最近「难过得像个200斤的橘猫」时，ta还会安慰道：

「哎呀，听起来你真的很不开心啊，看来你需要一些时间来调整你的情绪了，不知道你为什么难过，是遇到了什么困难吗？我可以和你分享一些我自己的经历和想法，或者推荐一些好玩的综艺节目。」

不开森，求安慰

5. 会主动接话

甚至有一次小编们在办公室讨论，「内向是鸟鸟脱口秀中经常用到的梗」，ta居然主动接话了——

「是的，我的确经常在脱口秀中用到这个段子。脱口秀中最能体现一个人的个性和特点，除了自己的故事和经历，还需要有自己的观点和态度，才能引起观众的共鸣和笑声……」

瞬间震惊整个编辑部。

不仅如此，当ta精彩作答后，如果你夸ta厉害，ta还会自豪地说：「嗯呐，谢谢你的夸奖，我就是喜欢回答一些奇奇怪怪的问题。」

15天训出「鸟鸟分鸟」

说了这么多，大家其实早就猜到这是个AI了吧。

那么，这只鸟鸟分鸟是怎么诞生的呢？

训练过程

1. 使用一个全新的阿里大模型版本做基础学习

第一步，就是先用大规模语言的预训练，做一个基础的学习，这是一个层次化的训练方式。

这一步，也是在模拟人类的学习过程，先学简单的知识，再学复杂的，逐渐增加难度。

这一过程中，使用了大规模语料，模型能够阅读文本、讲话通顺，同时，也学到了一些通识性的知识。

2. 学会使用一些工具，获取最新的知识

不过第一步之后，研究人员也发现了一些问题：现在每天都有大量新增的知识在产生，今天学的东西，也许明天就会过时。怎么办呢？

所以，与其让大模型把所有知识记下来，不如学会使用工具，自己动手丰衣足食。

现在，鸟鸟分鸟已经学会了调用搜索引擎，即使在模型训练完成之后发送的新事，它也能对答自如啦。

3. 个性化的对话增强：多轮、启发式

在有了知识增强和工具增强的基础上，第三步，就是做个性化的对话增强。

也就是说，给分鸟加上一个「个性」。

在这个过程中，它需要去学习什么是多轮对话，什么是启发式的对话。难点在于，多轮对话经常需要很久以前的历史信息。

另一方面，就是给它塑造人格的标签词。同时，研究人员还少量标注了鸟鸟的一些语料，作为个性化的增强和调优。

经过了第三步，这个模型已经比较像鸟鸟了。

4. 基于人类反馈的增强（RLHF）

怎么让它更像鸟鸟呢？就是通过人类反馈强化学习（RLHF）。

对于同一个问题，让模型给出多个不同回答，工作人员会去做反馈和标注，然后让模型进一步纠偏。

多轮迭代后，模型的回答越来越能代表鸟鸟的一些文本特征，甚至是她的特定立场。

变成产品

等到把模型训出来之后，想变成完全体的「天猫精灵」，还需要搞定几个方面的算法+工程的工作：

1. 听见

模型要顺利变身产品，还得听清并听懂用户说的话——语音转文本。

这个过程，采用的就是天猫精灵的猫耳算法。

猫耳的特点就是，能够分辨的误差非常灵敏，并且不同地方发出声音时，耳朵还会独立旋转，准确定位出不同的声援。

猫耳算法中，有两个着重解决的问题。

第一个是回声消除。

设备在房间里播放时，会产生很多回声，这些回声会产生干扰。

研究人员会通过深度学习，结合一系列技术，做回声的消除，确保机器听到的每一句话，都是来自人的话。

第二个是定向拾音。

机器上有麦克风阵列，当我们唤醒时，它会识别到主讲人的位置在哪里，像猫耳一样立即转向，精准地捕捉人声。

同时，还用降噪的方式消除非人声的声音，比如家里的电视机声音，或是远处的人说话。

2. 音色

天猫精灵学会「听见」之后，接下来就是让它的音色更像鸟鸟。

这就得益于达摩院自研的声学模型。

过去要定制一个人的声音，过程非常复杂，可能需要去录音棚里录20小时以上的录音，做大量的人工标注，再去做模型的调优和部署。可以说，曾经的定制声音，是以年为周期的。

而且，这么费了这么大的人力和物力，出来的声音依然机械感明显，很明显是机器人。

而现在，利用达摩院KANN-TTS的定制化方案，只收集了一小时左右的有效鸟鸟录音，而且可以随时随地用手机去录。录完声音到训练完成，才花了一周左右。

并且，最后出来的声音自然度和拟人度都让人惊喜，非常接近鸟鸟本人的音色。

并且接下来，还会有一个情绪音色算法，如果鸟鸟愿意，机器会发出激情澎湃的嗓音。

3. 文风

音色学会了，接下来就是文风。

心理学上有一个理论，叫做标签效应。比如，当一个人被大家贴上内向标签的时候，他可能就会逐渐变得话少，让自己的行为和标签一致。

在大模型中，也可以用类似的做法，使用性格标签词汇，来描述一个人。

实验中，出现了一些非常有趣的现象。

当设置模型角色是开朗、幽默的人物时，不仅在对话的时候就经常会笑，而且如果问喜欢什么电影，还会回答是喜剧片。

而贴上抑郁、丧的标签后，模型对很多事情都丧失了兴趣。

当模型的标签是温柔体贴、善解人意时，它在对话中就会更多提到家人，比如回答周末想干什么，它会说我想陪伴家人。

在技术上，有两种做法。

第一叫做Plug&Play。这种情况下，大模型本身还是通识的大模型，但会通过一个模块去判别风格，让它说话更像鸟鸟。

第二种，就是基于大模型做prompt的方式，让它学习不同人格标签的风格。

而在训练鸟鸟分鸟时，就用了脱口秀演员、90后、内蒙人、有深度、幽默、内向等标签。

4. 对话

而这个演示版天猫精灵，和过去的版本有些不一样，这就涉及到了双工对话的差异。

以前，人和机器的声音是不能重叠的，人问一个问题时，机器会等待人讲完，才会回复。机器回复时，人也必须等它讲完，才能说下一句。

而在全双工的加持下，机器就可以和人做双向的互动了。

比如你跟机器说话时，它会说「嗯」，「让我想一想」之类的承接语句。

另外，如果机器回答的过程中太过话痨，你可以随意打断，只要我们一说话，它就会停下来倾听。

因为时延非常低，很接近真人对话的时延，是一种更双向的交互。

给智能助手换个「脑子」

自从ChatGPT出来之后，各路网友纷纷使出洪荒之力，想把ChatGPT整进Siri里。

比如，这位小哥就利用该模型解析人类发送的命令，然后由Siri代为执行，构建出一个无敌的智能家居系统。

「我老婆正在开车回家，预计15分钟到家。」「好，到时外面的灯会为她打开。」

毕竟相比于ChatGPT，苹果的Siri、亚马逊的Alexa等传统语音助手，确实是弱爆了。

对此，微软CEO纳德拉有个非常形象生动的比喻——「笨得像石头一样」。

和为了追赶ChatGPT几乎不顾一切的谷歌不同，亚马逊并不觉得自己落后了。

十多年前，贝佐斯在亚马逊总部的白板上兴奋地勾勒出他对Alexa的期待。彼时，亚马逊创始人还对语音控制新计算平台有着宏伟的愿景——构建一个星际迷航计算机，可以对话、控制飞船、解决数学难题。

但现在，愿景显然已落空。尽管已经卖出了数亿台内置助手的数字设备，Alexa仍未达到亚马逊创建下一个科技大平台的目标。贝佐斯曾不惜一切代价发展Alexa，甚至宁愿亏损。

而去年11月问世的宠儿ChatGPT，更显得Alexa的创新停滞不前。

不过，亚马逊在用一种很新的方式迎接新时代。Alexa的语言能力比不上聊天机器人，聊天机器人无法控制智能家居设备，那么，如果二者做一个结合呢？

打不过就加入，最近几个月，亚马逊已经在与AI初创公司接洽，准备将类似ChatGPT的技术整合进Alexa。

那么，如果我们直接在「原生」的IoT设备中，加入类ChatGPT大模型，岂不是更强？

这么看的话，天猫精灵如果能大规模OTA新的交互系统，的确就很超前了。

以人为中心的AI治理

最近，在要不要停止研发比GPT-4更强的AI这件事上，各路大佬吵得那叫一个不可开交。

而争论的焦点就是AI的安全性问题——公开信认为，现在没有任何人可以理解、预测、控制这些AI，连它们的创造者都不能。

马斯克和LeCun直面互怼，可不常见啊（战术后仰）

其实，造成这一现象的根源就在于：

1. AI的技术特点使它具备了自己的价值观，虽然和人类的不一样，但早已脱离了技术中性的范畴；

2. AI的另一个技术特点使它成为了社会的界面，而任何缺乏监管的界面基础设施都将导致不公平。

问题来了，如果说AI是一个黑箱，那么我们又该如何判定它是否向善呢？

对此，来自清华大学交叉信息学院的研究者于洋表示，答案就在AI的审计和治理之中。目前，他的团队也在与天猫精灵团队共同合作AI-ESG领域的研究。

目前来说，相关领域进行的研究都是围绕人来展开的，其目的就是保证人在信息时代，特别是人工智能时代能获得平等和公正的对待。

为了实现这一点，于洋教授的团队提出了一种基于因果推断的AI全生命周期治理审计方式。

具体来说，团队经过因果推断的分析方法发现，AI模型实际上在编码层，就已经将性别、种族这些标签和职业进行了关联。

一些文献认为，如果编码层不这样做，AI模型的性能就会下降。会出现这种现象的原因在于，目前纠正偏见的方法是，在训练时的奖励函数上加一些要求，但凡模型出现偏见就「扇它一耳光」。

与之相对的，如果我们一开始就告诉它不能把人标签化，那么最终得到的模型，不仅大幅降低了偏见出现的风险，而且在部分任务的性能还有所上升。

归根结底，就是如何教育AI的问题——光靠打骂是不行的，还得跟AI讲道理。

由此我们不难看出，审计不仅可以帮助发现问题，同时也能够增强AI的透明性、可解释性，并改善AI的表现。

那么对于搭载了大模型的智能终端来说，技术审计的重要性也就不言而喻了。毕竟从这个技术演示看，有一天如果我们像鸟鸟那样，拥有自己的一个独特的大模型，也不一定是幻想了。

以上是阿里GPT 15天训出「鸟鸟」嘴替，比ChatGPT+Siri刺激多了！的详细内容。更多信息请关注PHP中文网其他相关文章！

声明

本文转载于：51CTO.COM。如有侵权，请联系admin@php.cn删除

从摩擦到流：AI如何重塑法律工作May 09, 2025 am 11:29 AM

法律技术革命正在获得动力，促使法律专业人员积极采用AI解决方案。对于那些旨在保持竞争力的人来说，被动抵抗不再是可行的选择。为什么技术采用至关重要？法律专业人员

这就是AI对您的看法，对您的了解May 09, 2025 am 11:24 AM

许多人认为与AI的互动是匿名的，与人类交流形成了鲜明的对比。但是，AI在每次聊天期间都会积极介绍用户。每个单词的每个提示都经过分析和分类。让我们探索AI Revo的这一关键方面

建立蓬勃发展的AI-Ready企业文化的7个步骤May 09, 2025 am 11:23 AM

成功的人工智能战略，离不开强大的企业文化支撑。正如彼得·德鲁克所言，企业运作依赖于人，人工智能的成功也同样如此。对于积极拥抱人工智能的组织而言，构建适应AI的企业文化至关重要，它甚至决定着AI战略的成败。西蒙诺咨询公司（West Monroe）近期发布了构建蓬勃发展的AI友好型企业文化的实用指南，以下是一些关键要点： 1. 明确AI的成功模式：首先，要对AI如何赋能业务有清晰的愿景。理想的AI运作文化，能够实现人与AI系统之间工作流程的自然融合。AI擅长某些任务，而人类则擅长创造力、判

Netflix New Scroll，Meta AI的游戏规则改变者，Neuralink价值85亿美元May 09, 2025 am 11:22 AM

Meta升级AI助手应用，可穿戴式AI时代来临！这款旨在与ChatGPT竞争的应用，提供文本、语音交互、图像生成和网络搜索等标准AI功能，但现在首次增加了地理位置功能。这意味着Meta AI在回答你的问题时，知道你的位置和正在查看的内容。它利用你的兴趣、位置、个人资料和活动信息，提供最新的情境信息，这在以前是无法实现的。该应用还支持实时翻译，这彻底改变了Ray-Ban眼镜上的AI体验，使其实用性大大提升。对外国电影征收关税是对媒体和文化的赤裸裸的权力行使。如果实施，这将加速向AI和虚拟制作的

今天采取这些步骤以保护自己免受AI网络犯罪的侵害May 09, 2025 am 11:19 AM

人工智能正在彻底改变网络犯罪领域，这迫使我们必须学习新的防御技巧。网络罪犯日益利用深度伪造和智能网络攻击等强大的人工智能技术进行欺诈和破坏，其规模前所未有。据报道，87%的全球企业在过去一年中都成为人工智能网络犯罪的目标。那么，我们该如何避免成为这波智能犯罪的受害者呢？让我们探讨如何在个人和组织层面识别风险并采取防护措施。网络罪犯如何利用人工智能随着技术的进步，犯罪分子不断寻找新的方法来攻击个人、企业和政府。人工智能的广泛应用可能是最新的一个方面，但其潜在危害是前所未有的。特别是，人工智