2022 年 12 月,ChatGPT 横空出世。OpenAI 用一个核弹级的成果改变了科学研究和工程应用的范式。在中国,ChatGPT 受到了广泛的关注与深刻的讨论。在过去的一个月里,我走访各大高校,研究院,大厂,创业公司,风投;从北京到上海到杭州到深圳,跟所有头部的玩家们全部聊了一遍。The Game of Scale 在中国已然拉开,风暴中心的玩家们,在已知国内技术和生态与世界前沿的巨大鸿沟下,如何做成这件事?谁能做成这件事?
秦失其鹿,天下共逐之。 ——— 《史记・淮阴侯列传》
我每接触到一个创业公司,都会问同一个问题:“ChatGPT 在那里,你们想做什么?” 我大概能收到三种不同的答案。第一个答案很明确,要做中国的 ChatGPT。
1.1 做中国的 ChatGPT
因为它就在那里,所以想要复现,想要国产化。这是很经典的产品导向中文互联网思维。这种思路也是过去二十年,中文互联网常见的商业模式:首先硅谷做出来一个东西,然后我们把它抄过来。
但这里的问题是,首先,ChatGPT 可不像打车软件,复现难度完全不可同日而语。光从人的角度看,GPT 的产生,是这个世界上最顶尖的科学家和工程师们从 2015 年开始就不断研究的结果。OpenAI 的首席科学家, Ilya Sutskever[1],深刻地相信 AGI 一定能实现。作为图灵奖得主 Geoffery Hinton 的大弟子,从 2007 年就开始研究深度学习。他的 citation 有 37 万,发过的文章精准踩中了过去十年 Deep Learning 的所有关键节点。即使是如此强大的团队,从 GPT 2 到 GPT 3.5 也花了四年的时间,它的科学与工程的难度可想而知。
同时,初代 ChatGPT,是 OpenAI 在 GPT 3.5 的基础模型上,花了两星期时间对着 dialog 做 finetuning 之后随手扔出来的 demo。这里真正强的并不是 ChatGPT 这一个产品,而是底下的 GPT 3.5 基础模型。这个模型还在不断地演化,GPT 3.5 系列在 2022 年更新了三个大版本[2],每个大版本都显著强于前一个版本;同样地,ChatGPT 发布两个月一共更新了四个小版本[3],每个小版本都在单个的维度上比前一个版本有着明显的改进。OpenAI 的所有模型都在持续不断的演化,随时间推移越来越强。
这也就意味着,如果只盯着当前 ChatGPT 这一个产品看,无异于刻舟求剑。当 ChatGPT 出现的时候,它对已有的语音助手们形成了降维打击;如果看不到基础模型的演化,即使花个一两年辛辛苦苦做出一个类似的东西,那时候 OpenAI 的基础模型也在继续变强,如果他们接着产品化,以新的更强的基础模型 finetune 到一个更强的产品,难道要再被降维打击一次吗?
刻舟求剑的做法是行不通的。
1.2 做中国的 OpenAI
第二种答案是,要做中国的 OpenAI。给出这个答案的玩家,跳出了经典中文互联网产品思维。他们不止看到单个产品,而且还看到了这个产品背后,基础模型不断演化的强大驱动力,来源于尖端人才的密度和先进的组织架构。
所以,如果要做这件事情,不只要看到产品,还要看到它背后的人才团队和组织架构;按稀缺程度排名的话,人 >> 卡 >> 钱。
但这里的问题是,不同的土壤对创新的鼓励程度是不一样的。在 OpenAI 刚创立的 2015 年,它的投资者们都相信 AGI ,即使当时看不到什么盈利的点。现在 GPT 做出来了,国内的投资者们也都信了 AGI,但相信的点或许也不一样:到底是信 AGI 能挣钱,还是信 AGI 能推动人类发展?
更进一步地,即使 OpenAI 就产生在这里,明天就出现,但他们跟微软达成的 deal,能否跟国内的云计算厂商达成呢?大模型的训练和推理都需要极大的成本,需要一个云计算引擎作为支撑。微软可以倾尽所有,让整个 Azure 给 OpenAI 打下手[4],这个换到国内,阿里云有可能给一个创业公司打下手吗?
组织架构很重要,只有尖端的人才和先进的组织架构才能推动智能的不断迭代与进化;但它同样需要跟所在的土壤做适配,寻找可以 flourish 的方法。
1.3 探索智能的极限
第三种答案是,要探索智能的极限。这是我听到的最好的答案。它远超刻舟求剑式的经典互联网产品思维,也看到了组织架构和尖端人才密度的重要性,并且更重要地是它看到了未来,看到了模型演化与产品迭代,思考着如何把最深刻,最困难的问题用最创新的方法来解决。
这就涉及到了思考大模型的极限思维。
观察现在的 ChatGPT / GPT-3.5 ,它明显是一个中间状态,它还有很多显著可以加强,并且马上就能加强的点,包括:
以上四点只是现阶段可以看到的,马上就可以加强但暂时还没有加强的点,随着时间的推移和模型的演化,会有更多可以被 scale 的维度进一步体现出来。这意味着我们需要有极限的思维,思考当我们把能够拉满的维度全部拉满的时候,模型会是什么样子。
2.1 能够拉满全部拉满
模型的输入框可以接着加长,模型的大小可以继续增大,模型的数据可以继续增多,多模态的数据可以融合,模型的专业化程度可以继续增高,所有这些维度可以继续往上拉,模型还没有到极限。极限是一个过程,在这个过程中模型的能力会怎样发展呢?
所以,在极限思维下,把所有能拉满的维度全部拉满,模型注定会越来越强,出现越来越多的涌现能力。
2.2 反推中间过程
在思考清楚极限的过程之后,就可以从极限状态往后反推中间过程。比如说,如果我们希望增长输入框的大小:
以这种方式,我们可以反推不同阶段的 scaling 需要怎样的技术。以上分析不止适用于输入框的长度,也适用于其他因素的 scaling 的过程。
这样的话,我们可以得到清晰的从现阶段的技术到 scaling 的极限的每个中间阶段的技术路线图。
2.3 按模型演化进程产品化
模型在不断演化,但产品化不需要等到最终那个模型完成 — 每当模型迭代出来一个大的版本,都可以产品化。以 OpenAI 的产品化过程为例:
可以看到,在中间阶段的每一个重要版本,模型的能力都会增强,都存在产品化的机会。
更加重要的是,按照模型演化进程产品化,可以在产品化的阶段适配市场。学习 OpenAI 的组织架构来推进模型演化本身,但产品化可以按照本土市场的特征来。这种方式或许可以既学到 OpenAI 的先进经验,又避免水土不服的问题。
到目前为止,我们讨论了要用模型演化的视角来分析模型,要用极限的思维讨论模型的演化历程。现阶段马上可以加强的点包括了输入框的长度,更大的模型和数据,多模态数据,和模型的专业化程度。现在让我们再把视野放得更长期些,思考在更大的时间和空间中,模型如何进一步地往极限推。我们讨论:
从这些角度来说,人工智能超过人类并不是一件难以想象的事情。这就引发了下一个问题:如何驾驭远超人类的强人工智能?
这个问题,是 Alignment 这项技术真正想要解决的问题。
当前阶段,模型的能力,除了 AlphaGo 在围棋上超过了最强人类之外,其他方面的 AI 并没有超过最强的人类(但 ChatGPT 在文科上或许已经超过了 95% 的人类,且它还在继续增长)。在模型还没超过人类的时候,Alignment 的任务是让模型符合人类的价值观和期望;但当模型继续演化到超过人类之后,Alignment 的任务就变成了寻找驾驭远超人类的智能体的方法。
4.1 Alignment 作为驾驭远超人类的智能体的方法
一个显然的问题是,当 AI 超过人类之后,还可以通过人类反馈让 ta 更强 / 更受约束吗?是不是这个时候就已经管不了了?
不一定,即使模型远超人类,我们依然又可能驾驭 ta,这里的一个例子是运动员和教练之间的关系:金牌运动员在 ta 的方向上已经是最强的人类了,但这并不意味着教练就不能训练 ta。相反,即使教练不如运动员,ta 依然可以通过各种反馈机制让运动员变得更强且更有纪律。
类似地,人类和强人工智能的关系,在 AI 发展的中后期,可能会变成运动员和教练之间的关系。这个时候,人类需要的能力并不是完成一个目标,而是设定一个好的目标,然后衡量机器是否足够好地完成了这个目标,并给出改进意见。
这个方向的研究还非常初步,这个新学科的名字,叫 Scalable Oversight[15].
4.2 Alignment 与组织架构
在通往强人工智能的路上,不只是需要人类与 AI 对齐,人类与人类,也需要高度的对齐。从组织架构的角度,alignment 涉及到:
在 2017 年,我刚刚入行 NLP 的时候,花了很大的力气做可控生成这件事情。那个时候所谓的 text style transfer 最多就是把句子情感分类改一改,把 good 改成 bad 就算是完成了 transfer。2018 年我花了大量的时间研究如何让模型从句子结构的角度修改句子的风格,一度误认为风格转换是几乎不可能完成的事情。而今 ChatGPT 做风格转换简直信手拈来。那些曾经看似不可能完成的任务,曾经极其困难的事情,今天大语言模型非常轻松地就能完成。在 2022 年一整年,我追踪了从 GPT-3 到 GPT-3.5 的全部版本迭代[11],亲眼看到它一步步地从弱到强不断演化。这个演化速度并没有变慢,反而正在加快。那些原先看来科幻的事情,现在已经成为现实。谁会知道未来会怎样呢?
彼黍离离,彼稷之苗。行迈靡靡,中心摇摇。
彼黍离离,彼稷之穗。行迈靡靡,中心如醉。
——— 《诗经・黍离》
以上是谁能做出中国版ChatGPT?怎么做?的详细内容。更多信息请关注PHP中文网其他相关文章!