在今年大型模型的爆发之后,目前的人工智能技术仍处于第二代系统阶段,并尚未达到人工通用智能(AGI)的水平。不过,在一些领域中,已经可以利用AI Agent进行处理。作为典型的B端方向应用,如何设计符合业务需求的AI Agent呢?
随着人工智能的迅猛发展,各种先进的大型模型、产品和工具层出不穷。作为一名B端产品经理,我们需要积极 embrace 这种变革的人工智能技术,并将其应用于我们自身的业务,以确保企业的效率不会落后于行业的发展
一般来说,如果企业没有自主研发大型模型,就需要依赖第三方的大型模型能力来开发AI能力,从而构建适用于企业自身的AI产品或工具。
如下图所示,常见的大型模型方向包括自然语言处理(NLP)、多模态(multimodal)和语音识别。大型模型厂商基于特定方向的能力进行AI训练,从而使得AI能够在某些领域上替代人类进行“可重复的”和“可标准化的”任务。
图片引用于开放隐私计算的《百模大战!AI大模型你更看好哪一家?》
为了确定我们业务所需的AI能力,我们需要对相应的AI模型进行调研,并评估大型模型的输出能力。我们可以从召回率、准确率、安全性、可解释性、稳定性、成本和发展潜力等多个维度对大型模型进行评估,以最终选择适合我们需求的大型模型。关于这一主题,我在之前的文章中有详细介绍如何选择适合自己的大型模型。
然而,当前的AI技术仍处于第二代系统阶段,尚未达到AGI水平。目前可接入的大型模型仍存在一些问题,主要包括以下几个方面:
1. AI幻觉:
AI幻觉是指人工智能在知识记忆、理解能力、训练方式和模型技术等方面存在的限制,导致其在输出结果时表现不准确或不可靠。常见的问题包括数据偏见和解释性差
由于AI幻觉的存在,即使我们期望AI能够稳定输出可靠的解决方案,仍然会有一定比例的错误答案产生。例如,如果AI在某个领域的准确率为50%,那么在50个答案中会有25个错误答案。对于需要高精确度的业务来说,AI无法直接应用。
2. 合规问题的答案
AI的本质是基于统计学的结果预测,缺乏明确的是非判断能力。因此,在涉及道德、法律等问题时,AI无法进行准确的判断或区分,可能对企业带来负面影响
3. 不够原生:
当前,人工智能的交互方式主要是通过输入-输出进行的。用户输入内容,人工智能输出结果。然而,这个过程并不适合所有业务人员的使用习惯
以翻译场景为例,翻译人员的业务流程通常包括以下几个步骤:
然而,如果要使用AI进行翻译,以节省人力成本,直接使用大型语言模型的对话输入交互方式会带来以下问题:
1)中断现有的工作流程,难以培养使用习惯:
使用大型语言模型的对话窗口会打断原有翻译工作的业务流程。原本只需要在翻译工具或文档上完成工作,加入大型模型对话后,每个翻译文本都需要在输入框上进行输入交互。
2)操作成本增加的上限问题:
大型语言模型存在对话长度的限制,如果翻译内容量很大,就需要分批次进行交互,这会增加人力成本。
3)满足特殊翻译需求的操作成本增加:
如果存在特定的翻译需求,比如术语翻译或指定翻译风格,每次都需要进行交互,这进一步占用人力。
以上问题导致AI无法有效提高业务的翻译效率。由于操作繁琐,用户很难形成使用习惯,他们往往会下意识地认为直接自己翻译比使用AI更好,因此替换成本较高。
此外,AI翻译存在幻觉问题,无法提供超出预期的用户体验。
由此,【(新体验-旧体验)-替换成本】 并没有大于0,直接使用 AI 的原生的交互方式并不能有效地提高业务率,因此需要一些更 native 的方式。
一、什么是AI Agent
鉴于目前人工智能面临的挑战,我们需要思考如何在B端建设我们自己的应用。其中一种可行的方式是尝试构建专为业务定制的AI Agent
所谓AI Agent,又称人工智能代理,是指能够理解、学习和执行任务的自动化程序。可以将其比喻为”将AI视为实习生,让其承担琐事,而我们则负责指导这位实习生,确保其产出符合预期的结果”。
与大型模型不同,AI Agent的交互方式并不仅限于与人进行提示。它是一个系统,基于特定的工作目标,并输出符合需求的结果。AI Agent的核心是一个大型模型,同时还包括感知模块、计划模块和行动模块的扩展
那么怎么设计符合业务需求的 AI Agent ?
1. 找到合适的业务场景
首先,我们需要确定适合AI Agent 的场景,通过模拟数据输入和收集输出结果的方式来评估所选场景的适宜程度。在判断输出结果的同时,需要考察是否符合预期。若结果不符合预期,则需要评估误差的严重程度,以及准确率和召回率是否存在改进空间。若存在改进空间,可以通过优化提示词,或者通过引入感知、行动和规划模块的构建,使得AI符合我们的场景需求。
2. 梳理输入和输出预期
我们需要明确对于AI Agent的’目标’和’要求’,以确定我们输入什么,Agent需要输出什么。
基于这些’目标’和’要求’,我们应该思考如何选择合适的输入输出方式来满足业务需求并为业务赋能。这将有助于我们设计后续的输出流程,并在设计验证阶段进行评估,以确定是否符合要求。
3. 梳理输出流程
当我们面临复杂的输出要求时,需要设计多个AI会话流程,以使各个AI之间相互协作,最终实现符合要求的输出结果。例如,在文本分类场景中,我们可以首先使用3.5版本的大模型进行准确的一级分类,以满足需求。
由于4.0版本的成本是3.5版本的几十倍,而3.5版本在一级分类上已经足够使用,因此可以选择使用3.5版本以节省成本。接着,我们可以使用4.0版本进行二级分类,以获得更好的分类效果,确保我们输出所需的内容。
在设计流程时,需要考虑以下几个因素:
在综合考虑成本和效果的因素后,我们最终确定了一个适合的方案
4. 输出检验机制
为了避免AI输出结果中存在误导性内容对业务产生影响,我们需要建立一套有效的验证机制。常见的验证方法包括词库匹配、正则表达式匹配和人工检验。通过使用词库或人工方式拦截具有误导性的内容。此外,我们还可以构建质检Agent,让AI自身对输出进行质检,以过滤出存在问题的内容,提高误导性内容的检测率。
5. 幻觉兜底方案
幻觉的产生是无法完全根除的现象。为了避免对业务造成不良影响,我们需要制定兜底方案,例如:
1)人工检验:在AI输出传递给用户之前,引入人工检验环节。只有在人工检验通过后,才将结果输出给用户。这样一来,我们能够完美地防止AI幻觉对业务产生负面影响,并且还能够利用AI的输出结果提升效率。然而,这种方法需要人力审核,因此会增加一定的人力成本。
2)合理包装:考虑到我们是面向B端的AI应用,我们可以采用包装输出应用为“AI助手”等方式,直接向用户明确表示:“这里的输出结果由AI生成,仅供参考”。通过这种方式,我们能够让用户形成合理的心理预期,避免在出现幻觉输出时产生不良反应。
三、总结
基于以上思路,我们便可以构建B端的翻译Agent、数据分类Agent、智能客服Agent等等业务了,当然这仅仅是我个人的一些思考,欢迎大家交流讨论。
请给我投票
我在参加人人都是产品经理2023年度评选,希望喜欢我的文章的朋友都能来支持我一下~
点击下方链接进入我的个人参选页面,点击红心即可为我投票。
每人每天最多可投30票,投票即可获得抽奖机会,抽取书籍、人人都是产品经理纪念周边&起点课堂会员等好礼哦!
请点击以下链接进行投票:https://996.pm/7d9yE
专栏作家
柠檬饼干净又卫生,公众号:柠檬饼干净又卫生,人人都是产品经理专栏作家。一名游戏行业的B端产品,负责过游戏行业内CRM 、风控、BI、SDK、AI相关的内容,定期输出个人思考或总结文章~
本文原创发布于人人都是产品经理,未经许可,禁止转载
题图来自Unsplash,基于CC0协议
以上是AI Agent在企业级设计中的思考方式的详细内容。更多信息请关注PHP中文网其他相关文章!