7B 大小的模型也能玩 AI Agents 了?近期,快手開源了「KwaiAgents」,問它週末滑雪問題,它不但幫你找到場地,連當天的天氣都幫你考慮周到了。
大家都知道,大語言模型(LLM)透過對語言的建模掌握了大量知識,並具備一定的認知和推理能力。然而,即使是目前最強的GPT-4,單獨使用時仍然會產生虛假的內容,無法與世界進行即時互動。 AI Agents 是解決這個問題的一種途徑,透過激發大模型的任務規劃、反思和調用工具等能力,使大模型能夠借助現實世界的工具提高生成內容的準確性,甚至具備解決複雜問題的能力。這次,快手與哈爾濱工業大學合作研發的「KwaiAgents」,使7B/13B的「小」大模型能夠超越GPT-3.5的效果,並且這些系統、模型、數據和評測都是開源的!
#在「KwaiAgents」的Github主頁上可以找到以下內容:
KAgentSys系統的主要組成部分包括基於大型模型的認知核心、記憶機制和工具庫,以實現迭代式自動化
KAgentSys 的一些功能將逐步升級和開放,這是本次開源的內容
##模型
Meta-Agent Tuning (MAT) 分為兩個階段:
# KAgentBench 通过人工精细化标注的上千条数据,做到了开箱即用,让大家能够用一行命令评测一个大模型在不同模板下各方面的 Agents 能力。 在KAgentBench中,根据上图所示,我们会对不同种类的能力进行输入构造。每个查询都配备有多个模板和多个经过人工编辑的真实回答。这样做的目的是为了综合评估准确性和泛化性。经过MAT调优后,下表显示了7B-13B模型在各个能力方面的提升,并且超过了GPT-3.5的效果 该研究还进行了交叉评估,邀请了人类标注者对200个事实性和时效性问题进行标注,例如“刘德华今年几岁了”。结果显示,KAgentSys系统和MAT之后的模型显著提升(正确率以百分比表示,括号中为5分制的平均得分)
对于一些长尾问题和热门问题,通常仅依赖网页搜索的结果并不理想。例如,如果询问“安东内拉比梅西大多少天?”这样的长尾问题,通常搜索结果会返回一些关于他们的八卦新闻,而无法提供关键信息。而KAgentSys则通过调用百科搜索工具获取精确的出生日期,再利用时间差工具计算年龄差,从而能够精确回答这个问题 团队表示,AI Agents 是一条非常有潜力的道路。未来,我们将持之以恒地沉淀核心技术,并为整个社区不断注入新的活力。同时,我们也将积极探索 Agents 技术与快手业务的结合,尝试更多有趣、有价值的创新应用落地
评测
以上是快手開源了Agents系統、模型和資料!的詳細內容。更多資訊請關注PHP中文網其他相關文章!