首頁  >  文章  >  科技週邊  >  快手開源了Agents系統、模型和資料!

快手開源了Agents系統、模型和資料!

WBOY
WBOY轉載
2024-01-09 11:25:571097瀏覽

7B 大小的模型也能玩 AI Agents 了?近期,快手開源了「KwaiAgents」,問它週末滑雪問題,它不但幫你找到場地,連當天的天氣都幫你考慮周到了。

快手開源了Agents系統、模型和資料!

大家都知道,大語言模型(LLM)透過對語言的建模掌握了大量知識,並具備一定的認知和推理能力。然而,即使是目前最強的GPT-4,單獨使用時仍然會產生虛假的內容,無法與世界進行即時互動。 AI Agents 是解決這個問題的一種途徑,透過激發大模型的任務規劃、反思和調用工具等能力,使大模型能夠借助現實世界的工具提高生成內容的準確性,甚至具備解決複雜問題的能力。這次,快手與哈爾濱工業大學合作研發的「KwaiAgents」,使7B/13B的「小」大模型能夠超越GPT-3.5的效果,並且這些系統、模型、數據和評測都是開源的!

快手開源了Agents系統、模型和資料!

快手開源了Agents系統、模型和資料!


  • #技術報告:https: //arxiv.org/abs/2312.04889
  • 計畫首頁:https://github.com/KwaiKEG/KwaiAgents

#在「KwaiAgents」的Github主頁上可以找到以下內容:

  1. ##系統(KAgentSys-Lite):輕量級AI Agents 系統,並配備事實、時效性工具集;
  2. 模型(KAgentLMs):Meta-Agent Tuning 後,具有Agents 通用能力的系列大模型及其訓練資料;
  3. 評測(KAgentBench):開箱即用的Agent 能力自動化評測Benchmark 與人工評測結果。

快手開源了Agents系統、模型和資料!

系統

KAgentSys系統的主要組成部分包括基於大型模型的認知核心、記憶機制和工具庫,以實現迭代式自動化

  1. #記憶機制:包含知識庫、對話、任務歷史三類記憶,依托於混合向量檢索、關鍵字檢索等技術的檢索框架,在每一次規劃路徑中檢索所需的資訊。
  2. 工具集:包含事實性增強工具集,異質的搜尋和瀏覽機制能夠匯集網頁、文字百科、影片百科等多個來源的知識;包含行事曆、節慶、時間差、天氣等常見的時效性增強工具組。
  3. 自動化Loop:在一輪對話中,使用者會給予一個問題,可選知識庫及額外人設整體進行輸入,系統會先進行記憶的更新與檢索,再呼叫大模型進行任務的規劃,如果需要調用工具則進行調用,如果不用則進入總結階段,大模型綜合歷史的資訊給出符合預期的回答。

KAgentSys 的一些功能將逐步升級和開放,這是本次開源的內容

##模型

為了避免訓練中單一模板引起的過度擬合問題,團隊提出Meta-Agent Tuning (MAT) 的方法,透過在訓練資料中引入更多Agent Prompt 模板,從而提升大模型在Agent 能力上的通用性,並提升了效果。

快手開源了Agents系統、模型和資料!

Meta-Agent Tuning (MAT) 分為兩個階段:

#

  1. 模板生成阶段:通过设计 Meta-Agent,对特定问题集合,生成实例化的 Agent Prompt 模板(上右图为一个例子)候选;并在相同的实验环境下,生成模板产出的候选结果,与开源模板(如 ReAct,AutoGPT 等)产出的高置信结果,用打分模型进行对比打分,从而筛选出高质量的 Agent Prompt 模板库。通过引入这些多元的模板,能够显著降低模型微调时对模板的依赖,提纯更本质的 Agents 在任务规划、工具使用、反思等能力,从而提高模型的泛化性和有效性。
  2. 指令微调阶段:基于上万的模板,构建了超过 20 万的 Agent 调优指令微调数据。团队调优了一些热门开源模型如 Qwen-7B、Baichuan2-13B 等,供大家使用和参考,后续还会陆续放出其他热门模型。

评测

KAgentBench 通过人工精细化标注的上千条数据,做到了开箱即用,让大家能够用一行命令评测一个大模型在不同模板下各方面的 Agents 能力。

快手開源了Agents系統、模型和資料!

在KAgentBench中,根据上图所示,我们会对不同种类的能力进行输入构造。每个查询都配备有多个模板和多个经过人工编辑的真实回答。这样做的目的是为了综合评估准确性和泛化性。经过MAT调优后,下表显示了7B-13B模型在各个能力方面的提升,并且超过了GPT-3.5的效果

快手開源了Agents系統、模型和資料!

该研究还进行了交叉评估,邀请了人类标注者对200个事实性和时效性问题进行标注,例如“刘德华今年几岁了”。结果显示,KAgentSys系统和MAT之后的模型显著提升(正确率以百分比表示,括号中为5分制的平均得分)

快手開源了Agents系統、模型和資料!

快手開源了Agents系統、模型和資料!

对于一些长尾问题和热门问题,通常仅依赖网页搜索的结果并不理想。例如,如果询问“安东内拉比梅西大多少天?”这样的长尾问题,通常搜索结果会返回一些关于他们的八卦新闻,而无法提供关键信息。而KAgentSys则通过调用百科搜索工具获取精确的出生日期,再利用时间差工具计算年龄差,从而能够精确回答这个问题

团队表示,AI Agents 是一条非常有潜力的道路。未来,我们将持之以恒地沉淀核心技术,并为整个社区不断注入新的活力。同时,我们也将积极探索 Agents 技术与快手业务的结合,尝试更多有趣、有价值的创新应用落地

以上是快手開源了Agents系統、模型和資料!的詳細內容。更多資訊請關注PHP中文網其他相關文章!

陳述:
本文轉載於:51cto.com。如有侵權,請聯絡admin@php.cn刪除