7B 大小的模型也能玩 AI Agents 了?近期,快手開源了「KwaiAgents」,問它週末滑雪問題,它不但幫你找到場地,連當天的天氣都幫你考慮周到了。
大家都知道,大語言模型(LLM)透過對語言的建模掌握了大量知識,並具備一定的認知和推理能力。然而,即使是目前最強的GPT-4,單獨使用時仍然會產生虛假的內容,無法與世界進行即時互動。 AI Agents 是解決這個問題的一種途徑,透過激發大模型的任務規劃、反思和調用工具等能力,使大模型能夠借助現實世界的工具提高生成內容的準確性,甚至具備解決複雜問題的能力。這次,快手與哈爾濱工業大學合作研發的「KwaiAgents」,使7B/13B的「小」大模型能夠超越GPT-3.5的效果,並且這些系統、模型、數據和評測都是開源的!
- #技術報告:https: //arxiv.org/abs/2312.04889
- 計畫首頁:https://github.com/KwaiKEG/KwaiAgents
#在「KwaiAgents」的Github主頁上可以找到以下內容:
- ##系統(KAgentSys-Lite):輕量級AI Agents 系統,並配備事實、時效性工具集;
- 模型(KAgentLMs):Meta-Agent Tuning 後,具有Agents 通用能力的系列大模型及其訓練資料;
- 評測(KAgentBench):開箱即用的Agent 能力自動化評測Benchmark 與人工評測結果。
系統
KAgentSys系統的主要組成部分包括基於大型模型的認知核心、記憶機制和工具庫,以實現迭代式自動化
- #記憶機制:包含知識庫、對話、任務歷史三類記憶,依托於混合向量檢索、關鍵字檢索等技術的檢索框架,在每一次規劃路徑中檢索所需的資訊。
- 工具集:包含事實性增強工具集,異質的搜尋和瀏覽機制能夠匯集網頁、文字百科、影片百科等多個來源的知識;包含行事曆、節慶、時間差、天氣等常見的時效性增強工具組。
- 自動化Loop:在一輪對話中,使用者會給予一個問題,可選知識庫及額外人設整體進行輸入,系統會先進行記憶的更新與檢索,再呼叫大模型進行任務的規劃,如果需要調用工具則進行調用,如果不用則進入總結階段,大模型綜合歷史的資訊給出符合預期的回答。
KAgentSys 的一些功能將逐步升級和開放,這是本次開源的內容
##模型為了避免訓練中單一模板引起的過度擬合問題,團隊提出Meta-Agent Tuning (MAT) 的方法,透過在訓練資料中引入更多Agent Prompt 模板,從而提升大模型在Agent 能力上的通用性,並提升了效果。
# KAgentBench 通过人工精细化标注的上千条数据,做到了开箱即用,让大家能够用一行命令评测一个大模型在不同模板下各方面的 Agents 能力。 在KAgentBench中,根据上图所示,我们会对不同种类的能力进行输入构造。每个查询都配备有多个模板和多个经过人工编辑的真实回答。这样做的目的是为了综合评估准确性和泛化性。经过MAT调优后,下表显示了7B-13B模型在各个能力方面的提升,并且超过了GPT-3.5的效果 该研究还进行了交叉评估,邀请了人类标注者对200个事实性和时效性问题进行标注,例如“刘德华今年几岁了”。结果显示,KAgentSys系统和MAT之后的模型显著提升(正确率以百分比表示,括号中为5分制的平均得分) 对于一些长尾问题和热门问题,通常仅依赖网页搜索的结果并不理想。例如,如果询问“安东内拉比梅西大多少天?”这样的长尾问题,通常搜索结果会返回一些关于他们的八卦新闻,而无法提供关键信息。而KAgentSys则通过调用百科搜索工具获取精确的出生日期,再利用时间差工具计算年龄差,从而能够精确回答这个问题 团队表示,AI Agents 是一条非常有潜力的道路。未来,我们将持之以恒地沉淀核心技术,并为整个社区不断注入新的活力。同时,我们也将积极探索 Agents 技术与快手业务的结合,尝试更多有趣、有价值的创新应用落地
评测
以上是快手開源了Agents系統、模型和資料!的詳細內容。更多資訊請關注PHP中文網其他相關文章!

用Microsoft Power BI圖來利用數據可視化的功能 在當今數據驅動的世界中,有效地將復雜信息傳達給非技術觀眾至關重要。 數據可視化橋接此差距,轉換原始數據i

專家系統:深入研究AI的決策能力 想像一下,從醫療診斷到財務計劃,都可以訪問任何事情的專家建議。 這就是人工智能專家系統的力量。 這些系統模仿Pro

首先,很明顯,這種情況正在迅速發生。各種公司都在談論AI目前撰寫的代碼的比例,並且這些代碼的比例正在迅速地增加。已經有很多工作流離失所

從數字營銷到社交媒體的所有創意領域,電影業都站在技術十字路口。隨著人工智能開始重塑視覺講故事的各個方面並改變娛樂的景觀

ISRO的免費AI/ML在線課程:通向地理空間技術創新的門戶 印度太空研究組織(ISRO)通過其印度遙感研究所(IIR)為學生和專業人士提供了絕佳的機會

本地搜索算法:綜合指南 規劃大規模活動需要有效的工作量分佈。 當傳統方法失敗時,本地搜索算法提供了強大的解決方案。 本文探討了爬山和模擬

該版本包括三種不同的型號,GPT-4.1,GPT-4.1 MINI和GPT-4.1 NANO,標誌著向大語言模型景觀內的特定任務優化邁進。這些模型並未立即替換諸如

Chip Giant Nvidia週一表示,它將開始製造AI超級計算機(可以處理大量數據並運行複雜算法的機器),完全是在美國首次在美國境內。這一消息是在特朗普總統SI之後發布的


熱AI工具

Undresser.AI Undress
人工智慧驅動的應用程序,用於創建逼真的裸體照片

AI Clothes Remover
用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool
免費脫衣圖片

Clothoff.io
AI脫衣器

AI Hentai Generator
免費產生 AI 無盡。

熱門文章

熱工具

VSCode Windows 64位元 下載
微軟推出的免費、功能強大的一款IDE編輯器

DVWA
Damn Vulnerable Web App (DVWA) 是一個PHP/MySQL的Web應用程序,非常容易受到攻擊。它的主要目標是成為安全專業人員在合法環境中測試自己的技能和工具的輔助工具,幫助Web開發人員更好地理解保護網路應用程式的過程,並幫助教師/學生在課堂環境中教授/學習Web應用程式安全性。 DVWA的目標是透過簡單直接的介面練習一些最常見的Web漏洞,難度各不相同。請注意,該軟體中

SublimeText3 Linux新版
SublimeText3 Linux最新版

Dreamweaver CS6
視覺化網頁開發工具

MantisBT
Mantis是一個易於部署的基於Web的缺陷追蹤工具,用於幫助產品缺陷追蹤。它需要PHP、MySQL和一個Web伺服器。請查看我們的演示和託管服務。