首頁  >  文章  >  科技週邊  >  商湯商量取得SuperCLUE9月評測總榜子榜雙第一,AI智能體方向受矚目

商湯商量取得SuperCLUE9月評測總榜子榜雙第一,AI智能體方向受矚目

PHPz
PHPz轉載
2023-10-13 17:49:01684瀏覽

最近,SuperCLUE發布了9月份的總排行榜和各個分類任務榜單,商湯的SenseChat 3.0在中文大模型總榜中排名第一。在新增的AI Agent(AI智能體)子榜中,SenseChat 3.0同樣位居第一,超過了所有國內中文大模型以及GPT-3.5和Claude 2,僅次於GPT-4的表現。這展示了商湯在大模型領域創新發展和釋放生產力的優勢,以及在探索AGI道路上的累積和潛力

商湯商量取得SuperCLUE9月評測總榜子榜雙第一,AI智能體方向受矚目

註:國外代表性模型(GPT4.0/Claude2/gpt-3.5)不參與排名。

SuperCLUE是中文通用大模型的綜合性評測基準,旨在對大模型在各個能力維度上的表現進行全方位的評估,是國內最具專業性和代表性的中文大模型評測基準之一。此評測選取了目前國內外最具代表性的20個通用大語言模式

商量總榜第一,客觀題成績超GPT-3.5

最新發布的SuperCLUE總排行榜和各個分類任務榜單,主要關注大模型的四個能力像限,分別是語言理解與生成,包括語言理解與抽取、上下文對、生成與創作、角色扮演;專業技能與知識,包括知識與百科全書、運算、程式碼、邏輯與推理;Agent智能體,包括工具使用、任務規劃;安全性,包括系統安全、指令攻擊,共12項基礎能力

商湯科技的SenseChat 3.0在總排行榜中以62.75分的總分位居第一,其中在OPT客觀題部分,SenseChat 3.0的得分甚至超過了GPT-3.5,展示了在中文大模型方面極強的綜合競爭力

商湯商量SenseChat於2023年4月正式推出,是國內最早的以千億參數大語言模型為基礎之一,並持續迭代更新。背後依託的是商湯AI大裝置SenseCore,目前上線GPU數量約30,000塊,算力規模提升至6 ExaFLOPS,有效支援語言大模型的訓練、升級迭代與服務。

加速推動人工智慧智能體的發展,加速邁向強人工智慧

#隨著大模型發展,「聊天」已遠遠無法滿足人們的要求,能夠準確地使用工具成為解放大模型生產力的關鍵。 SuperCLUE新增的AI Agent(AI智能體)子榜,是業界首個AI Agent榜單,它重點評估了AI Agent在「工具使用」和「任務規劃」兩個關鍵能力上的表現。評測顯示商湯商量SenseChat 3.0具備作為人類超級助手的潛力,可以根據人類需求自主完成任務,進而充分釋放大模型的生產力,使其在AI Agent 榜單上表現僅次於GPT-4,全面領先其餘參評大模型。

商湯商量取得SuperCLUE9月評測總榜子榜雙第一,AI智能體方向受矚目

目前全球領先的AI 智能體,幾乎都以領先大模型GPT-4為核心驅動,它們借助強大的工具使用能力等,可將複雜問題拆解成可實現的子任務、類人的自然語言互動等能力。商量SenseChat 3.0作為領先的中文大模型,透過使用代碼解釋器、API調用和搜尋三類常用工具來解決複雜任務,靈活建構AI智能體應用,支撐企業的生產力革新。

目前,商湯科技已經與金融、手機、醫療、汽車、房地產、能源、媒體、工業製造等多個垂直行業的500多家客戶建立了緊密合作關係。商湯SenseChat作為一個功能強大的大型模型,不斷快速提升,為商湯科技發展更強大、能夠像人類一樣進行交互的人工智能智能體,以及朝著通往人工通用智能的道路進行探索,提供了重要的基礎和支持

以上是商湯商量取得SuperCLUE9月評測總榜子榜雙第一,AI智能體方向受矚目的詳細內容。更多資訊請關注PHP中文網其他相關文章!

陳述:
本文轉載於:sohu.com。如有侵權,請聯絡admin@php.cn刪除