超越Devin! SWEBench排行榜上迎來了新玩家-
StarShip CodeGen Agent,姚班帶隊新創公司OpenCSG出品,以23.67%的成績獲得全球第二名的成績。
同時創造了非GPT-4o基底模的最高紀錄(SOTA)。
我們都知道,SWebench評測高度貼近真實程式設計場景,難度極高,不僅要求模型能理解需求、協調多個函數/類別甚至檔案的變更,還要求模型與執行環境交互,處理超長上下文並執行傳統程式碼產生任務的複雜邏輯推理。
在這種高難度的真實測試中,業界最先進的GPT4和Devin,也只能解決1.74%和13.86%的問題。
這項成果是基於OpenCSG的推動語言模式朝向更實用、智慧和自主化方向發展的領先之舉。這項舉措標誌著國內公司在推動語言模型應用朝著更實用、智慧和自主化方向發展邁出了重要的一步。
2024年3月,首個AI軟體工程師Devin的橫空出世,引爆了整個科技界。雖然伴隨著一系列爭議,但Devin本身強大的創新能力和巨大的潛力,帶給許多AI愛好者和從業者新的期待。 Devin擁有深厚的技術功底和廣泛的知識儲備,他以出色的演算法和強大的程式設計能力聞名。他的研究成果和開發的軟體一直在不斷突破創新,為眾多AI愛好者和從業者帶
Devin並不僅僅能夠太輕鬆解決編碼任務,更可以自主完成軟體開發的整個週期— —從專案規劃到部署,涵蓋但不限於建立網站、自主搜尋並修復BUG、訓練以及微調AI模型等等。
為什麼Devin敢於挑戰GPT4等基礎模型的程式設計能力呢?
核心在於軟體工程師並不是只寫程式碼,更涉及需求理解、程式碼解讀、程式設計計畫、程式碼產生、調試與異常修復等等環節,這裡面的每個環節都會影響大模型編程的可用性和效果。
針對這類真實場景,普林斯頓大學提出了SWEBench,這是一種量化評估端到端程式碼產生能力的工具。
GPT-4在SWEBench上的評分僅有1.74%,即使加上RAG技術,評分也不到3%,這表明單純依靠基礎模型來直接解決現實世界中的程式設計問題是不可能做到的。
而Devin的技術創新是基於Agent建置工作流程,將SWEBench的解決率提升到了一個新高度。
3月份,Devin以獨立解決13.86%的問題解決率高居榜首,這直接將「大模型程式設計」從幾乎不可用的狀態提升到了「看到了曙光」。矽谷大廠和大模型新創公司紛紛闖入LLM for SE這個領域,這項紀錄連續改寫。
截止2024年4月底,最好的紀錄由Amazon AI團隊推出的 Amazon Q Developer Agent 創造的20.33%。
較為遺憾的是,相比於基礎模型榜單上中國公司的“百花齊放”,這項高難度的挑戰中國公司鮮少參與,直到這一次OpenCSG改寫了這一紀錄。
SWEBench最新評測結果更新,OpenCSG躍居榜單第二名,該公司推出的OpenCSG StarShip CodeGen Agent在Lite評測中取得了23.67%的通過率,這一成績不僅超過了Devin和Amazon的成績。
OpenCSG(開放傳神)成立僅一年,是致力於大模型生態社區建設,匯集人工智慧產業上下游企業鏈共同為大模型在垂直產業的應用提供解決方案和工具平台的公司。
團隊在開源及大模型複合經驗十分深厚-
CEO陳冉是開源軟體領域的知名創業家,曾成功打造過多家開源領域的商業公司。
CTO王偉來自清華05級姚班,在人工智慧領域有多年研發經驗。
公司核心研發團隊中也匯集了來自清華、北大、華頓、港科大等學府的精英學子。
那麼這樣一支團隊是如何打造出新的記錄的呢?
目前許多企業正在積極探索和實踐基礎模型、垂直領域模型及RAG等技術,而OpenCSG則選擇了專注的方向:致力於編程Agent的創新開發和大型模型演算法的深度最佳化.
Agent层面:不同于LLM+RAG或者通用Agent框架,OpenCSG StarShip CodeGen Agent针对软件研发领域高度定制优化Agent而设计:将研发各个阶段(需求理解、代码检索、编程计划、编写代码、循环验证等)通过LLM Agent实现,并结合软件工程方法,例如AST语法分析、依赖检索等进行深度优化的方式,在各个环节精益求精,最终整合实现了更高精度的代码生成。
算法层面:针对代码版本变更引起的API冲突等典型问题,OpenCSG提出了自适应教师模式,通过教师模型分析代码版本变更记录,生成高质量编程数据并用于改善基础模型的生成效果。根据评测这些创新带来的改进,显著优于当前的RAG模式,尤其是在API结构高频更新的热门项目场景中。这部分的相关成果已经形成论文投递到国际会议中。
正是这种算法+工程双管齐下、精益求精的模式,让OpenCSG CodeGen Agent能在一众模型中脱颖而出。
如果说CodeGen Agent的真实评测是牛刀小试,那么StarShip则是承载着OpenCSG的宏伟蓝图。
对于StarShip的产品定位,OpenCSG CEO陈冉表示:
StarShip承担着我们对于大模型重塑软件开发的愿景。用户通过StarShip内置的智能体(Agent)组建自己的数字员工团队。CodeGen Agent是平台内置的数字程序员,目前已经发布的还有CodeReview Agent代码评审员和CodeSearch代码问答工程师。不同于代码辅助工具,我们希望这些数字员工能直接独立工作而不需要人工辅助干预。未来我们将发布更多类型的数字员工,全面覆盖需求、设计、编码、测试和运维各个环节。
CTO王伟则表示这条路径充满挑战但非常有趣,“从第一性原理来看,大模型对于生产力的提升已经不是’是’或者’否’的问题,而是何时、何地、何种形态的问题,StarShip正是我们尝试给出的一个回答。”
除StarShip之外,OpenCSG团队还相当高产:CSGHub开源模型平台、wukong预训练模型、CSGCoder微调代码模型等,这些产品定位精准,在业内颇受好评。
这些产品的快速推出与迭代,既满足了市场需求,同时也为了一个共同的目标:让大模型赋能每一个企业每一个人。
让大模型赋能每个企业、每个人,就需要让大模型变成水和电一样。如果说大模型是电能,那么CSGHub是电力网络,StarShip则是各种各样的家电电器,最终赋能到千家万户。
OpenCSG的理念是开源开放,作为一家坚持以开源为核心的公司,不仅实现了模型开源、代码开源,甚至将平台开源。
CTO王伟这样总结,我们是一家年轻的公司,受益于开源,才能在较短的时间做出一些成果,同时也会全面回馈开源社区,这是开源社区的基本原则。除此之外,我非常认同Sam Altman的说法,开源只是一种模式,比模式更重要的是产品价值。
“Benchmark本身只是一个数字,随着GPT4-o的推出,SWEBench的测试成绩预计将会很快超过30%,乐观估计明年可以突破50%。而我们更关注这些数字背后的产品价值:随着模型能力和工程技术的提升,数字员工将会从量变引发质变,从能用到好用,在各行业迎来全面的爆发”王伟解释道“这可能会是大模型时代背景下的一个重大变化,从公司到个人,我们都要为此做好准备。”
以上是超越Devin!姚班帶隊,他們創大模型程式設計新世界紀錄的詳細內容。更多資訊請關注PHP中文網其他相關文章!