全球首个超小型多模态AI Agent模型Octopus V3,来自斯坦福大学的NEXA AI团队,让Agent更加智能、快速、能耗及成本降低。
今年四月份初,NEXA AI推出了备受瞩目的Octopus V2,该模型在函数调用性能上超越了GPT-4,减少了95%的推理时所需的文本量,为端侧AI应用带来了新的可能性。其专利性核心技术“functional token”通过创新的函数调用方式显著减少推理时所需的文本长度。
这种方法使得模型能够在只有20亿参数的情况下实现高效训练,并在精度和延迟方面超越了GPT-4,适应了各种端设备的部署需求。
自Octopus V2在LLM社区发布以来,受到了广泛关注,吸引了大量人工智能领域专家和研究者的赞赏,如Hugging Face的CTO Julien Chaumond、知名AI新闻通讯AI的创始人Rowan Cheung以及Figure AI的创始人Brett Adcock、OPPO边缘人工智能团队负责人Manoj Kumar等。他们被誉为“开创了端侧AI技术新纪元”。
在知名开源AI平台Hugging Face上,Octopus V2下载量已经超过12000次。
在不到一个月的时间里,NEXA AI团队发布下一代多模态AI Agent模型Octopus V3,展现进一步突破:具有图像处理和多语言文本处理能力,为智能手机等端侧设备真正走向AI时代铺平了道路。
首个参数量小于10亿的多模态AI Agent模型
Octopus V3不仅拥有多模式能力,在函数调用性能上远超同类模型,可媲美GPT-4V GPT4;而模型参数量不达10亿,具有多语言能力。
也就是说,相比传统的大型语言模型,它体积更小,能耗更低,能够更加轻松地在各种小型端设备上运行,比如树莓派,并做到高速且准确的函数调用。
这意味着,未来AI Agent能够广泛应用于智能手机、AR/VR、机器人、智能汽车等端侧设备,为用户交互体验更加流畅、智能。
另一方面,由于V3具有多模态处理能力,可同时处理文本和图像输入,再加上多语言能力,也将让用户体验更加丰富。
例如,在Instacart购物应用中,用户可以通过一张菠萝的图片及简单的对话指令,让AI Agent自动为他们搜索商品,提高了效率和用户的体验。
再比如,在发送邮件等场景中,Octopus V3可以根据一张具有文字的图像,自动提取信息并填写邮件内容,为用户提供更加智能、便捷的服务。
从软件交互到智能汽车,端侧AI潜力巨大
基于这些特性,Octopus V2及V3的应用场景丰富多样,具有广泛的应用前景。
除上文提到的手机场景,当Octopus V2应用在智能汽车上时,也能带来新的交互体验。目前的语音助手往往难以帮助车主完成较为复杂的任务,如在驾驶途中临时改变目的地、加入额外停靠点等。应用Octopus V3后,AI助手能够基于较为模糊简单的指令快速、精准地完成相应任务。
结合V2、V3的能力,从信息检索、到基于指令完成设计,用户可以在虚拟场景下获得流畅的AI体验:在一个社区用户的VR场景demo中,输入简单的语音指令后,AI Agent能够帮助用户快速完成一个客厅设计,在弹指间替换沙发、改变颜色灯光等。在用户输入旅行指令后,用户快速来到了日本,而AI Agent同样可以在简单的对话式交流中帮助用户搜索相应景点,提供丰富的信息。
數據顯示,全球大型語言模型市場規模正在快速成長。 Granview Research報告顯示,全球大型語言模型市場規模估計為43.5億美元,並預計從2024年到2030年的複合年增長率為35.9%。同樣,邊緣人工智慧市場也呈現出蓬勃發展的勢頭——預計從2023年到2030年,全球邊緣人工智慧市場的複合年增長率為21.0%,到2030年將達到664.78億美元。
NEXA AI團隊由史丹佛大學的傑出研究人員創立。
創辦人兼首席科學家Alex Chen(陳偉)正在攻讀史丹佛大學的博士學位,擁有豐富的人工智慧研究經驗,並且曾擔任斯坦福華人創業協會(Stanford Chinese Entrepreneurs Organization)的主席。
聯合創始人兼首席技術長Zack Li(李志遠)#也是史丹佛大學的畢業生,並在Google和Amazon Lab126實驗室擁有4年端側AI的第一線研發經驗,同樣曾經擔任史丹佛華人創業協會的主席。
史丹佛大學副教授、史丹佛科技創業計畫副主任Charles (Chuck) Eesley擔任顧問,為團隊提供指導與支持。
△左:李志遠;右:陳偉
目前,NEXA AI的獨創性技術已申請專利保護。
NEXA AI的創始團隊表示,他們將繼續致力於推動端側AI技術的發展,透過開源模型提升其創新技術的影響力,為用戶創造更聰明、高效的未來生活。
論文網址:https://arxiv.org/abs/2404.11459
以上是史丹佛20億參數端測多模態AI Agent模型大升級,手機汽車機器人都能用的詳細內容。更多資訊請關注PHP中文網其他相關文章!

Niramai Analytix的創始人兼首席執行官Geetha Manjunath博士的這一集由“領導數據”的劇集。 Manjunath博士擁有AI和Healthcare的25年以上的經驗,並獲得了印度科學學院的博士學位和MBA來回。

利用Ollama本地開源LLMS的力量:綜合指南 運行大型語言模型(LLMS)本地提供無與倫比的控制和透明度,但是設置環境可能令人生畏。 Ollama簡化了這個過程

利用微調LLM的功能與Monsterapi:綜合指南 想像一個虛擬助手完美理解並預測您的需求。 由於大型語言模型(LLMS)的進步,這已成為現實。 但是,

數據科學的基本統計測試:綜合指南 從數據中解鎖有價值的見解至關重要。 掌握統計測試對於實現這一目標至關重要。這些測試使數據科學家能夠嚴格瓦爾

介紹 原始變壓器的引入為當前的大語言模型鋪平了道路。同樣,在引入變壓器模型之後,引入了視覺變壓器(VIT)。喜歡

Langchain文本拆分器:優化LLM輸入以提高效率和準確性 我們上一篇文章介紹了Langchain的文檔加載程序。 但是,LLM具有上下文窗口大小的限制(以代幣測量)。 超過此限制會截斷數據,comp

生成的AI:革命性的創造力和創新 生成的AI通過按下按鈕來創建文本,圖像,音樂和虛擬世界來改變行業。 它的影響跨越視頻編輯,音樂製作,藝術,娛樂,HEA

利用嵌入模型的力量來回答高級問題 在當今信息豐富的世界中,立即獲得精確答案的能力至關重要。 本文展示了使用強大的提問(QA)模型


熱AI工具

Undresser.AI Undress
人工智慧驅動的應用程序,用於創建逼真的裸體照片

AI Clothes Remover
用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool
免費脫衣圖片

Clothoff.io
AI脫衣器

AI Hentai Generator
免費產生 AI 無盡。

熱門文章

熱工具

Dreamweaver Mac版
視覺化網頁開發工具

記事本++7.3.1
好用且免費的程式碼編輯器

mPDF
mPDF是一個PHP庫,可以從UTF-8編碼的HTML產生PDF檔案。原作者Ian Back編寫mPDF以從他的網站上「即時」輸出PDF文件,並處理不同的語言。與原始腳本如HTML2FPDF相比,它的速度較慢,並且在使用Unicode字體時產生的檔案較大,但支援CSS樣式等,並進行了大量增強。支援幾乎所有語言,包括RTL(阿拉伯語和希伯來語)和CJK(中日韓)。支援嵌套的區塊級元素(如P、DIV),

Safe Exam Browser
Safe Exam Browser是一個安全的瀏覽器環境,安全地進行線上考試。該軟體將任何電腦變成一個安全的工作站。它控制對任何實用工具的訪問,並防止學生使用未經授權的資源。

SAP NetWeaver Server Adapter for Eclipse
將Eclipse與SAP NetWeaver應用伺服器整合。