今年升級的重點在於引入了多模態大模型能力。
當 Sora 和 Suno 所創造的錄影帶和音樂作品在全球引起視聽革命時,工業領域的大規模多模態應用又將如何演進? 3 月 27 日,作為中國領先的「AI 製造」解決方案提供商,創新奇智揭開了他們的前瞻性答案。
經過半年努力,創新奇智在北京舉辦的發布會上發布了更為強大的奇智孩明工業大模型 2.0 版本(AInno-75B)。幾款大模型原生應用程式也首次亮相,包括 ChatVision、ChatCAD,ChatRobot 也升級到 Pro 版本。
創新上#CTO 張髮恩在應用程式上的應用問題上#人員和工程師預測增加模型規模所帶來的效能效益,以及為了達到特定效能目標所需的參數量。目前,介面已經形成一些共識,參數的提升可以讓模型效能提升。較之AInno-15B,AInno-75B在規模和性能方面取得了顯著增長。 今年升級的重點在於引進了多模式大模型能力。張髮恩解釋說,這個進階的大模型能夠處理包括文字、圖片、影片在內的多種資訊模態,甚至能夠融合工業場景中特有的資料類型,例如CAD圖紙和EEG訊號。它的輸出同樣多樣,能夠產生文字、圖像、影片、CAD設計圖或是工具體操作行為。
一、ChatCAD: 工業「文生圖」之美
中國中元國際機械工程有限公司經營總負責人王先透露,他們的設計工作大多依賴人工。一個單體建築,無論是標準層還是綜合體都需要設計師一筆一筆繪製,工業圖紙亦是如此,耗費大量人力物力。此外,行業規範眾多且修訂頻繁,進一步加大了設計難度。
為打破這個局面,創新奇智率先將工業大模型技術引入工業設計領域,推出Text-to-CAD類應用—「ChatCAD」:透過簡單的對話問答形式,就能迅速理解設計師的創意意圖,自動產生符合要求的工業設計圖,並支援匯出到傳統軟體進行微調。
輸入「幫我設計一個工業滑輪,參數如下:滑輪半徑為6,厚度為5,滑輪邊緣向外突出0.8,突出部分厚度為0.5,滑輪中心軸高度為5,半徑為4 ” 。 ChatCAD 立即生成作品,並根據回饋不斷優化設計。
現場展示中使用冗長複雜的元件需求而設計需求。例如,「幫我設計一個渦輪機,渦輪由馬達、引擎罩組成,具體要求如下:馬達為圓柱形,長20,直徑16。渦輪由一個圓柱渦輪軸和5片扇葉組成,渦輪軸長20,直徑12,渦輪頂部要有圓柱形圓錐旋轉軸,軸帽長度為9,直徑12,引擎罩直徑50,長度30,渦輪扇葉與引擎罩之間的間隔為1。」 # ChatCAD 依然可以產生結果,並根據回饋持續完善。 ChatCAD產生的設計也支援主流文件格式,可無縫對接其他工業軟體,方便後續整合修改。
現場演示渦輪機設計這項功能令王先倍感振奮。他認為,ChatCAD 有望幫助產業減少重複性勞動,規避硬性規範限制,進而影響整個產業的人工報價。 那麼,ChatCAD 是如何實現的?張髮恩解釋道,CAD 有別於文字、圖片、影片等常見模態,它需要表示點、線、邊、圓、柱、工藝等幾何資料。 「所以我們也叫做一種模態,是C 端不具備的一種模態。我們要發明自己表達CAD 的中間語言,大模型產生這種中間語言或中間碼,再把這些中間碼翻譯成CAD 。」 適用於目前發佈的ChatCAD DEMO 現場顯示中,C##Vision#Vision##hat#Vision#的電源插座」、找出畫面中,C##Vision#Vision#N#hat#Vision#的電源插座#」的電源插座#白色的安全帽"等具體目標。這些指令看似很簡單,沒有大模型的情況下需要針對每個細小的識別類別(例如安全帽、吸煙)開發具體演算法,調試部署後難以修改,落地成本高、週期長。大模型的出現顛覆了傳統範式,單個大模型可覆蓋多個小模型的功能,在性能、準確率、泛化能力等方面全面超越,並支持自然語言互動,大大簡化了開發部署流程。 ChatVision示範充分體現了工業大模式的充分規劃與能力。它可以將用戶意圖轉化為一系列外部工具調用,有條不紊地完成複雜視頻理解任務。 最後一個演示案例凸顯了大模型在多模態領域的前沿應用。面對一段真實車間影片,簡報人員提出高難度需求:"請仔細分析這個影片,告訴我是否有人吃飯並標識這個動作發生的時間"。此任務需要大模型對長時間序列畫面進行連續動作辨識,並標註動作起止時間。結果, ChatVision 準確定位到影片開頭 15 秒內出現工人吃飯的情況。 "吃飯是很常見的事件,大模型對事件的理解能力遠勝傳統小演算法模型。」張髮恩解釋。長期以來,透過視訊保障生產和工程安全的需求十分迫切。未來,圍繞大模型開展相關工作,將有望實現生產安全狀況、生產過程合規性的智能視頻理解。 在王先看來,安全始終是工程項目的頭等大事。多年來,工程安全訓練很少涉及現場隱患檢查。他認為 ChatVision 的應用前景廣闊,現場安全頭盔偵測、高空安全繩佩戴、安全器具攜帶等場景都可望落地。 ChatVision 在監理行業也大有可為,目前許多現場安全巡檢仍高度依賴人力。 #AInno-15B 的原生應用 ChatRobot 已經實現語音控制工業機器人。直接告訴ChatRobot “給我一杯咖啡”,它就可以指揮工業機械手臂在貨架上尋找咖啡,自行設計路線把貨物送到你手上。 ChatRobot Pro 能處理更複雜的訊息載體腦電訊號。 腦電訊號是大腦活動時產生的訊號,大腦活動和腦電訊號之間的關係非常複雜,如何解碼成為困擾研究者的一大難題。傳統做法的準確率低,AInno-75B 展現出解讀這類多模態資訊的潛力。國外一些腦機介面技術使用侵入式電極來獲得腦電訊號,它涉及電極設計、手術植入、排除反應、訊號傳輸、訊號解碼等一系列工程問題。創新奇智使用非侵入式腦電帽收集腦電訊息,在工程難度上大幅降低。 不過,張髮恩也表示,侵入式可以獲得更多通道和更清晰的腦電訊號,為後續解碼更複雜大腦意圖帶來方便。一個圖像的比喻是:侵入式採集腦電訊號就像在體育館內部聽演唱會,非侵入式則像在體育館外聽演唱會,歌聲的清晰度會有很大的區別。目前,創新奇智在做的研發工作,是驗證工業大模型的多模態能力,為未來可能的腦控工業自動化場景進行技術預研。 這也是端對端的原生應用,張髮恩強調。從腦電訊號輸入到直接輸出最終結果(機械手臂將貨物遞給演示人員)的整個流程都由神經網路來完成,而不依賴手動設計的特徵或傳統的資料處理。 除了自然語言互動和運動想像識別,ChatRobot Pro 也充分利用了工業大模型推理能力,實現了長序列任務編排和複雜決策驅動。賦予不同具身(無論是工業機械手臂還是 AGV 等)強大的智慧操控和決策能力,也會是創新奇智工業大模型未來努力的方向。 #生成式AI時代,工業應用尚無先例可循,創新奇智一直在探索工業場景下的種種可能。 大模型在企業服務方向上的前景,張髮恩稱之為 「Promising」。但他坦言,技術變革的窗口期,大家的認知往往參差不齊,尤其是比較大的變革,人的認知需要時間跟進,自己也不例外。 除了新增的原生應用,去年發表的 ChatDOC 整體效能和效果都有提升,產品功能更加完善。 ChatBI 新增支援 Excel 和 CSV 數據,現在產生 SQL 語句和分析報告的準確率提升 15%。大模型服務引擎部署起來更容易,推理性能更高。 「創新奇智會進一步將直接基於工業大模型核心生成能力搭建的 ChatX 應用打磨好。」張髮恩說。
工廠生產安全與合規至關重要,視訊監控與影像分析不可或缺。以闆卡廠波峰焊接為例,工人清理 280 度高溫錫爐時,若未嚴格佩戴安全防護裝備,如氣密式活性碳口罩、高溫防護手套等,存在嚴重燙傷風險。 傳統監控方式效率低,容易遺漏隱憂,事後檢查滯後明顯。 ChatVision 基於Alnno-75B 工業大模型,可透過自然語言即時分析監控視訊串流、視訊檔案和圖片,精準識別不合規行為,並立即觸發警報系統(例如自動發送郵件給管理員),協助工業企業安全生產。 發表會現場示範中,ChatVision 準確響應"仔細觀察當前畫面,告訴我這可能是個什麼地方"等綜合理解指令,以及"找出畫面中的電源插座"、"找出白色的安全帽"等具體目標辨識任務,展現了其廣闊應用前景。
發布會上,演示人員隨機選擇了一種商品(統一綠茶),讓一位頭皮上固定了多個電極的人用運動想像控制工業機器人將飲料交到其手中。這位頭戴採集器的人努力想著三件事:向左、向右,選中,遊標根據大模型翻譯出來的訊號也在螢幕上左右移動。當遊標移到目標圖示時,他會盯著這個圖示不動,遊標點擊選取。
接下來,ChatRobot Pro 會自主完成任務的智慧編排,產生可執行任務步驟,並與工業機器人介面即時交互,指示機器人完成任務。
以上是看影片、畫CAD、運動想像辨識! 75B的多模態工業大模型太能幹了的詳細內容。更多資訊請關注PHP中文網其他相關文章!