首頁  >  文章  >  科技週邊  >  帶有「眼睛」的ChatGPT應用來了! 150億參數多模態大模型加持,讀圖聊天樣樣全能

帶有「眼睛」的ChatGPT應用來了! 150億參數多模態大模型加持,讀圖聊天樣樣全能

王林
王林轉載
2023-04-11 13:55:031843瀏覽

帶有「眼睛」的ChatGPT應用來了! 150億參數多模態大模型加持,讀圖聊天樣樣全能

在許多人的印像裡,ChatGPT是個無所不能的「怪物」。

它可以寫詩,可以編程式碼,甚至可以直接產生長篇論文……此外,ChatGPT還極富情商、表現欲十足,只需數輪對話,就足以征服眾人。

但ChatGPT真的是無所不能的嗎?

作為聊天機器人,ChatGPT擁有出色的語言理解能力和文字處理能力,但受制於訓練模型,ChatGPT並不支援圖片對話。試想一下,在平日與好友聊天時,如果無法發送圖片,自然會失去部分樂趣。

而在國內,有這麼一家AI研發團隊,他們推出的「元乘象Chatlmg」應用程式可以準確地辨識圖片並能與用戶聊天,就好比給ChatGPT加上一雙“眼睛”,看懂文字的同時,也能完美辨識圖片

日前,鎂客網從元乘象研發團隊獲悉,「元乘象Chatlmg」最近才上線,追蹤微信公眾號「元乘象」即可體驗該應用。 (註:受限於算力,初期為邀請制訪問方式)

那麼,「元乘象Chatlmg」的使用體驗究竟如何,它的圖片辨識功能是否真的神奇呢?在產品上線前夕,鎂客網進行了全方位的評估摘要。

帶有「眼睛」的ChatGPT應用來了! 150億參數多模態大模型加持,讀圖聊天樣樣全能

圖 | 元乘象Chatlmg Logo

看圖片說話?這款ChatGPT應用程式很神奇

進入“元乘象Chatlmg”,可以看到該應用的介面十分簡潔明晰——位於下方的文字對話框,對稱式的頭像排版,各種元素組合成我們常見的聊天軟體介面。

而在該應用程式的左下方,可以看到一個顯眼的「上傳圖片」按鈕。

目前,該應用程式圖片上傳支援三種方式,分別是照片圖庫、拍照檔案匯入,一次上傳一張。

恰逢三八婦女節,鎂客網也選了兩樣物品交給「元乘象Chatlmg」來幫忙判定一下是否適合,一張是從搜尋引擎上下載的口紅圖片,另一張是透過手機現拍的便條本圖片

帶有「眼睛」的ChatGPT應用來了! 150億參數多模態大模型加持,讀圖聊天樣樣全能

帶有「眼睛」的ChatGPT應用來了! 150億參數多模態大模型加持,讀圖聊天樣樣全能

可以看到,「元乘象Chatlmg」精準識別出了兩張圖片中的產品,並且還延伸出一些其他描述,例如記事本上的小熊很可愛、口紅放在白色背景前等等。

同時,對於這兩份物品是否適合送給女孩子做禮物,也給出了自己的判斷,也會提出禮物是否適合需要依據接收者喜好的理性建議。

在「元乘象Chatlmg」給予回復後,我們又追問了一句

帶有「眼睛」的ChatGPT應用來了! 150億參數多模態大模型加持,讀圖聊天樣樣全能

嗯,建議非常中肯,上下文理解的邏輯也做到了連貫。

此外,鎂客網也上傳了一些其他圖片讓「元乘象Chatlmg」來辨識。

例如這個:

帶有「眼睛」的ChatGPT應用來了! 150億參數多模態大模型加持,讀圖聊天樣樣全能

又像這個:

帶有「眼睛」的ChatGPT應用來了! 150億參數多模態大模型加持,讀圖聊天樣樣全能

還有這些:

帶有「眼睛」的ChatGPT應用來了! 150億參數多模態大模型加持,讀圖聊天樣樣全能

帶有「眼睛」的ChatGPT應用來了! 150億參數多模態大模型加持,讀圖聊天樣樣全能

可以看出,「元乘象Chatlmg」的辨識能力還是相當精準,並能透過文字形式來描述所看到的圖片內容

對比基於純文字互動的ChatGPT,除了寫詩歌、撰寫文章這類基本互動,多了雙「眼睛」的「元乘象Chatlmg」顯然又挖掘出幾項新功能,物品辨識正是其重要功能之一。在

之後,隨著資料量的不斷擴增以及產品的不斷優化,鎂客網也期待「元乘象Chatlmg」能為我們帶來更多出彩的表現

百億參數大模型加持,未來將持續升級

#本質上,ChatGPT是一款聊天機器人產品,在GPT-3大模型的幫助下,提供了文字生成的能力。而ChatGPT之所以強悍,也恰恰得益於GPT-3。

作為OpenAI開發的自然語言處理模型,其身上有太多話題點。早在ChatGPT推出之前,GPT-3就已經在AI領域成功出圈。

據悉,模型達到1750億參數,一次訓練就需呼叫上萬塊GPU,花費近460萬美元的成本。如此瘋狂的“吞金能力”,自然能支撐ChatGPT這樣的瘋狂應用。

那麼ChatGPT還有什麼不足嗎?答案是有的!

據元乘象研發團隊表示,“元乘象Chatlmg”搭載了自研的百億級別參數多模態大模型,相當於給ChatGPT裝上“眼睛” ,使其能夠更像人一樣去對話。

所謂多模態,在AI領域中往往指感知訊息,如圖像、文字、語音等協同,幫人工智慧更準確地理解外在世界。

也正是在多模態大模型的加持下,「元乘象Chatlmg」擁有了看懂影像的能力。

據元乘象研發團隊介紹,目前該元乘象AI大模型參數規模大概150億;數據方面目前主要是圖文對數據、VQA數據等。而在訓練過程中,模型放開盡量少的可學習參數,從而確保在有限算力上的高效訓練。

在問及該模型的未來發展路徑時,元乘象研發團隊向鎂客網透露,除了當下的圖文互動外,未來該大模型還會把圖片生成的能力結合進來,這樣在回答的時候也能回覆自己生成的圖像,讓對話變得更生動。

另外,該模式也會加入包含更多模態,如視訊、音訊等,甚至與數位人等技術結合,開發出更生動立體的形象。

可以想像,在元乘象百億參數多模態大模型的加持下,我們與聊天機器人的對話將變得更像真人口吻,AI技術在未來帶給我們的驚喜也會越來越多。

中國AI廠商狂奔,國產ChatGPT還有多遠?

就在本月舉行的十四屆全國人大一次會議「部長通道」上,科技部部長王志剛在談到ChatGPT時,讚揚其為AI及相關產業帶來的進步。

同時,由ChatGPT引發的各種討論,也被各位代表、委員們帶進了兩會。

事實上,早在2017年我國將發展人工智慧上升為國家戰略前,AI就已是全國兩會上的「常客」。如今ChatGPT火爆全球,不禁讓人再次發問:中國的AI產業該如何抓住ChatGPT的時代潮流?

藉由新品發表的機會,鎂客網也與元乘象研發團隊負責人高一鑷博士就此問題進行了一番交流探討。

在他看來,國內對於AI大模型的建設需要有長遠的佈局和工作的連續性,才能開發出真正創新的技術

當我們回顧ChatGPT的「發家史」便可以發現,想做好一款AI大模型並非易事,背後是長期的資金投入以及算力技術迭代,另外還要考慮訓練數據的優化、計算能耗的降低等各方面。

換句話說,想做好一款類ChatGPT應用,並非通過一次簡單的“百米衝刺”即可完成,而是需要耐心跑完一場“萬米長跑”,才能進入群雄逐鹿的「決賽圈」

但就目前的發展現狀來看,國內大廠的AI大模型仍處在研發階段,能像「元乘象Chatlmg」一樣走到應用層面的團隊仍非常少見——首先國內AI大模型的研發普遍起步較晚,人才缺口嚴重,其次是中文語境下大模型的訓練難度更大,耗費的時間遠超英文。

這些問題本該需要「耐心」去解決,但隨著上一波AI投資熱潮的冷卻,許多公司被迫縮減預算,最終導致相關AI業務發展陷入了瓶頸。

相較之下,元乘象研發團隊則走得相對順利,一方面,該團隊在AI應用領域的長期深耕探索,另一方面也得益於他們在多模態預訓練模型上正確判斷與前瞻性,最終在整個團隊的堅持下,終在ChatGPT時代迎來了「開花結果」。

談到AI企業未來的探索之道時,高博士也給出了自己的一些看法:「在生態搭建方面,國內可以促進開源 ,畢竟人多力量大。

結語

自去年發布以來,ChatGPT早已從一種「現象級產品」進化為一種“科技符號”,國內科技大廠爭先恐後推出類ChatGPT產品,希望在這場競賽中摘得所謂的「勝利」。

同時,伴隨ChatGPT的火熱,國內AI產業再次掀起新一輪新品熱潮,「元乘象Chatlmg」正是在這段期間脫穎而出。

從「元乘象Chatlmg」應用的評測來看,其體驗感已經非常友好,甚至擁有「影像辨識」這種ChatGPT所不具備的功能。

當然,作為早期版本的“元乘象Chatlmg”,在一些細節方面仍有欠缺,但相信在元乘象研發團隊努力與堅持下,未來國產ChatGPT應用也能驚艷行業。

以上是帶有「眼睛」的ChatGPT應用來了! 150億參數多模態大模型加持,讀圖聊天樣樣全能的詳細內容。更多資訊請關注PHP中文網其他相關文章!

陳述:
本文轉載於:51cto.com。如有侵權,請聯絡admin@php.cn刪除