本文經AI新媒體量子位元(公眾號ID:QbitAI)授權轉載,轉載請聯絡來源。
國內玩家如火如荼入局ChatGPT,其在各行業出圈也有目共睹。
但具體什麼時候能上崗尚且還不明晰,尤其像一些艱鉅、障礙性高的行業,例如醫療。
現在,一位哈佛醫學院教授,就親自下場測試ChatGPT的表現。
結果顯示,它在45個案例中的39個診斷正確,正確率87%(超過了現有機器診斷率的51%);並為30個案例提供了適當的分診建議。
他表示,ChatGPT輔助診斷的表現,已經接近醫生。既然如此,那什麼時候可以上崗?
事實上,這也是目前國內大多數玩家所面臨的問題:紅利在此,如何率先吃掉?
之前我們也曾系統性地梳理過復刻中國版ChatGPT背後的技術與生態難度,顯然不是短期就可以實現的。
現在已經衍生出來一個新想法:直接打造產業垂直版ChatGPT。
這種方式是否可行?
ChatGPT的打造,技術核心繞不開算力、數據和演算法三要素。
算力方面,OpenAI背靠微軟這頭乳牛──擁有28.5萬個CPU核心、1萬個英偉達V100 GPU,光是訓練一個GPT-3,費用就高達460萬美元;數據上,GPT系列幾經迭代優化,一度驚艷眾人的GPT-3就有1750億參數,而上一版本GPT-2只有15億參數;演算法自然也有多年深厚的積累,否則也不能出現「類人」自主學習特徵,而且進一步展現出快速適應多領域、多場景的能力。
再加上生態反哺技術,形成迭代閉環。 OpenAI自GPT-3開始就以開放介面的形式,建構起了專屬「GPT生態」。根據gpt3demo網站統計,目前已有656個呼叫GPT-3系列模型開發的應用程式。
這樣的技術與生態壁壘,決定了復刻ChatGPT並非那麼容易。既然如此,垂直版ChatGPT的解決想法也開始在業界探討。
首先從技術來看,他們的核心挑戰主要在於以更少的參數,例如以百億規模參數量,在垂直領域的任務達到或超過ChatGPT的效果。
這可能比復現ChatGPT更難,因為參數數量要小得多,不能僅僅依賴“暴力美學”,還要有高超的模型設計和壓縮技巧。
另一個挑戰是資料來源的不同。
像Google、微軟他們其實有天然的通用資料來源,但專用資料累積不能跟垂直玩家比較。
尤其像醫療等民生產業,專業性強覆蓋率廣,所需的高品質資料可能不比ChatGPT小,大部分資料不是網路上可以抓取的。
但對多年深根於此的垂直玩家來說,他們早已構築起自己的產業生態,有豐富的產業數據和知識積累,為復現ChatGPT奠定了必要的基礎。
而且從價值需求來看,垂直產業所代表的價值是實實在在的。像醫療本身需求就不小,一旦ChatGPT落地醫療,所代表的社會價值很大。
以往使用者會習慣性使用的用搜尋、APP來幫助診斷自己的疾病,但往往可能收效甚微。
哈佛醫學院教授Ateev Mehrotra曾測試,現有的線上診斷器平均正確率僅在51%,而ChatGPT則有87%,因此他認為ChatGPT有可能成為醫療診斷的遊戲規則改變者。
為了加速ChatGPT應用落地,從技術難度、價值需求等構面來看,打造垂直版ChatGPT是可行的。
而現在國內有AI玩家,已經在這樣做了。
最新曝光的進展,智慧語音賽道獨角獸雲知聲正在推進ChatGPT產業版的建設—
以醫療作為切入口,建構ChatGPT醫療產業版,同時基於ChatGPT產業版建構平台,快速擴展到其他領域,再利用領域模型整合MoE(Mixture of Experts)技術,訓練得到通用ChatGPT模型。
而這種從專用到通用的思路。其實是雲知聲一貫的「U X「做法。在這裡,「U」指的通用大模型演算法研發及高效訓練底座平台;「X」則是應用於多個產業領域的專用大模型版本。
事實上這也正在成為不少企業入局ChatGPT的思路,這樣一來,可以利用現有的專用數據優勢。
不過也不是那麼容易走的,更何況雲知聲選擇的,還是對生成內容品質要求更高的醫療產業作為切入口。
最首要的難題,就是要提升醫療知識的可靠性。 ChatGPT最擅長的,就是一本正經地胡說八道。放在現在Bing上聊天搜尋、內容生產其實問題不大,用戶們也樂在其中。
但應用在業界中,往往讓非專業人士難以察覺,這會引發各種風險。因此業界版ChatGPT要杜絕一切胡說八道,尤其像醫療、教育、工業等行業,內容生成要求極高容錯率很低,對數據的品質要求也就更高了。
其次,就是實現產業中的「性價比」。任何一項技術能夠大規模落地,都必須解決「如何以有限的資源,實現效果的最大化」問題。
這也是ChatGPT產業落地的必經之路-模型能以較小的參數規模,達到與ChatGPT相同的效果。這也就為這些企業帶來了不小難題。
事實上,雲知聲也坦言,ChatGPT產業版的參數可能也需要達到百億量級規模,要做出效果並實現規模化應用挑戰也不小。
從某種程度上說,打造業界版的ChatGPT比現在通用的ChatGPT還要更難,但到真正ChatGPT產業落地時,這些問題又必須得解決。概括來說,就是要實現ChatGPT工程化能力。
這是每個躬身入局者,繞不開但必須得過的路。
在此基礎上,毫無疑問的是,雲知聲的選擇更難-醫療作為切割入口。這是一個始終被認為是行業壁壘高、專業性強、技術難度製高點的領域,也是為什麼相較於其他行業的盛況,醫療AI玩家就顯得少之又少的原因。
但一旦將醫療版ChatGPT打通,那麼其他領域的實現,包括最後的通用大模型也就事半功倍了。
作為成立於2012年的AI公司,他們一直密切關注AI前沿技術,並積極推動技術產業化應用,包括2012年的深度學習演算法升級和產業化應用,到2016年Atlas超算平台、知識圖譜和全端AI技術應用,到現在基於ChatGPT框架的AGI認知技術升級。
同時,在醫療產業有近10年深耕,累積的產業知識、數據和應用,也獲得了2019年北京市科技進步一等獎。
在回應是否有信心打造ChatGPT產業版時,雲知聲方面表示:完全有信心。
前面總結,打造ChatGPT離不開高品質的數據,領先的演算法和充分的算力。而對於垂直版ChatGPT還需要更深厚的工程化能力。
從這幾方面來看,雲知聲的確具有產業參考性。
數據方面,近10年來雲知聲累積了全方位的產業數據,包括面向病患的導診、預問診、病患教育和追蹤系統,也有面向臨床的語音病歷,病歷品管,單一病種品管及醫療風險管理系統,已有近400家醫院落地使用。 據稱資料規模已達到了5T,為醫療產業語言大模型提供資料基礎。
演算法方面,而ChatGPT所代表的認知智能,本身就是雲知聲核心技術優勢。他們建構了國內最大的醫療知識圖譜之一。從2019年至2022年,雲知聲的認知智慧技術在國內外相關評測中榮獲7冠5亞。其自主研發的醫療預訓練語言模式CirBERTa一度登頂中文醫療資訊處理挑戰榜榜首。
在算力上,雲知聲超算平台浮點運算能力可達8億億次/秒,可為千億級參數規模模型提供算力保障。
而在大模型工程化方面,雲知聲已經研發了CirBERTa模型,復現了GPT-2模型,並利用模型壓縮和知識蒸餾機制,實現了線上推理效率的近百倍加速,為大模型的廣泛應用奠定了基礎。
此外作為業界版ChatGPT,內容品質保障也是關鍵一環。
雲知聲給出的解決方案是,利用應用在CirBERTa的持續學習和知識嵌入技術,基於已有知識圖譜積累,優化ChatGPT模型的知識獲取和更新機制。
據介紹,這樣一來可以保證ChatGPT回答中的知識正確性,同時也可以給予知識溯源資訊。
另外,利用雲知聲業內領先的病歷品管技術,可以自動發現生成的病歷中的問題,進而自動生成作為ChatGPT核心技術的基於人類反饋的強化學習(RLHF,Reinforcement Learning from Human Feedback)所需的使用者回饋數據,加速模型的最佳化。
最後回到事件本身,先前論及ChatGPT對產業的價值,都是從宏觀的產業生態和模式創新上談,例如對人機互動、資訊分發、內容生產等面向。
如今隨著越來越多的垂直企業入局,ChatGPT對企業的意義也呼之欲出——一種全新AGI的技術範式選擇:基於「大規模通用基礎模式輕量級產業應用優化」的行業知識整合和問題解決方法。
以往這些場景玩家,對於AI的探索可能處於「看山是山、看山不是山」的懵懂狀態,現在出現了一座「更小,而且明知會有路的山」。
ChatGPT所表現出來的“智能”,為他們帶來了一種明確的技術方向。
雲知聲CEO黃偉也深有體會,甚至於相較於AlphaGo,他認為ChatGPT所帶來的影響要深厚得多,相當於一場新的“工業革命” 。
這場革命最大的優勢是,透過自監督注意力機制,能夠充分利用海量無監督資料訓練通用基礎模型,並將感知、認知與生成,用統一框架實現「端到端「的整合,直接從高品質生成結果去呈現機器智能。機器採取的人工引導的數據驅動學習方法,與人類的邏輯思維方式是完全不一樣的,類似飛機所採用的噴氣式「空氣動力學」機制,與鳥類採取的「扇動翅膀」方式完全不同。
不管是對整個產業,還是單一企業而言,ChatGPT所帶來的價值確實讓他們不跟不行。
尤其對某些場景玩家來說,他們還是最有可能吃掉ChatGPT紅利的一撥人。
他們有場景有數據、有深厚的產業壁壘,一旦具備ChatGPT能力,就可以率先在業界落地。這是其他玩家所不能及的先發優勢。
上一次AI浪潮來襲時,最後也是場景玩家率先吃掉AI紅利。只不過現在ChatGPT是直接以技術路徑出現,落地速度自然比以往快得多。
雲知聲CEO黃偉也給了個明確的時間點:
年內就會實現成功應用落地的方案。
以上是ChatGPT上職醫療還有多遠?哈佛教授親測表現接近醫生,雲知聲曝光打造業界版的詳細內容。更多資訊請關注PHP中文網其他相關文章!