作者 | 徐傑承
審校 | 雲昭
GPT4的提前發布,把壓力著實給到百度了!在ChatGPT引爆聊天機器人領域後的數月,我們終於迎來了國內的第一款生成式對話產品。
3月16日14:00,百度文心一言記者會於百度北京總部正式召開。百度創辦人、董事長兼CEO李彥宏也實現了自己先前的諾言,將酷科技真正變成了一款人人都需要的產品。
據悉,文心一言(英文名:ERNIE Bot)是百度基於文心大模型技術推出的一款生成式對話產品,可實現自然流暢的人機交互。作為百度的核心技術之一,文心大模型ERNIE具備跨模態、跨語言的深度語意理解與生成能力。而基於ERNIE技術的文心一言,成功將人工智慧技術與人類語言溝通能力進行了融合,能夠為使用者提供優質、智慧化的互動體驗。
目前,大型語言模型和生成式AI代表了一個新的技術範式,是全球每家企業都不可錯過的機會。百度文心一言定位於人工智慧基座模型的賦能平台,將協助金融、能源、媒體、政務等千行百業的智慧化變革。
新聞發布會現場,李彥宏展示了文心一言的五大核心能力以及其在五個使用場景的表現,其中包括文學創作、商業文案創作、數理推算、中文理解和多模態生成。
在文學創作場景中,文心一言根據對話問答將知名科幻小說《三體》的核心內容進行了總結,並提出了多個續寫《三體》的建議與思路。此外,文心一言也根據問題內容準確回答了《三體》作者、《三體》電視劇角色扮演者等事實性資訊。
目前生成式AI的主要弊端就是對問題回答的準確性難以保障,而文心一言延續了百度知識增強的大模型理念,大幅提高了事實性問題的準確率。面對「於和偉和張魯一有哪些共同點」、「於和偉和張魯一誰更高」這類問題,文心一言也依靠資訊檢索能力及推理能力得出了正確答案。
在商業文案創作場景中,文心一言則順利完成了為公司命名、撰寫公司Slogan、撰寫公司成立新聞稿等創作任務。在連續三次內容創作中,文心一言不僅準確地理解了使用者意圖,也完成了對使用者回饋的清晰表達。
這是基於龐大資料規模而發生的「智慧湧現」。據介紹,文心一言大模型的訓練數據包括萬億級網頁數據、數十億搜尋數據及圖片數據、百億級語音日均調用數據,以及5500億事實的知識圖譜等,這使得其在在中文語言的理解和處理上,能夠優於目前世界範圍內幾乎所有的其他大模型。
數理推算方面,文心一言則依靠其思考能力、數學推演能力及邏輯推理能力成功完成了「雞兔同籠」這類鍛鍊人類邏輯思維的經典例題的解答。
在這一環節中,文心一言不僅辨識出了題目中所存在的問題,還成功像人類一樣找到了解題思路,並按照正確步驟一步步推演出了題目的準確答案。
如果說文學創作、商業文案創作、數理推算是大語言模型常見的優點和能力。那麼文心一言的獨特之處,則是更優秀的中文理解及多模態生成能力。
作為紮根於中國市場的大語言模型,文心一言具備中文領域最先進的自然語言處理能力,在中文語言和中國文化上有更好的表現。在第四輪演示中,文心一言正確地解釋了成語“洛陽紙貴”的含義,並結合成語內涵分析出了“洛陽紙貴”對應的經濟學理論,甚至還成功用“洛陽紙貴”四個字創作了一首藏頭詩。
而在多模態生成方面,李彥宏現場展現了文心一言生成文字、圖片、音訊和視訊的能力。有趣的是,文心一言甚至能夠生成四川話等方言語音;文心一言的視頻生成能力則因成本較高,現階段還未對所有用戶開放,未來會逐步接入。
文心一言作為新一代知識增強大語言模型,是在ERNIE及PLATO系列模型的基礎上研發的。它的關鍵技術包括監督精調、人類回饋的強化學習、提示、知識增強、檢索增強和對話增強。
前三項是此類大語言模型都會採用的技術,ERNIE和PLATO中也已經有應用和積累,在文心一言中又有了進一步強化和打磨;後三項則是百度已有技術優勢的再創新,也是文心一言未來越來越強大的基礎。
文心一言的知識增強主要透過知識內化和知識外用兩種方式。知識內化,是從大規模知識和無標註數據中,基於語意單元學習,利用知識構造訓練數據,將知識學習到模型參數中。知識外用則是引入外在多源異質知識,進行知識推理、提示建構等等。
文心一言的檢索增強,來自以語意理解與語意配對為核心技術的新一代搜尋架構。透過引入搜尋結果,能夠為大模型提供時效性強、準確率高的參考訊息,更能滿足使用者需求。
而文心一言的對話增強,則是基於對話技術和應用積累,文心一言具備記憶機制、情境理解和對話規劃能力,實現更好的對話連貫性、合理性和邏輯性。
李彥宏提到,如今的AI技術已經發展到一個臨界點,各行各業都不可避免地被改變。中國AI市場即將迎來爆發性的需求成長,其商業價值的釋放將是前所未有的、指數級的。
自2月百度官宣「文心一言」以來,已有超過650家企業宣佈接入文心一言生態。這意味著許多企業已經理解到,文心一言和生成式AI代表了一個新的技術範式,它會影響到每家公司。根據李彥宏預測,大語言模型將會帶來三大產業機會。
第一類就是新型雲端運算公司,主流商業模式將從IaaS轉變為MaaS。文心一言將根本性改變雲端運算產業的遊戲規則。之前企業選擇雲端廠商更多看算力、儲存等基礎雲端服務。未來,則會更注重框架好不好、模型好不好,以及模型、框架、晶片、應用這四層之間的協同。
第二類是進行行業模型精調的公司,這是通用大模型和企業之間的中間層,他們可以基於對行業的洞察,調用通用大模型能力,為行業客戶提供解決方案。這方面,百度文心大模型已經在電力、金融、媒體等領域,發表了10多個產業大模型。
第三類則是基於大模型底座進行應用開發的公司,即應用服務提供者。李彥宏斷言,對於大部分創業家和企業來說,真正的機會並不是從頭開始做ChatGPT和文心一言這樣的基礎大模型,這很不現實,也不經濟。基於通用大語言模型搶先開發重要的應用服務,這可能才是真正的機會。目前,基於文字生成、圖像生成、音訊生成、視訊生成、數位人、3D等場景,已經湧現出許多創業明星公司,可能就是未來的新巨頭。
文心一言將透過百度智慧雲端對外提供服務,幫助企業建立自己的模型和應用,農業、工業、金融、教育、醫療、交通、能源等重點領域,都會因此效率大幅提升,並在每個產業快速形成新的產業空間,助力數位中國的實現。李彥宏預告稱,百度智能雲將於近期舉辦記者會,主題圍繞著文心一言的雲端服務和應用產品,既有公有雲服務和也可以做私有化部署。
在發表會結尾,王海峰表示文心一言目前已開放內測。即日起首批使用者可透過邀請測試碼在官網體驗文心一言產品,百度智慧雲端即將向企業客戶開放文心一言 API 介面呼叫服務,在官網可申請加入文心一言雲服務測試。
Robin 也坦言這次的發布時,文心一言,並沒有完全的Ready。
最近一段時間,很多朋友問我,「為什麼是今天,你們真的ready了嗎」。其實從某種意義上說我們已經為此準備了多年,我們十幾年前就開始投入AI研究2019年就推出了文心大語言模型,今天的文心一言是過去多年努力的延續。但也不能說我們完全ready了,文心一言對標ChatGPT、甚至是對標GPT-4,門檻是很高的,全球大廠還沒有一個做出來的,百度是第一個。我自己測試感覺還是有很多不完美的地方。個體選擇。
看完這場發表會,相信每個人都有自己不同的感觸。歸根究底,對使用者而言,尤其是在文化內容領域,我們還是更需要國內科技企業實打實地使用海量中文語料訓練出一些更加匹配中文環境的本土化高品質大模型。
如今,身為國內AIGC的先驅,百度已在這一領域邁出了第一步。未來百度能否在這條路上越走越遠;是否會有更多優秀的國內科技企業踏足這片土壤;中國的AIGC生態又會在這些先行者的厚積薄發之下,產生哪些變化?讓我們拭目以待。
以上是文心一言正式開啟內邀!李彥宏:體驗不完美!的詳細內容。更多資訊請關注PHP中文網其他相關文章!