AI大模型火遍全球,中國產業也激發了對人工智慧應用的新熱情。
隨著各大廠商參與競逐,市場正在分化為通用與垂直兩大路徑,兩者在參數層級、應用場景、商業模式等方面差異已逐步顯現。
通用AI大模型像ChatGPT,能夠處理各種領域和場景的自然語言,但由於需要龐大的運算資源和資料量,已成為國內外大廠的重點項目。
這類企業通常擁有強大的技術團隊和資金支持,同時具備自己的場景和流量優勢。百度、阿里、騰訊、位元組、華為等公司在搜尋、社群、電商、辦公室等領域都採用了自己的通用AI大模型。
相較之下,新創公司、細分領域企業很難在這樣的競爭中獲得先發優勢或差異化優勢。
而垂直AI大模型只專注於某個特定的領域或場景,它能夠利用行業的數據和知識,提供更精準和高效的解決方案,更好地滿足用戶在某個領域或場景下的需求與期待,如:醫療、金融、教育等。
同時,它可以利用一些開源或閉源的通用AI大模型作為基礎,然後在其上進行指令微調(instruction tuning),來適應自己的目標領域或場景。
因此,它的參數規模比通用大模型低一個量級,如果讓資料飛輪和模型訓練能夠很好結合,在某些特定領域甚至比通用大模型的效果更好、成本更低。
在這樣的背景下,越來越多的企業加入了垂直大模型的賽道。
5月18日,深信服發布國內首個自研安全大模型,成為安全領域GPT技術應用首秀;
5月5日,學而思宣布正在進行自研數學大模型的研發,命名為MathGPT,面向全球數學愛好者和科研機構;
3月,達觀數據公佈正在開發曹植系統,專注於金融、政務、製造等垂直領域的大語言模型。
明確的商業化落地場景和更低的算力成本,為各類企業打開了進軍垂直大模型的大門。
垂直大模型的優點在於不夠大:算力不夠大、演算法難度低,但不代表垂直大模型誰都能做。
眾所周知,AI大模型三要素:算力、演算法、數據,都是餵食AI的「飼料」。
先說算力。
大模型之所以“大”,就是因為參數眾多和資料量龐大。 AI大模型所需的計算量,大致上相當於參數量與資料量的乘積。
過去5年,AI大模型的參數量幾乎每年提升一個數量級,例如GPT-4參數量是GPT-3的16倍,達到1.6兆個。
隨著影像、音訊視訊等多模態資料的引入,大模型的資料量也在快速膨脹。這意味著想要玩轉大模型,必須擁有大算力。
而一套垂直大模型的訓練和推理成本,做個參考,在數字人垂類技術場景中,可以做到比Open AI同參數規模的模型低一個量級,像啟元世界的策略總監王思捷就曾提到:先建構更小的垂類模型(例如百億參數、十億參數),讓資料飛輪和模型訓練能夠很好結合,垂類模型在某些領域可能比Open AI的效果更好成本更低。
即便垂直大模型在算力要求上已遠低於通用大模型,但對算力基礎設施的投入依然會阻擋部分小公司的入局。
再說演算法。
在三要素中,演算法的研發難度相對較低,每家公司都有自己實現大模型的路徑演算法,且有眾多開源專案可作為參考,中國公司最容易縮短甚至抹平差距。
最後說數據。
高品質的數據是助力AI訓練與調優的關鍵,足夠多、足夠豐富的數據,是AI大模型的根基。
OpenAI先前披露,為了AI像人類那樣流暢交談,研發人員給GPT-3.5提供多達45TB的文字語料,相當於472萬套中國「四大名著」。這些語料來源廣泛,包括維基百科、網路文章、書籍期刊等,甚至將開源程式碼平台Github也納入其中。
但是要聚焦到細分產業,資料的取得就沒那麼容易了。
興業證券公開表示,要訓練專業的行業大模型,優質的行業數據、公共數據至關重要。
就國內資料市場而言,根據發改委官方批露,我國政府資料資源佔全國資料資源的比重超過3/4,但開放規模不足美國的10%,個人和企業可以利用的規模更是不及美國的7%。
而產業數據更是非常核心的私域數據,私域數據量越大,品質越高,就越有價值。
如果一個醫療公司擁有豐富的醫療數據和病例數據,它就有能力開發出類似於醫療行業的大型垂直模型產品。建築業的專案數據、金融業的使用者畫像資料以及海運業的船位資料等,都是關鍵的資料來源,為垂直大模型提供支援。
但是這些私域資料都攥在企業自己手中,而且為了資料安全和合規,絕大部分機構是要本地化部署才會嘗試大模型訓練,很難想像企業會把自己的核心資料拿給別人去訓練。
此外,如何合理地為資料打上分級標籤、做好標註也非常重要。將原話重寫為:對資料進行不同程度的分類可以提高產品效率,而高度精準的標記資料可以進一步提升大型模型的專業表現。
但現階段垂直產業想要取得高精度標註資料的成本較高,而在公開資料庫中,產業專業資料也較少,因此對垂直大模型的建構提出了很高的要求。
整體而言,想要做好垂直大模型,資料的重要性,遠超過算力和演算法。
數據,已成為企業突破垂直大模型的「卡點」。
垂類大模型講求應用與場景先行的邏輯,而在國內更是強調產業側的價值。
一方面,在當前中國的智慧化浪潮下,產業側數位化革新本就有廣闊的市場需求;另一方面,在toB生態下,基於垂直應用的實踐也有利於形成數據飛輪與場景飛輪。
而這一切的前提,是推出垂類大模型的公司在該行業已建立技術壁壘與護城河,即「人無我有」的競爭優勢。
如此看來,在垂直產業深耕多年的企業或將有更大的贏面。
這些企業在資料處理、大型模型和知識圖譜領域擁有深厚的積累,在優化大型模型方面具有更大的優勢。同時,它們對於to B客戶需求和落地場景有很深的理解,能夠更好地確保垂直大模型產品的可信和可靠,滿足企業級對於安全可控合規的需求。
目前,已有一些垂類大模型在金融、教育、醫藥、行銷等場景中得到試煉。
例如,彭博社利用自身豐富的金融資料來源,基於開源的GPT-3框架再訓練,開發出了金融專屬大模型BloombergGPT;
網易有道則面向教育場景,推出自研的類ChatGPT模型「子曰」;
在ChatGPT發布後僅幾週,谷歌公佈了一個專門用於回答醫療保健相關問題的大型醫用語言模型Med-PaLM.... ..
隨著更多企業的加入,垂直領域大型模式將會廣泛湧現於各個產業和細分領域。而那些能將一個垂直領域做專、做透,用高品質的數據持續優化模型,跑通商業閉環,建構起產業生態的企業,最終將把價值鏈做到足夠長。
以上是垂直大模型競爭,能突破數據「卡點」嗎?的詳細內容。更多資訊請關注PHP中文網其他相關文章!