36 氪主辦了名為「顛覆 · AIGC」的產業發展高峰會,時間為 5 月 23 日。本次高峰會匯聚產業力量,共同探討企業、產業在面臨變革時的因應策略,分享思考,探索並發現產業中最具潛力的企業與最有價值的技術,在激蕩的環境中探索前行的方向。
大會上,商湯科技聯合創辦人、大裝置事業群總裁楊帆發表了題為《大模型浪潮帶來的 AI 產業發展新機遇》的主題演講。楊帆認為,新一輪AI 浪潮有兩個特點:一是從技術突破到商業模式創新的周期更短,技術成果被更快地用於商業和產業探索、實踐;二是相較於過去十年,目前的人工智慧產業化更容易將技術優勢轉化為資料壁壘和規模優勢。
楊帆也提出了自己的觀點,解釋了人工智慧技術取得突破性進展的原因。他認為,儘管大模型的成功仍然印證了人工智慧的 " 數據、算力、演算法 " 暴力美學,但這三要素背後實際上是一個綜合系統工程。以 OpenAI 為例,楊帆指出,如何做好資料工程,如何提升晶片的有效資源利用率,如何設計更低成本但結構優良的演算法,每個環節都需要專家經驗知識和系統工程能力支撐。他認為,這不僅是模型層企業核心技術能力的最終體現,也是提供AI基礎設施服務所需的關鍵能力。
以下為楊帆演講實錄(經 36 氪整理編輯):
大家好!很榮幸今天能夠在 36 氪的活動和大家一起交流大模型的一些產業趨勢。
在這樣一個產業極度變化期,我分享幾個觀點。首先,我們今天講大模型,是沒有被精確定義說法的,到底是千億較大,還是百億較大?在我看來,人工智慧從 2012 年到現在,過去十幾年,模型結構一直在變大,參數量也一直在變大,為什麼現在大家好像突然有了一個概念,引爆更多的關注熱點?我們可以看到,在2016 年以AlphaGo 為代表的新應用,和個人消費者之間有一個強關聯,最近兩年,人工智慧技術取得了新的進展和突破,首先這些進展、突破和每個人更直接相關,大家能夠直接感受到它,第二這些突破確實形成了更大的影響力,我覺得人工智慧可以完成一些其他學科在科學研究領域裡的創新工作,不管是生物、物理、化學,還是其他領域,例如:今天大家所關注的ChatGPT 模型,就很有意義,因為它有可能驅動我們整個底層的科技,產生新的進步。這樣新的進步有可能在未來為人類帶來更多的增量。
從2021 年開始,陸陸續續產生比較多的技術突破,同時我們看到一個很有意思的現象,這輪技術突破從技術形成一定的成果後,我們開始到產業、商業上做探索和實踐,這個週期變得比原來更短。在此之後,國內外有大量的創新公司成立,教授、學者開始創業,我覺得可能過去市場上對此已有一些路徑,投資人的認可度也變得更高,包括一些文生圖的API 公佈後,很快就有人在小紅書上做網紅嘗試。
我們看到很多趨勢,從技術突破到商業化創新,這個週期似乎更短。在最近參加的一些論壇裡面,我發現大多數人都在講,想要做一個什麼樣的大模型,模型有多大,有多厲害,要拿這個模型做什麼事情,在某些特定場景下去打造一個超級新的APP,等等。在中國現在還沒有任何一個大模型得到政府監管正式 API 許可的情況下,在最近兩個月的時間內就有這樣一個很大的擴張變化。
所以我覺得這是一個更值得我們去關注的現象,我們看到這輪大模型的商業化進程更快,為什麼會產生這樣的效果?很重要的一點是我們看到很多新技術,可以做更多 C 端應用,同時,可以自然形成資料累積閉環,這比起過去技術性創業更容易建立起商業壁壘。我覺得這是我們看到的最近幾個月在產業方面的趨勢。
商湯科技共同創辦人、大裝置事業群總裁 楊帆
第二,是我們今天做大模型技術背後的東西。大家有共識,不管是大模型,還是回顧過去 10 年,整個人工智慧產業發展變遷,基本上都是一個暴力美學的成功,包括人工智慧的傳統三要素:數據、算力、演算法。演算法,大家可以理解成模型結構,今天我們所謂的這些大模型,或是技術上取得更新成績的模型,幾乎所有的模型在每個領域不管是資料集尺度所使用的算力規模,還是演算法本身的結構,以及模型的參數量,其實都保持著非常高的增速,Transformer 這個模型非常穩定,效果非常好,可以解決很多領域問題,並且能得到很好的結果。當我們發現資料量夠多,可以拿到很好泛化性的結果時,其實在某種意義上,也更加驗證了人工智慧技術的進步大方向就是暴力出奇蹟,把更多資源整合起來就可以拿到更好的結果。
但是,光有這樣一個資源,其實是遠遠不夠的,我們去看對應的三要素,每個要素在形成好的結果之前,在每個領域都要做大量的專業工程實踐。
其實剛才來賓的演講就解釋了在算力領域,為什麼我們需要大算力,這些大算力怎麼連起來?如果今天有 1000 塊卡,我們是否能讓它們發揮出好的性價比,是否有效利用率能做到 60%、80%,甚至 90%?再或者,如果我們今天連了 1000 塊,2000 塊、4000 塊卡,又會是什麼樣的效果? OpenAI 之前連了一萬塊V100,目前國內還沒有人可以把一萬塊卡連在一起去跑同一個訓練任務,並使有效資源利用率達到50%、60% 以上,現在可能有些人正在做,但還沒有這樣的成績,為什麼?背後就是非常複雜的工程事件。例如:一個千億參數量的模型,在訓練時需要做大量資料交互和中間梯度資訊交互,當你把分在成千上萬塊GPU 卡上的大量傳輸資料和運算結果傳輸之間形成有效平衡,很多時候模型是在點對點之間進行,在網路結構上要做兩兩傳輸。我們把成千上萬塊卡連在一起時,效果有一個怎樣的可接受狀態,這背後其實也不復雜,就是大量的工程實踐,就像你幹過這件事,你踩過足夠多的坑,就會比別人調的更好,這個事情就是很重要的經驗問題。
演算法也是一樣,今天的演算法結構設計可以比原來成本更低。結構設計的好,用更少量參數、更小數據就可以達到類似一個設計不做特別優化的最終演算法效果,這中間也存有大量專家知識,數據就更不用說了。
OpenAI 做ChatGPT4 的時候,最後在收集到的數據中只取了中間可能不到10% 的很小一部分做訓練,這對於資源節省和全量訓練的差距非常大,互聯網量數據非常大,到底哪些數據更有效,哪些數據有更高蘊含價值?我們在做訓練的時候,先丟哪些數據,後丟哪些方式,這個中間其實也都有大量試誤。為什麼算力這麼緊缺,大家需要拿更多算力?因為做大模型的很多人在試錯,可能同時分三四個小組,在不同方向上試錯,然後再逐步做迭代優化,暴力美學或者規模化資源聚集是今天能夠讓AI 技術、AI 算法能夠持續取得的原因。
一個綜合系統工程是需要在每個環節上借助專家經驗和系統工程能力的。這也是看到OpenAI 讓最優秀的科學家去做資料工程,而不是去做演算法,這極大的超出了我們以往對於領域的認知,在未來,這可能會成為一個關鍵性的門檻,也會成為我們給予市場服務的核心能力。
為什麼在人工智慧新技術出來以後,產業浪潮跟進的非常快,我們看到模型服務天然符合很多領域,互聯網圈的人非常激動,投資人覺得它會像互聯網一樣飛速增長。商業化門檻和壁壘上的改變會為大型模型帶來一些更新的機會,但是這些機會的獲取取決於個體的不同差異和專長。無論如何,相較於過去10 年,如今的人工智慧產業化會有非常大的優勢,因為不是單一技術壁壘,今天的技術優勢是有可能轉化成資料壁壘和規模優勢,我們相信在未來會有更多的產業應用。
商湯從2019 年開始做早期的大模型,在我們看來,整個AI 模型其實一直處於越來越大的狀態,所以我們內部積累了大量能力,包括自研了一些CV、NLP的模型。在今年 4 月份,商湯把一些模型的 API 開放出來,給產業夥伴試用,包括一些大語言類的模型,在我們看來,這更多是核心基礎技術能力累積的最終體現。
我們今年發布了一系列的模型,為市場提供服務支撐的背後是我們的大裝置,我們覺得,人工智能整個產業往前走,需要有人提供這樣大規模的高效率的基礎設施,這基本是一個必然路徑。整個AI 技術浪潮,未來如果變成越來越多資源消耗加專家經驗累計的遊戲的話,其實門檻極高,是不利於AI 被產業大量快速應用的,所以我們判斷勢必會形成分化,一定會有人提供基礎設施服務,不管是呼叫模型API 形式,還是在此基礎上做小模型的方式,再或者以其他的方式,都可以低門檻、低成本的快速使用AI 基礎性的資源和能力,從而快速完善自己的商業模式閉環。
商湯大裝置的定位就是做AI 基礎設施提供者,今天我們有全亞洲最大的人工智慧的運算節點,我們擁有超過5000P 的資源算力,也提供非常多的業界合作,讓合作夥伴們能夠使用他們的大模型在大裝置上做訓練,這體現了商湯的深厚積累,不管是在資源層面還是在專家工程認知層面,我們的能力一部分可以標準化,變成軟體和服務,不能標準化的部分,我們可以把它變成專業類型分類服務,我們希望把這些能力打包提供給整個產業,幫助客戶做好屬於自己的領域模式或模型應用。
訓 AI 大模型,用商湯大裝置。
來源:36氪
以上是商湯科技聯合創辦人楊帆:大模型浪潮帶來的 AI 產業發展新機會的詳細內容。更多資訊請關注PHP中文網其他相關文章!