首頁  >  文章  >  科技週邊  >  通義聽悟誕生背後,AI大模型打響應用第一槍

通義聽悟誕生背後,AI大模型打響應用第一槍

WBOY
WBOY轉載
2023-06-05 13:50:32485瀏覽

通義聽悟誕生背後,AI大模型打響應用第一槍 圖片來自Canva可畫配

2023年開始,ChatGPT的爆火出圈,迅速引發了業界對於生成式AI應用的關注,AI大模型的競爭更是愈演愈烈。

作為參與其中的重要玩家,阿里雲先是在4月11日舉行的阿里雲峰會上,推出了通義千問大模型。緊接著6月1日,阿里雲宣布通義大模型進展,聚焦音視頻內容的AI新品「通義聽悟」正式上線,成為國內首個開放公測的大模型應用產品,這意味著阿里雲大語言模型,又向前端應用邁進了一大步。同時其基於AI大模型應用的發布,也相當於給當前紛爭正勁的“大模型混戰”,擲下了一枚重磅炸彈。

千模大戰一觸即發

近幾個月,隨著微軟、Google、亞馬遜等矽谷大廠,紛紛公佈大模型及AIGC進展,透過AI搜尋引擎、AI辦公軟體等一系列應用打響AI競賽,國內網路雲大廠也陸續全軍出擊了。不只是大廠就連很多新創企業,VC/PE機構、各行各業巨頭,都湧入了AI大模型賽道,試圖從中分一杯羹。根據不完全統計,目前公佈推出AI大模型計畫的大企業,不下於50多家,其他參與者更是不計其數。

從格局來看,以「BATH」等為代表的網路科技公司,憑藉著場景、算力、全端技術能力等綜合實力,穩居業界第一梯隊;而處於二線的重要產業企業,如商湯科技、中國電信、京東、360等,則藉助其在相關領域的影響力,位列產業第二梯隊;緊接著各產業巨頭之後的是,包括美團聯合創辦人王慧文、前搜狗CEO王小川等在內的各路知名創業者,他們有認知、有機構加持和相關背景,但由於還處於初始階段,因此在AI大模型混戰中暫居第三梯隊。

從分類來看,圍繞著通用大模型以及專用大模型,各個企業都有自己的定位和分工。根據業內人士介紹,目前國內大模型主要可分為兩類:一類是對標GPT的通用大模型,聚焦基礎層的公司,如阿里、百度等公司;另一類是在開源大模型基礎之上訓練垂類大模型,聚焦垂直產業的企業,如應用於金融、醫療、交通等領域的垂類大模型。由於前者的技術要求高、成本大,因此當前許多行業已經開始基於自身的情況,紛紛採取與通用大模型企業合作的方式,來訓練適合自己行業的垂類大模型了。

從產業鏈來看,算力廠商、雲端服務廠商、前端應用廠商都有參與,體系完整、緊密聯繫且範圍寬廣。目前包括算力廠商英偉達、雲端服務廠商阿里雲,前端應用廠商如金山辦公、用友網絡、雲從科技等,都在積極參與AI大模型的技術研發和場景落地。總之,目前圍繞AI大模型的混戰正在陡然升溫。

通義聽悟打響大模型應用第一槍

#而從AI大模型涉及的層面來看,主要可以分為應用層、模型層、框架層和晶片層等四個層次,而目前市面上大部分公司都還在模型層,深一點的涉及到框架層和晶片層的研究,前端應用目前業內還沒有。作為業界首個公測的大模型應用產品,通義聽悟的示範作用極為明顯。

一方面,相較於底層技術,靠近應用前端的技術價值將更具想像空間。 縱觀所有的科技演進歷史不難發現,科技的價值核心在於應用普及程度,以及對使用者問題解決的程度。正因如此,承擔這項職責與使命的前端應用,往往具備更大的想像空間。

以6月1日阿里雲推出的通義聽悟為例,它透過接入阿里的通義大模型,其作用已經不僅僅是簡單的具備音視頻轉寫的工具了,而是已經成為幫助人們在影音場景之下的高效AI助手了。它為人們提供自動做筆記、整理訪談、提取PPT等多種辦公室服務,而且能夠實現音視頻轉化成圖文內容、分章節摘要和總結全文觀點等能力,具備了「類人」的高效檢索分類能力。

此外,在細分場景中,它還具備不少「寶藏」功能,例如可以打開Chrome插件,外語學習者和聽障人士,可以藉助雙語懸浮字幕條隨時隨地看無字幕視頻,日程衝突時,聽悟還可成為職場人士的“開會替身”,在靜音情況下入會AI可代為記錄會議、整理要點;轉寫結果可下載為字幕文件,方便新媒體從業者視頻後期製作;聽悟梳理的問答回顧可以讓記者、分析師、律師、HR等團體整理訪談更有效率。總之,在解決具體場景問題的能力上,它已經超出了現有音視頻應用的能力範疇,也刷新了以往用戶體驗的上限,必將在業界掀起不小的風浪。

另一方面,從阿里雲本身來說,通義千問大模型剛對外推出不久,就能夠迅速推出基於AI大模型的技術應用,說明阿里雲AI大模型的確已經比較成熟,具備了衍生AI應用的能力。

從模型層到應用層,從AI大模型到大模型應用的誕生,看似簡單實則實現並不容易。通常來說,垂類應用是依託於通用大模型這個技術底座來實現的,撇開通用大模型的話,這些通常無法實現,而這要求其所依託的通用大模型本身是足夠成熟的,否則其很難推出相對好用且超越現有產品能力的應用。拿通義聽悟來說,其所呈現的技術實力,在業界並不是所有玩家都有的。

全體系AI基礎設施成決勝關鍵

從AI大模型本身所需要的動軋千億的參數訓練要求來說,其推進的難度和複雜性可能遠超外界想像。長遠來看,具備全端AI大模型技術能力和基礎設施能力的企業,才能夠走得更遠。

一來,由於生成式AI的發展速度遠超外界預期,任何單一環節的進步對整體的大模型訓練促進作用有限。 根據OpenAI測算,自2012年以來,全球頭部的AI模型訓練算力需求,3-4個月翻一番,每年增長幅度高達10倍。但根據摩爾定律,晶片運算效能每隔18-24個月才能翻一番,也就說是晶片效能遠遠跟不上AI大模型的發展要求。具體到相關領域來說,基於CPU的運算體系,難以滿足大模型訓練之下,高頻寬、低時延的網路傳輸要求,這些問題的解決,依靠單一的「堆砌算力」很難短期內見效,而且可能並不經濟,必須藉助來自演算法、算力、框架等多層次的整體系統支持,才能更好地應對這種變化。

二來,由於發展通用大模型所需的算力需求大、推理訓練成本高、資料量要求高,導致其本身的門檻非常高,不具備全棧大模型研發、場景落地能力、生態開放能力的公司,很難維持較快的更迭速度,容易被淘汰。 據業內人士分析,要做成一個成功的可對外商業化輸出的通用大模型,需要廠商擁有全棧大模型訓練與研發能力,業務場景落地經驗、AI安全治理舉措,以及生態開放性等核心優勢,而一般的企業很難完全具備這些能力。

而阿里雲作為亞洲第一、全球第三的雲端運算服務商,擁有國內最強的算力支撐體系。例如,阿里雲飛天雲操作系統,可實現單集群10萬台規模、千億文件數運算能力,其飛天智算平台可實現千卡並行效率達到90%,自研網絡架構可對萬卡規模的AI集群,提供無擁塞、高效能的集群通訊能力,阿里雲自有的深度學習平台PAI,可將運算資源利用率提高3倍以上,AI訓練效率提升11倍,推理效率提升6倍。另外,阿里雲還牽頭建立了國內最大規模的AI模型服務社區“魔搭”,降低大模型開發成本、助力AI普惠;算法方面,阿里在語言以及多模態能力、超大模型、通用統一模型等多個技術維度,處於國內第一梯隊,這都是阿里通義大模型能夠迅速「出圈」的核心原因。

三來,從商業可能性來看,擁有全體系AI基礎設施能力的公司,在MaaS(模型即服務)到來之後擁有更大的商業價值,在市場競爭方面會有更大的「迴旋餘地」。 以阿里雲為例,其後期既可以透過提供通用大模型服務,取得平台服務費;也可以出租算力和推訓平台,賺取租金,變現路徑相對更多,在市場競爭中可以視情況彈性調整產品定價,以應對經營挑戰。

產業迎來AI惠普時代

隨著AI大模型應用的誕生,以深度AI普惠為特徵的全新時代,也逐漸拉開帷幕,AI深度嵌入產業實體,將成為不可逆轉的產業趨勢。

一方面,通用大模型的高門檻和廣泛的垂類領域差異化需求,決定了基於通用大模型的專屬大模型和產業應用,會成為未來主流的應用方向,推動AI加速進入千行百業。 如前文所述,通用大模型的高門檻,決定了國內外能夠做成通用大模型的公司只是少數,而且隨著AI模型變大,AI產業正從「手工作坊」組成的輕工業走向集約化生產,需要高性能、低成本的體系化基礎設施,才能完成工業化生產。

這種能力不僅很多中小企業沒有,即使是對於各行業頭部企業,從0到1優化大模型訓練,本身也不經濟,各行各業都需要成本足夠低的AI基礎設施。而且對於現有的廠商而言,繼續加入這個領域「重複造輪子」並無多大必要。相較之下,垂類大模型本身的訓練成本相對較低,而且一些專業領域擁有豐富資料場景的公司,做垂直大模型條件較好、資料品質較優,推出的產品較能適應垂類產業需求,因此未來各類垂類產業GPT,或將成為主流大模型應用,推動AI快速滲透產業。

另一方面,發展AI大模型的短期瓶頸是算力,長期來看是數據,因此高品質的前端應用有助於加速企業累積充分的數據資產,增強自身長期競爭力,加速產業應用普惠進程。 目前來看,大模型的快速迭代和進化,迫使所有的參與玩家不斷累積算力資源,從晶片、雲端服務等各方面來優化配置,保證大模型訓練所需的算力支持。不過,從更長遠來看,訓練AI大模型的演算法還在不斷優化調整之中,未來隨著演算法的突破,算力可能不再是瓶頸,而高品質的資料資源將成為一種稀缺的資源,會受到更多關注。

作為業界首個基於AI大模型的應用,通義聽悟的面世,有利於阿里加速積累優質數據資源,加速產業普惠進程,為更長期的發展奠定良好基礎。

以上是通義聽悟誕生背後,AI大模型打響應用第一槍的詳細內容。更多資訊請關注PHP中文網其他相關文章!

陳述:
本文轉載於:sohu.com。如有侵權,請聯絡admin@php.cn刪除