去年以來出現了 AIGC 熱潮,引發了 AIGC 及其應用主題的爆發性增長,不少人感慨強人工智慧的時代已經離我們不那麼遙遠了。但在熱潮的另一面,我們看到真正能落地的場景依然是鳳毛麟角,目前比較成功的應用主要集中在個人消費領域,而 AIGC 在產業中的應用大多仍處於探索階段。
紅杉資本在22 年9 月就對AIGC 做出了以下預判:文字類AI 生成將在2023 年進入黃金時期,圖片類AI 生成黃金時期將在2025 年左右抵達,3D 和視訊類AI 生成在2023 年可能正處於草稿階段,進入黃金時期或許在2030 年。不可否認,文字與圖片的 AI 生成確實走在了前面,而 3D 模型、視訊和遊戲生成仍在研發階段。
#紅杉資本針對AIGC 相關產品成熟預測
############################################ # ##########若考慮到AIGC 產業應用,如在製造業、建築業等巨型垂直實體領域中,AIGC 的C/Content 內容將無法只停留在圖片和文字的領域,而是需要進入資訊更為豐富的三維領域。接下來,我們將從 AIGC 技術 -> 產品 -> 業務應用和價值實現環節探討其發展路徑,並以產業實例探討 AIGC 如何在產業領域實現閉環和價值落地。 #########1.AIGC 技術:從文字到圖片#########從大家對ChatGPT 越來越多的測試中可以看到,ChatGPT 不僅能對語意進行解析和結構化,還能在此基礎上用NLP 自然語言處理做資料分析。 ##################################ChatGPT 對內容進行結構化處理和資料分析- 佳格資料提供## ################事實上,以Stable Diffusion 為首的一眾AI 畫圖框架或平台,在去年更早的時候已經引起了轟動。雖然圖片相對文字來說看上去資訊含量要更為複雜,但是其技術成熟卻要比以GPT 為首的文字生成來的更早一些,我們有必要從主流的開源框架Stable Diffusion 為例,回顧一下這些圖片AIGC 框架是如何運作的。 ############Stable Diffusion 產生的圖片, 已經有了比擬人類畫家的能力############Stable Diffusion 主要有三個組成部分,每一個部分都有自己的神經網路。 ###############1、CLIP 用於文字編碼器:###以文字作為輸出的語意訊息組成一個77*768 的矩陣,CLIP 訓練AI 同時進行自然語言理解和電腦視覺分析。 CLIP 可以決定圖像和文字提示的對應程度,例如逐步把建築的圖像和 「建築」 這個詞完全匹配起來,而其能力訓練是透過全球 40 多億張帶文字描述的圖片實現的。 ##############################CLIP 的訓練集################ ##2、UNET 及調度程序:###這就是大名鼎鼎的擴散模型主程式(取自CompVis 和Runway 團隊於2021 年12 月提出的「潛在擴散模型」(LDM / Latent Diffusion Model)),用於對雜訊進行預測實現反向去雜訊的過程,進而實現圖片在資訊空間中的產生。如圖片所示,染料擴散的過程就像從圖片逐漸變成雜訊的過程,而當研究人員對圖片增加隨機雜訊讓AI 反向學習整體過程,而後就擁有了一套從資訊空間雜訊圖反向產生圖片的模型。 #####################
Diffusion 模型反向去噪過程
#用通俗的例子解釋,如果在清水中隨機滴入一些染料,隨著時間推移會得到如下圖一樣絢麗的形狀。那麼有沒有一種方法,能夠根據某一個特定時間特定的狀態,反向推出初始的染料用量、順序、滴入水缸的初始狀態等資訊呢?顯然,如果不借用 AI 的方式幾乎無法實現。
#不同的染料滴入水中擴散出不同的形狀
#3、資訊空間到真實圖片空間的解碼器:即將資訊空間中的矩陣資訊轉換為肉眼可見的RGB 圖片。想像我們與人溝通的過程,聽到的聲音訊號轉換為大腦能理解的文字訊號儲存在腦中,這個過程稱之為編碼。如果嘗試把文字訊號透過某種語言表達出來,這個過程可以稱為解碼- 這裡的表達方式可以是任意的語言,每種語言對應不同的解碼器,解碼只是一種表達方式,本質還是基於人類腦海中對於某件事情的描述與理解。
StableDiffusion 從輸入到輸出全流程解讀
#正是有了這幾個關鍵技術步驟的串聯,Stable Diffusion 成功創建了一個無所不能的AI 作圖機器人,不僅能理解語義,將其轉化為信息空間的信息流,還能夠在信息空間中透過模擬降噪創作,透過解碼器還原成肉眼可見的圖片,這充滿科幻色彩的過程放在AI 不存在的世界來看,堪稱神蹟。
圖片產生已經取得了突破性的效果,但如果這些成果能夠進一步優化應用到更多領域,將有可能實現更大價值。我們也看到一些細分領域中的探索成果,例如經由對場景的理解,透過不同的資料集加入和調參,可以實現對圖片產生更好的控制,而不僅是透過文字的不斷試誤來獲得更優結果。
2.1 設計意向圖產生
2019 年初,在海外獲得大量關注,在國內我們也看到企業推出了在細分領域的成果。而團隊也於22 年8 月實驗性的在手機端推出了「AI 創意庫」,只需要輸入一句話,對話機器人就能在一分鐘內快速理解語義,產生多張效果細膩貼近建築概念方案的意向圖。在此之上,更是可以透過輸入一張已有的圖片,修改部分描述的關鍵字,「AI 創意庫」即可產生一系列的衍生圖片,輔助設計師在日常創作中尋找靈感。
小庫科技「這個建築不存在」,GANs 模型產生建築意象圖及迭代過程
左圖:小庫「AI 創意庫」生成,觸發語句Louis Kahn 風格,依山傍水的小型博物館;右圖:小庫「AI 創意庫」生成,基於左圖Louis Kahn 風格圖片,完成風格切換至Le Corbusier
為了讓「AI 創意庫」的效果更優,團隊做了一些新的探索:由於現有的演算法和模型更聚集在通用網路素材上,建築相關的圖片、形容及風格的資料儲備在專業程度顯然是不夠的。這裡採取了一種針對建築相關詞彙的特殊標識,組成一個微調的先驗資料集並將該資料集融合訓練,實現模型增強。透過建築專業領域增強的新模型,形成了面向建築業專屬的 AI 創意庫,針對建築類描述短句,測試集優品率相比原有模型提升了 13.6% 之多。
Google Dreambooth Fine-Tuning 演算法示意
舉個例子,當輸入一張博物館圖片及一個詞彙"Zaha Hadid(過世的全球著名女建築師)" 的時候,模型能夠理解需要將博物館的建築風格或特徵往Zaha Hadid 的作品靠攏,而不是在博物館中增加一個Zaha Hadid 的人物或畫像,抑或是在AI 世界裡創作一個Zaha Hadid 的卡通畫像—— 這往往是通用模型會返回的結果之一。
#經過微調後的建築模型,小庫「AI 創意庫」能充分理解「Zaha Hadid 」 這個特殊詞彙隱含意思
2.2 3D 模型生成
二維的圖片雖然精彩,但在產業應用中暫時還只是停留在「意向圖庫」 的作用,未來如果要成為可以精準表達設計的成果,需要向3D 和更高資訊維度去邁進。
在2020 年AIGC 沒有現在這麼成熟的時候,上述團隊就在探索如何用AI 生成3D 模型,並在同濟大學DigitalFUTURES 工作坊教學中,公開了其在研發的中從圖形生成圖像進一步生成模型的演算法,能看到當時的模型效果並不太理想,有價值的是實現了圖形- 圖像- 模型的聯動。
2020 同濟大學DigitalFUTURES 工作坊小庫教學團隊成果,手繪圖產生圖像進而產生模型
第二年在同濟大學DigitalFUTURES 工作坊教學中,該團隊發布了一種透過GANs 學習圖與真實三維模型之間關係,將圖生成為真實三維模型的演算法。演算法透過對圖上不同的圖層元素進行特徵學習,能大致復原出圖所對應的主要物體三維拉伸形體,預測不同物體投影所對應的原物體高度。當然,這種方法還有一定的缺陷,只能在圖場景中使用,難以累積其他場景中同類圖片與三維形體之間的關係;其次是還原的三維形體只能粗略預測高度,其他細節需要透過演算法重新生成,與真實的三維模型有較大誤差,只能用於專案早期研判使用,應用場景有限。
#城市三維模型分層特徵擷取訓練示意圖
##2021 同濟大學DigitalFUTURES 工作坊小庫教學團隊成果,基於GANS 的圖重建三維模型
得益於AIGC 演算法的爆發、3D 生成演算法的日益成熟,我們也看到垂直類AI 企業開始吸收更多先進的技術與思路改善其模型,並在3D-AIGC 的路線上有了一些新的嘗試方向。例如 OPENAI 推出了 Point-E 框架,該框架可以將任意二維圖片透過演算法預測為點雲,進而透過點雲去預測三維物件。
PointE 框架全過程示意圖
但是模型產生的品質依然有一定的限制,而模型的不可用主要體現在以下三個方面:
##1. 三維形體還原困難:首先二維影像資料比三維模型資料出現早,同時可取得的二維影像資料目前也比後者多,因此前者可作為訓練素材的量級更多,較少的三維模型訓練素材的泛化能力有限,難以還原最初的三維形體;
2. 材質整體缺失:對於三維模型來說最重要的一環是材質的填充與選擇,然而對於AI生成來說,從圖片直接推敲其材質的方法尚未成熟,同樣材質在不同的形狀、環境、光源下的表現都有所不同,而當這些變數都集中在一張圖片中時,材質重建幾乎不可能實現;
3. 產生的模型精度不達標:透過點雲推敲的模型,通常是依賴點雲的密度重建物體表面Mesh,如果點雲過少物體會嚴重失真,甚至無法重建模型。
#小型庫團隊測試Point- E 模型,左邊建築圖片產生點雲進而模擬出右邊三維模型,遺憾得到的只是一堆無意義的點雲模型,Point-E 暫時還無法理解一棟建築物的圖片
##當然我們能理解目前的技術瓶頸,如果把目標定的稍微低一點,選擇從三維建模軟體中產生的簡單形體、做二維的截圖在point-e 模型中重建,會意外地發現其效果比以上測試較佳,但也仍侷限在「初步草稿」 的範疇。這與訓練集有很大的關聯性,透過三維建模軟體產生各個視角的二維視圖是該模型最容易取得訓練資料的方法之一。
#小型庫團隊測試Point-E 模型,針對建模軟體中選取一個簡單三維模型做任意角度截圖,重建三維模型,往往有還不錯的效果
#綜上來看,從文字-> 圖片-> 點雲->三維物體的技術路線固然令人驚嘆,但如果要應用在產業領域,還有很多工作需要AI 科學家去做。然而,是否只有這條技術路線去實現三維模型的生成?
3 垂直領域AIGC 應用新思維
在泛領域的大模型研發上以OpenAI 為首的廠商,包括Nvidia 和Google 等巨頭也在紛紛推出屬於自己自己的通用型3D-AIGC 框架,遺憾的是目前還處於一個早期階段。對於垂直實體產業來說,落地應用顯然還有很長的路要走。從全球來看,在 3D 模型的生成領域除了泛領域大模型外,部分垂直產業也在探索 AIGC 如何應用落地。例如西門子在引擎的設計和製造上針對生成的模型進行方針模擬和進一步優化,最終透過3D列印實體,實現了3D模型生成現成果交付和業務閉環。
西門子透過生成式演算法實現引擎的設計與模擬
這樣的成果的實現,有賴於在產業邏輯下的底層業務內容及其資料標準的不斷迭代。
依照ISO/ IEC 給出對內容的數字標準定義SMART(Standards Machine Applicable, Readable and Transferable 機器可開啟、可讀取和可互動標準):L1 等級為紙本文本,沒有機器交互可能;L2 級為開放數字格式,機器交互性很低;L3 級為機器可讀文檔,但機器無法理解檢索的結果與內容;L4 級為機器可讀內容,可做語義交互但機器無法理解上下文的邏輯關係;L5 級,機器可互動內容,可實現自動辨識、自動生成等智慧屬性。
在產業領域中,目前廣泛應用 L3 級資訊化內容,正在發展 L4 級數位化內容,而 L5 級智慧化是工業 4.0 和智慧製造的核心基礎。因此,產生 L4 級以上機器可讀內容,特別是產生 L5 級智慧化內容,是未來 AIGC 的方向。
#ISO/IEC SMART 數位標準《中國工程科學》2021 年第23 卷第6 期《標準數位化發展現況及趨勢研究》劉曦澤、王益誼、杜曉燕、李佳、車迪
海外已經在AIGC 的產業應用領域開始了實踐,而國內的探索仍然比較稀缺,但我們也發現了一些在垂直領域深耕的企業。例如上述提到的,在建築產業深耕的小庫科技團隊。我們將以其實踐的建築產業為例,探討 AIGC 在垂直產業的落地路徑。
當前國內實體經濟處於轉型的窗口期,國家層級提出「人工智慧與實體經濟融合「的重要任務,各大產業迫切希望AI 技術能真正落地,協助產業實現數位化與智慧化的升級躍遷,而不是停留在概念的DEMO 產品,或是茶餘飯後討論的好玩趣物。
建築產業是接近 30 兆每年的國家支柱產業,但是其數位化水準在全國各行業中排名倒數第一。目前國家提出智慧建造方針,希望邁上 “中國建造” 的新台階。智慧建造是以新型建築工業化(工業化/ 組裝式、數位化、智慧化)為基礎,基於新一代資訊科技與先進建造技術深度融合,貫穿設計、生產、施工、維運、監管等建設活動各環節,具有自感知、自決策、自執行、自適應、自學習等特徵,旨在優化建築產業全生命週期品質、效益和核心競爭力的先進建造方式。
2011-2021 年中國建築業總產值及成長情況- 國家統計局- 前瞻性產業研究院,
#資科來源:Gartner;Kable;經合組織;中央統計局;彭博社;麥肯錫全球研究院分析
而在建築產業,底層資料標準正從機器可讀文檔L3 級的CAD 時代,向機器可讀內容的L4級BIM 時代邁進。建築產業中對3D 模型的要求是內容對象具備三維空間中的全維度精確信息,包括模型、數據等維度,如果還能包含規則維度,進而可使其具備自感知、自學習、自迭代等智能化的能力。目前,L3 級的 CAD 和 L4 級的 BIM 應用軟體已經被海外壟斷,我們發展的空間和潛力必然集中在了可以高維度覆蓋低維度的 L5 級上。
數位標準SMART 在建築領域的內容格式示意
基於對建築產業數位化變革的洞察,小庫團隊意識到必須對整個產業的資料底層進行再定義。從 2016 年成立起便致力於 L5 級 3D 模型 AIGC 的底層技術研發及其在建築產業的應用。基於一套含有業務流邏輯的 AI 系統產生包含建築資訊與多維資料、3D 模型、以及規則 / 規範 / 規律的 “數 - 模 - 規” 可連動的內容,實現建築設計方案的智慧生成。
這樣的底層數據,團隊稱之為 AI driven Building Information Model on Cloud 人工智慧產生的雲端建築資訊模型(簡稱ABC),並將智慧生成的達成歸結為四個實踐步驟:AI 識別現有內容用於訓練或結構化資料重建,對資料進行評估和模擬仿真,透過對初步資料成果進行最佳化,最終產生由系列的AI 模型組成的業務成果。
#L5 級建築智慧格式ABC 智慧雲模示意
AI 識別領域,團隊透過對千萬級的不同業務類型CAD 圖紙資料的清洗和訓練,獲得了L3 級無語義CAD 圖紙的100 % 雲端還原與99.8%* 的準確語意解析和補充,在該領域達到世界先進水準。這項成果已深度應用到企業的多個產品與解決方案中,例如針對施工圖審查的「智慧審圖」中條文審查準確率約為 96%。
小庫施工圖構件與空間辨識
AI 分析領域,基於對專案的有效識別,針對住宅、商場等常用民用建築類型,使得團隊能夠進行物理環境模擬分析、人類行為數據模擬與預測、項目相關大數據的分析和模擬。在應用層面上,可以協助客戶進行專案方案量化分析,例如透過房企全線住宅產品的評估可以得到不同價值評估係數,協助房企提升產品品質。因此,小庫科技也被選為中房協戶型設計比賽首個 AI 評審。這項能力也被應用於香港和國內十餘個商場建築的開發與營運。
小庫「產品力價值評估」
#AI 最佳化領域,團隊認為「最佳化」 是基於前序「辨識」 和「分析「後的進一步尋優迭代,即基於已有內容的重新產生更優的成果。這類技術已在公司具體的產品和解決方案中得到應用。例如在設計雲端 2022 版 「智慧日照優化」 功能中,小庫可以將未通過日照的方案進行自動微調,使其能夠在原有格局不進行巨大調整的前提下通過日照驗證。這項能力也用在了建築方案的設計深化中,例如帷幕牆設計最佳化場景。在與四川省商業設計院合作的四川某博物館帷幕牆計畫中,小庫演算法將原有3 萬多種不規則三角形幕牆板優化為12 種標準模組,比現有世界水準能降低到的116 種還減少了90%,建築帷幕牆成本將因為SKU 和開模數量的降低而大幅降低。
小庫「帷幕牆最佳化 AI 演算法」
#AI 生成領域,是智慧設計最核心的部分。對建築業而言,選擇經濟適用美觀的設計方案、交付安全高效高品質的建造成果,需要多專業、多角色統籌協同完成。不僅需要從宏觀尺度、到中觀尺度再到微觀尺度逐一攻破,還需要在建築、結構、機電、水暖、景觀等多專業逐步覆蓋,更需要涵蓋住宅、公寓、產業、辦公、商業等各種業態類型。因此垂直領域的專業成果生成絕不是某一個模型演算法一套資料可以解決的,它需要多模型、多模態、多資料集等多項技術與商業邏輯有機融合,透過契合細分場景的產品設計和基於使用者回饋的持續迭代,才能最終實現。
小庫團隊從業務邏輯出發,對傳統建築設計所需的24 個業務流程步驟進行梳理,將其核心內容抽取重建為6 個業務模組,以AI 系統與雲端架構為核心,建立起一套全新的建築設計AIGC 業務流程:調(資訊呼叫與AI識別)、做(全AI生成與人機協作生成)、改(人工可改與AI優化)、核(資料核查與AI審查)、協(雲端多人協同與業務管理)、出(自動輸出更多格式- 3D模型/2D圖面/影像/PPT/Excel等)。
#左圖:建築設計原有業務流程24 步驟,右圖:小庫重構為6 個AI 加持下的業務流程板塊
#基於對業務的深刻理解和重構的業務邏輯,在產品設計上將6 大業務模組與AI 識別、AI 生成、大數據、雲端協同技術深度融合,實現了建築規劃、單體設計、構件生成等不同深度的建築業務需求,從分析到設計到審查再到協同與輸出,逐步覆蓋了住宅類業務所需的廣度和深度需求。
「小庫設計雲- 建築規劃」產品6 大模組
「小庫設計雲- 建築單體」產品6 大模組
在大部分產業中,AIGC 的應用仍處於初級階段,整體AI 技術的不斷發展將推動後續AIGC 的創新應用。以目前的建築產業實踐為例,AIGC 目前能夠在產生用戶可感知價值的部分業務細節場景中,輔助提升對效率有較高要求的具體業務場景,如建築產業中的投研、設計、評估、管理和建造等環節。
4.1 最佳解增益與效率提升
在建築產業的投資階段,2021 年推出的「兩集中」 政策(集中供應土地和集中拍地)使大量土地集中在一個月內推出,開發企業需要在短時間內完成對每一塊土地的投資評估,其中最核心的是如何在一塊地上找到最優的建築規劃方案,獲得最大的產品貨值和投資回報計算。原本完成一個住宅規劃概念方案的時間至少需要 3-5 天,無法滿足業務需要,如此就提出了對投前建築規劃方案的極致效率的需求。
小庫團隊推出 AIGC 的建築規劃方案,只要原先 30% 左右的時間就可以輸出初步方案。更重要的是,AI 可以產生和優化一些人沒有想到或難以靠手動窮舉推敲出的方案,從而獲得性能或經濟性方面更優的成果。如在中國金茂的某江西專案中, AI 產生的方案不僅在時間上僅為原有方式的 20%,專案總貨值上比原有方案增加了 5,600 萬。在 2021 年 9 個月的地產拍地市場中,團隊累積完成了近千個專案及近萬個方案,協助客戶成功拿地數十塊。
「小庫設計雲」AI 產生實際住區拿地方案
4.2 成本降低與節能減排
#在實際的建築建造環節,小庫團隊將AI 與DFMA(Design For Manufacture and Assembly 為組裝與製造而設計)的設計方法結合,與建築業巨頭中建集團旗下中建科工攜手,將箱型裝配式建築與AI 設計生成、L5 級ABC “數- 模- 規” 聯動深度結合,實現了投資- 方案- 成本在未實施前的即時聯動,減少了80% 設計和成本變更,並有效降低總體裝配式構件SKU 和開模量,實現50% 以上節能減排。在獲得性能與經濟結果更優的同時,將 “原生數據” 與工廠產線、智慧建造現場有效打通為 “孿生數據”。在深圳某酒店專案中實現了 4 個月完成從設計到建造,將總工期大幅縮短了至少 14 個月,節省了 60% 以上的時間。
「小庫組裝雲」與中建科工合作的深圳某飯店,全過程智能設計與智慧建造)
#L5 層級智慧建造模式與傳統模式比較
透過上述案例可以看到,L5 級的AIGC 可以從資料產生的源頭開始,透過在產業鏈各環節細分場景的具體應用,能夠有效輔助產業鏈獲得更高的全生命週期品質、效益和核心競爭力。未來,AIGC 從文字和圖片邁向更高維度的 3D 和 L5 級內容成果是大勢所趨,這不僅是建築產業對人工智慧的未來預期,也是各垂直產業的共同的期待。
註:*在圖層無明顯錯誤的基礎上,目前小庫AI識別針對標準構件(門、窗、牆、樓梯、電梯、空調、消防栓、車位)等識別準確率為99.8%(測試集為上千張建築平面CAD圖紙,圖紙來源為數家頭部開發商的內部標準庫)
#以上是被ChatGPT帶飛的AIGC,能為垂直產業做些什麼?的詳細內容。更多資訊請關注PHP中文網其他相關文章!