首頁 >科技週邊 >人工智慧 >百度商業多模態理解及 AIGC 創新實踐

百度商業多模態理解及 AIGC 創新實踐

王林
王林轉載
2023-09-18 17:33:051116瀏覽

百度商业多模态理解及 AIGC 创新实践

一、富媒體多模態理解

#首先來介紹我們對多模態內容的感知。

1、多模態理解

提升內容理解能力,讓廣告系統在細分場景下更懂內容。

百度商业多模态理解及 AIGC 创新实践

在提升內容理解能力時,會遇到許多現實的問題:

  • 商業業務場景多、行業多,獨立建模冗餘且會導致過擬合,場景間分佈共性和特異性,統一建模如何兼顧。
  • 商業視覺材料週邊文字差,容易導致配圖badcase。
  • 系統充斥無意義ID類別特徵、泛化性差。
  • 富媒體時代,如何有效率地利用視覺語義,這些內容特徵、影片特徵和其他特徵如何融合,是我們需要去解決的,用以提升系統內對富媒體內容的感知力度。

什麼是好的多模態基礎表徵。

百度商业多模态理解及 AIGC 创新实践

什麼是一個好的多模態表徵?

從廣度上要擴大資料應用的範圍,從深度上要提升視覺效果,同時確保場景的資料微調。在

之前,常規的思路是,訓練一個模型去學習圖片的模態,一個自回歸的任務,然後做文本的任務,再套用一些雙塔的模式,去拉近二者的模態關係。那時的文字建模比較簡單,大家更多的是在研究視覺怎麼建模。最開始是CNN,後麵包括一些基於目標檢測的方式去提升視覺的表徵,例如bbox方式,但這種方式的檢測能力有限,並且太重了,並不利於大規模的資料訓練。

到了2020年和2021年前後, VIT方式成為了主流。這裡不得不提的一個比較有名的模型就是 OpenAI在20年發布的一個模型CLIP,基於雙塔的架構分別去做文字和視覺的表徵。再用cosine去拉進二者的距離。模型在檢索上面非常優秀,但在VQA任務等一些需要邏輯推理的任務上,就稍微顯出能力不足了。

學表徵:提升自然語言對視覺的基礎知覺能力。

百度商业多模态理解及 AIGC 创新实践

我們的目標就是要提升自然語言對視覺的基礎感知能力。數據方面,我們的商業領域有著億級的數據,但仍然不夠,我們需要進一步擴展,引入商業域以往的數據,並進行清洗和梳理。建構了百億級別的訓練集。

我們建構了VICAN-12B多模態表徵生成模型,利用生成任務讓視覺對文本的還原,進一步確保視覺表徵對文本的融合效果,提升自然語言對視覺的基礎感知能力。上圖中展示了模型的整體結構,可以看到它還是一個雙塔 單塔的複合結構。因為首先要解決的是一個大規模的圖片檢索任務。左邊的框框中的部分我們稱之為視覺的感知器,是20億參數規模的ViT結構。右邊可以分成兩層看,下面為了做檢索,是一個文字的transformer的堆疊,上面為了做生成。模型分為了三個任務,一個是生成任務,一個是分類任務,一個是圖片對比任務,基於這三個不同目標去訓練模型,所以達到了比較好的效果,但我們也會進一步去優化。

一套高效率、統一、可遷移的多場景全域表徵方案。

百度商业多模态理解及 AIGC 创新实践

結合商業場景數據,引入了LLM模型提升模型理解能力。 CV模型是感知器,LLM模型是理解器。我們的做法就是需要把視覺特徵做對應的遷移,因為剛才提到,表徵是多模態的,大模型是基於文字的。我們只要讓它去適合我們的文心LLM的大模型就可以了,所以我們需要利用Combo attention的方式,去做對應的特徵融合。我們需要保留大模型的邏輯推理能力,所以盡量不動大模型,只是加入商業場景回饋數據,去促進視覺特徵到大模型的融合。我們可以用few shot的方式去支撐下任務。主要任務包括:

  • 圖片的描述,其實它不只是個描述,而是一個Prompt逆向工程,優質的圖文資料可以作為我們後面文生圖的一個比較好的資料來源。
  • 圖文相關性控制,因為商業需要做配置,需要做對圖片資訊的理解,我們廣告配圖的搜尋字詞和圖片語意其實是需要做控制的,當然這是一個很通用的方式,就可以對圖片和Prompt進行相關的判定。
  • 圖片風險&體驗控制,我們已經能夠對圖片的內容進行比較好的描述了,那麼我們只需要簡單利用風控的小樣本數據遷移就能夠清楚知道它是否涉及一些風險問題。

下面,重點分享下場景化精調。

2、場景化精調

視覺檢索場景,基於基礎表徵的雙塔微調。

百度商业多模态理解及 AIGC 创新实践

以基礎表徵為基礎,結合文字大模型,利用商業各場景的圖片點擊回饋訊號為Labelers,精細化刻畫不同場景圖文偏序關係。我們在7大數據集上進行了評測,都可以達到SOTA的效果。

排序場景,受文本切詞啟發,將多模態特徵語意量化。

百度商业多模态理解及 AIGC 创新实践

表徵以外,另一個問題是如何提升排序場景中視覺的效果。先來看領域背景,大規模離散DNN​​為業界排序模型主流發展方向,離散特性也是排序模型最佳化的核心。文本入模型,基於切詞將其token化,與其他離散特徵組合,效果佳。而對於視覺,我們希望也能將其進行token化。

ID類別特徵其實是一個極具個性化的特徵,但是泛化特徵通用性好了,其刻畫精度可能就變差了。我們需要透過數據和任務去動態調節這個平衡點在哪。也就是希望找到一個和資料最相關的尺度,去把特徵進行對應的」切詞」變成一個ID,像文字一樣去切分多模態特徵。所以我們提出了一個多尺度、多層次的內容量化學習方法,去解決這個問題。

排序場景,多模態特徵與模型的融合 MmDict。

百度商业多模态理解及 AIGC 创新实践

主要分兩步,第一步是學離散,第二步是學融合。

Step1:學離散

①  利用稀疏活化將連續訊號用多個離散化訊號表達;也就是透過稀疏活化的方式把稠密特徵進行切分,然後去激活對應多模態codebook裡面的ID,但這裡面其實只有argmax操作,會引來不可導的問題,同時為了去防止特徵空間的坍塌,加入了激活神經元與未激活神經元信息交互。

②  引入 STE 策略,解決網路不可導問題, rebuild原始特徵,確保偏序關係不變。

透過encoder-decoder的方式,把稠密特徵進行序列量化,再透過正確的方式把量化出來的特徵進行還原。還原前後要確保它的偏序關係不變,幾乎可以控制特徵在具體任務上的量化損失小於1%,這樣的ID具備了當下資料分佈個性化的同時,還具有泛化特性。

Step2:學融合

①  與排序模式大規模離散在 Sparse層融合。

那麼剛才提到的隱層複用直接放在上面去,其實效果一般。如果把它ID化,量化之後,到sparse特徵層和其他類別的特徵進行融合,有著比較好的效果。

②  通過中心 -> 殘差2層級,S-M-L 3種尺度,降低損失。

當然我們也採用了一些殘差,以及多尺度的方式。從2020年開始,我們把量化的損失逐步壓低,去年達到了一個點以下,這樣就可以在大模型抽出來特徵之後,我們用這種可學習量化的方式對視覺內容進行刻畫,具備語義關聯ID的特徵其實非常適配我們現在的商業系統,包括推薦系統的ID的這樣一個探索的研究方式。

二、擎舵

1、商業AIGC 深度結合行銷,提升內容生產力,效率效果連動優化

百度商业多模态理解及 AIGC 创新实践

##百度行銷AIGC創意平台從靈感到創作,再到投放形成了一個完美的閉環。從解構、生成、回饋都在推進優化我們的AIGC。

  • 靈感:AI理解(內容&使用者理解)。 AI能不能幫助我們去找什麼樣的Prompt是好的。從素材洞察到創意指導。
  • 創作:AIGC,如文字生成,圖片生成,還有數位人、影片生成等等。
  • 投放:AI優化。從經驗試誤到自動優化。
2、行銷文案生成= 商業Prompt 體系文心大模型

百度商业多模态理解及 AIGC 创新实践

一個好的商業Prompt,具備以下一些要素:

  • 知識圖譜,比如說賣車,車到底需要包含哪些商業元素,只有品牌是不夠的,廣告主更希望有一個完整的知識體系;
  • 風格,例如現在『文藝範』的宣傳體,其實是需要把它抽象成一些標籤,去幫助我們判斷主要是什麼樣的行銷標題或行銷的一些描述。
  • 賣點,賣點其實就是產品屬性的一個特徵,也就是最強而有力的消費理由。
  • 使用者畫像,是根據目標的行為觀點的差異區分為不同類型,迅速組織在一起,然後把新得出的類型提煉出來,形成一個類型的使用者畫像。
3、複合模態的行銷數位人影片生成,3 分鐘創造1 個數字人

百度商业多模态理解及 AIGC 创新实践

影片生成目前已經比較成熟。但它其實依然存在著一些問題:

  • 腳本寫作:受限於人的知識和經驗,難以持續高品質寫作,同質化嚴重。
  • 素材準備:專業團隊、演員、素材儲備等成本高工具賦能,以「拼裝合成」為主。
  • 後製:後製靠人工試錯,操作繁瑣。

前期透過prompt來輸入,想產生一個什麼樣的視頻,希望選擇一個什麼樣的人,讓他去說什麼,都透過prompt來輸入,然後我們根據其訴求,能夠準確控制我們的大模型去產生對應的腳本。

接下來我們可以透過我們的數位人庫去召回對應的數字人,但可能利用AI技術進一步提升數字人的多樣性,例如人臉替換、背景替換、口音語音替換去適配我們的prompt,最後腳本、數字人唇形替換、背景替換、人臉替換,視頻壓制之後,就可以得到一個口播視頻。顧客得以利用數位人的方式去介紹產品對應的一些行銷賣點。這樣3分鐘即可做好一個數字人,大大提升了廣告主當數字人的能力。

4、行銷海報圖生成,結合多模態表徵的行銷圖片生成

百度商业多模态理解及 AIGC 创新实践

大模型還可以幫助商業實現行銷海報的生成與商品背景的替換。我們已有一個百億規模的多模態表徵,中間這一層是我們學的一個擴散,我們基於好的動態表徵去學unet。在經過大數據的訓練之後,客戶也希望有一些特別個人化的東西,所以我們還需要加入一些微調的方式。

我們提供了一個幫助客戶微調的方案,一個大模型動態載入小參數的方案,這也是目前業界的一個通用的解決方案。

首先我們為客戶提供一個生圖能力,客戶可以透過編輯或Prompt去改變這個圖片背後的背景。

以上是百度商業多模態理解及 AIGC 創新實踐的詳細內容。更多資訊請關注PHP中文網其他相關文章!

陳述:
本文轉載於:51cto.com。如有侵權,請聯絡admin@php.cn刪除