百度商業多模態理解及 AIGC 創新實踐-人工智慧-PHP中文網

首頁

科技週邊

人工智慧

百度商業多模態理解及 AIGC 創新實踐

王林

Sep 18, 2023 pm 05:33 PM

aigc大模型

百度商业多模态理解及 AIGC 创新实践

一、富媒體多模態理解

#首先來介紹我們對多模態內容的感知。

1、多模態理解

提升內容理解能力，讓廣告系統在細分場景下更懂內容。

百度商业多模态理解及 AIGC 创新实践

在提升內容理解能力時，會遇到許多現實的問題：

商業業務場景多、行業多，獨立建模冗餘且會導致過擬合，場景間分佈共性和特異性，統一建模如何兼顧。
商業視覺材料週邊文字差，容易導致配圖badcase。
系統充斥無意義ID類別特徵、泛化性差。
富媒體時代，如何有效率地利用視覺語義，這些內容特徵、影片特徵和其他特徵如何融合，是我們需要去解決的，用以提升系統內對富媒體內容的感知力度。

什麼是好的多模態基礎表徵。

百度商业多模态理解及 AIGC 创新实践

什麼是一個好的多模態表徵？

從廣度上要擴大資料應用的範圍，從深度上要提升視覺效果，同時確保場景的資料微調。在

之前，常規的思路是，訓練一個模型去學習圖片的模態，一個自回歸的任務，然後做文本的任務，再套用一些雙塔的模式，去拉近二者的模態關係。那時的文字建模比較簡單，大家更多的是在研究視覺怎麼建模。最開始是CNN，後麵包括一些基於目標檢測的方式去提升視覺的表徵，例如bbox方式，但這種方式的檢測能力有限，並且太重了，並不利於大規模的資料訓練。

到了2020年和2021年前後， VIT方式成為了主流。這裡不得不提的一個比較有名的模型就是 OpenAI在20年發布的一個模型CLIP，基於雙塔的架構分別去做文字和視覺的表徵。再用cosine去拉進二者的距離。模型在檢索上面非常優秀，但在VQA任務等一些需要邏輯推理的任務上，就稍微顯出能力不足了。

學表徵：提升自然語言對視覺的基礎知覺能力。

百度商业多模态理解及 AIGC 创新实践

我們的目標就是要提升自然語言對視覺的基礎感知能力。數據方面，我們的商業領域有著億級的數據，但仍然不夠，我們需要進一步擴展，引入商業域以往的數據，並進行清洗和梳理。建構了百億級別的訓練集。

我們建構了VICAN-12B多模態表徵生成模型，利用生成任務讓視覺對文本的還原，進一步確保視覺表徵對文本的融合效果，提升自然語言對視覺的基礎感知能力。上圖中展示了模型的整體結構，可以看到它還是一個雙塔單塔的複合結構。因為首先要解決的是一個大規模的圖片檢索任務。左邊的框框中的部分我們稱之為視覺的感知器，是20億參數規模的ViT結構。右邊可以分成兩層看，下面為了做檢索，是一個文字的transformer的堆疊，上面為了做生成。模型分為了三個任務，一個是生成任務，一個是分類任務，一個是圖片對比任務，基於這三個不同目標去訓練模型，所以達到了比較好的效果，但我們也會進一步去優化。

一套高效率、統一、可遷移的多場景全域表徵方案。

百度商业多模态理解及 AIGC 创新实践

結合商業場景數據，引入了LLM模型提升模型理解能力。 CV模型是感知器，LLM模型是理解器。我們的做法就是需要把視覺特徵做對應的遷移，因為剛才提到，表徵是多模態的，大模型是基於文字的。我們只要讓它去適合我們的文心LLM的大模型就可以了，所以我們需要利用Combo attention的方式，去做對應的特徵融合。我們需要保留大模型的邏輯推理能力，所以盡量不動大模型，只是加入商業場景回饋數據，去促進視覺特徵到大模型的融合。我們可以用few shot的方式去支撐下任務。主要任務包括：

圖片的描述，其實它不只是個描述，而是一個Prompt逆向工程，優質的圖文資料可以作為我們後面文生圖的一個比較好的資料來源。
圖文相關性控制，因為商業需要做配置，需要做對圖片資訊的理解，我們廣告配圖的搜尋字詞和圖片語意其實是需要做控制的，當然這是一個很通用的方式，就可以對圖片和Prompt進行相關的判定。
圖片風險&體驗控制，我們已經能夠對圖片的內容進行比較好的描述了，那麼我們只需要簡單利用風控的小樣本數據遷移就能夠清楚知道它是否涉及一些風險問題。

下面，重點分享下場景化精調。

2、場景化精調

視覺檢索場景，基於基礎表徵的雙塔微調。

百度商业多模态理解及 AIGC 创新实践

以基礎表徵為基礎，結合文字大模型，利用商業各場景的圖片點擊回饋訊號為Labelers，精細化刻畫不同場景圖文偏序關係。我們在7大數據集上進行了評測，都可以達到SOTA的效果。

排序場景，受文本切詞啟發，將多模態特徵語意量化。

百度商业多模态理解及 AIGC 创新实践

表徵以外，另一個問題是如何提升排序場景中視覺的效果。先來看領域背景，大規模離散DNN為業界排序模型主流發展方向，離散特性也是排序模型最佳化的核心。文本入模型，基於切詞將其token化，與其他離散特徵組合，效果佳。而對於視覺，我們希望也能將其進行token化。

ID類別特徵其實是一個極具個性化的特徵，但是泛化特徵通用性好了，其刻畫精度可能就變差了。我們需要透過數據和任務去動態調節這個平衡點在哪。也就是希望找到一個和資料最相關的尺度，去把特徵進行對應的」切詞」變成一個ID，像文字一樣去切分多模態特徵。所以我們提出了一個多尺度、多層次的內容量化學習方法，去解決這個問題。

排序場景，多模態特徵與模型的融合 MmDict。

百度商业多模态理解及 AIGC 创新实践

主要分兩步，第一步是學離散，第二步是學融合。

Step1：學離散

① 利用稀疏活化將連續訊號用多個離散化訊號表達；也就是透過稀疏活化的方式把稠密特徵進行切分，然後去激活對應多模態codebook裡面的ID，但這裡面其實只有argmax操作，會引來不可導的問題，同時為了去防止特徵空間的坍塌，加入了激活神經元與未激活神經元信息交互。

② 引入 STE 策略，解決網路不可導問題， rebuild原始特徵，確保偏序關係不變。

透過encoder-decoder的方式，把稠密特徵進行序列量化，再透過正確的方式把量化出來的特徵進行還原。還原前後要確保它的偏序關係不變，幾乎可以控制特徵在具體任務上的量化損失小於1%，這樣的ID具備了當下資料分佈個性化的同時，還具有泛化特性。

Step2:學融合

① 與排序模式大規模離散在 Sparse層融合。

那麼剛才提到的隱層複用直接放在上面去，其實效果一般。如果把它ID化，量化之後，到sparse特徵層和其他類別的特徵進行融合，有著比較好的效果。

② 通過中心 -> 殘差2層級，S-M-L 3種尺度，降低損失。

當然我們也採用了一些殘差，以及多尺度的方式。從2020年開始，我們把量化的損失逐步壓低，去年達到了一個點以下，這樣就可以在大模型抽出來特徵之後，我們用這種可學習量化的方式對視覺內容進行刻畫，具備語義關聯ID的特徵其實非常適配我們現在的商業系統，包括推薦系統的ID的這樣一個探索的研究方式。

二、擎舵

1、商業AIGC 深度結合行銷，提升內容生產力，效率效果連動優化

百度商业多模态理解及 AIGC 创新实践

##百度行銷AIGC創意平台從靈感到創作，再到投放形成了一個完美的閉環。從解構、生成、回饋都在推進優化我們的AIGC。

靈感：AI理解（內容&使用者理解）。 AI能不能幫助我們去找什麼樣的Prompt是好的。從素材洞察到創意指導。
創作：AIGC，如文字生成，圖片生成，還有數位人、影片生成等等。
投放：AI優化。從經驗試誤到自動優化。

2、行銷文案生成= 商業Prompt 體系文心大模型

百度商业多模态理解及 AIGC 创新实践

一個好的商業Prompt，具備以下一些要素：

知識圖譜，比如說賣車，車到底需要包含哪些商業元素，只有品牌是不夠的，廣告主更希望有一個完整的知識體系；
風格，例如現在『文藝範』的宣傳體，其實是需要把它抽象成一些標籤，去幫助我們判斷主要是什麼樣的行銷標題或行銷的一些描述。
賣點，賣點其實就是產品屬性的一個特徵，也就是最強而有力的消費理由。
使用者畫像，是根據目標的行為觀點的差異區分為不同類型，迅速組織在一起，然後把新得出的類型提煉出來，形成一個類型的使用者畫像。

3、複合模態的行銷數位人影片生成，3 分鐘創造1 個數字人

百度商业多模态理解及 AIGC 创新实践

影片生成目前已經比較成熟。但它其實依然存在著一些問題：

腳本寫作：受限於人的知識和經驗，難以持續高品質寫作，同質化嚴重。
素材準備：專業團隊、演員、素材儲備等成本高工具賦能，以「拼裝合成」為主。
後製：後製靠人工試錯，操作繁瑣。

前期透過prompt來輸入，想產生一個什麼樣的視頻，希望選擇一個什麼樣的人，讓他去說什麼，都透過prompt來輸入，然後我們根據其訴求，能夠準確控制我們的大模型去產生對應的腳本。

接下來我們可以透過我們的數位人庫去召回對應的數字人，但可能利用AI技術進一步提升數字人的多樣性，例如人臉替換、背景替換、口音語音替換去適配我們的prompt，最後腳本、數字人唇形替換、背景替換、人臉替換，視頻壓制之後，就可以得到一個口播視頻。顧客得以利用數位人的方式去介紹產品對應的一些行銷賣點。這樣3分鐘即可做好一個數字人，大大提升了廣告主當數字人的能力。

4、行銷海報圖生成，結合多模態表徵的行銷圖片生成

百度商业多模态理解及 AIGC 创新实践

大模型還可以幫助商業實現行銷海報的生成與商品背景的替換。我們已有一個百億規模的多模態表徵，中間這一層是我們學的一個擴散，我們基於好的動態表徵去學unet。在經過大數據的訓練之後，客戶也希望有一些特別個人化的東西，所以我們還需要加入一些微調的方式。

我們提供了一個幫助客戶微調的方案，一個大模型動態載入小參數的方案，這也是目前業界的一個通用的解決方案。

首先我們為客戶提供一個生圖能力，客戶可以透過編輯或Prompt去改變這個圖片背後的背景。

以上是百度商業多模態理解及 AIGC 創新實踐的詳細內容。更多資訊請關注PHP中文網其他相關文章！

陳述

本文轉載於：51CTO.COM。如有侵權，請聯絡admin@php.cn刪除

统一角色、百变场景，视频生成神器PixVerse被网友玩出了花，超强一致性成「杀招」Apr 01, 2024 pm 02:11 PM

又双叒叕是一个新功能的亮相。你是否会遇见过想要给图片角色换个背景，但是AI总是搞出「物非人也非」的效果。即使在Midjourney、DALL・E这样成熟的生成工具中，保持角色一致性还得有些prompt技巧，不然人物就会变来变去，根本达不到你想要的结果。不过，这次算是让你遇着了。AIGC工具PixVerse的「角色-视频」新功能可以帮你实现这一切。不仅如此，它能生成动态视频，让你的角色更加生动。输入一张图，你就能够得到相应的动态视频结果，在保持角色一致性的基础上，丰富的背景元素和角色动态让生成结果

小米相册 AIGC 编辑功能正式上线：支持智能扩图、魔法消除 ProMar 14, 2024 pm 10:22 PM

3月14日消息，小米官方今日宣布，小米相册AIGC编辑功能正式上线小米14Ultra手机，并将在本月内全量上线小米14、小米14Pro和RedmiK70系列手机。AI大模型为小米相册带来两个新功能：智能扩图与魔法消除Pro。AI智能扩图支持对构图不好的图片进行扩展和自动构图，操作方式为：打开相册编辑-进入裁切旋转-点击智能扩图。魔法消除Pro能够对游客照中的路人进行无痕消除，使用方式为：打开相册编辑-进入魔法消除-点击右上角的Pro。目前，小米14Ultra机器已经上线智能扩图与魔法消除Pro功

ChatGPT克星，介绍五款免费又好用的AIGC检测工具May 22, 2023 pm 02:38 PM

简介ChatGPT推出后，犹如潘多拉魔盒被打开了。我们现在正观察到许多工作方式的技术转变。人们正在使用ChatGPT创建网站、应用程序，甚至写小说。随着AI生成工具的大肆宣传和引入，我们也已经看到了不良行为者的增加。如果你关注最新消息，你一定曾听说ChatGPT已经通过了沃顿商学院的MBA考试。迄今为止，ChatGPT通过的考试涵盖了从医学到法律学位等多个领域。除了考试之外，学生们正在用它来提交作业，作家们正在提交生成性内容，而研究人员只需输入提示语就能产生高质量的论文。为了打击生成性内容的滥用

营销效果大幅提升，AIGC视频创作就该这么用Jun 25, 2024 am 12:01 AM

经过一年多的发展，AIGC已经从文字对话、图片生成逐步向视频生成迈进。回想四个月前，Sora的诞生让视频生成赛道经历了一场洗牌，大力推动了AIGC在视频创作领域的应用范围和深度。在人人都在谈论大模型的时代，我们一方面惊讶于视频生成带来的视觉震撼，另一方面又面临着落地难问题。诚然，大模型从技术研发到应用实践还处于一个磨合期，仍需结合实际业务场景进行调优，但理想与现实的距离正在被逐步缩小。营销作为人工智能技术的重要落地场景，成为了很多企业及从业者想要突破的方向。掌握了恰当方法，营销视频的创作过程就会

AIGC革新客户服务，维音构建“1+5”生成式AI智能产品矩阵Sep 15, 2023 am 11:57 AM

由自然语言处理、语音识别、语音合成、机器学习等技术组成的人工智能技术，应用于各行各业获得广泛认可。置身于AI应用的前沿，从2022年底开始，维音不断见证AIGC技术所带来的惊喜，也有幸参与到这场覆盖全球的技术浪潮。经过训练、测试、调优和应用，维音将其丰富的客户服务行业经验与强大的大模型能力相结合，开发出了适用于坐席端和业务端的生成式AI客服机器人。同时，维音还将底层能力与维音Vision系列智能产品相互连接，最终形成了“1+5”维音生成式AI智能产品矩阵其中，“1”是维音自主训练的大模型服务平台

实测7款「Sora级」视频生成神器，谁有本事登上「铁王座」？Aug 05, 2024 pm 07:19 PM

机器之能报道编辑：杨文谁能成为AI视频圈的King？美剧《权力的游戏》中，有一把「铁王座」。传说，它由巨龙「黑死神」熔掉上千把敌人丢弃的利剑铸成，象征着无上的权威。为了坐上这把铁椅子，各大家族展开了一场场争斗和厮杀。而自Sora出现以来，AI视频圈也掀起了一场轰轰烈烈的「权力的游戏」，这场游戏的玩家主要有大洋彼岸的RunwayGen-3、Luma，国内的快手可灵、字节即梦、智谱清影、Vidu、PixVerseV2等。今天我们就来测评一下，看看究竟谁有资格登上AI视频圈的「铁王座」。-1-文生视频

美图公司AIGC落地B端新场景，“AI海报”进一步提升设计效率May 25, 2023 pm 09:11 PM

5月16日,美图公司旗下美图设计室上线“AI海报”功能,该功能旨在降低设计门槛,提高制作效率。在AIGC的加持下,让更多非专业人士也能轻松制作出高质量海报。传统的海报制作方式包括使用Photoshop专业设计工具和使用海报模板这类便捷设计工具。PS需要专业设计师才能熟练操作,但即使是专业设计师,也需要花费较多时间不断调整尺寸、配色等细节,耗费大量时间和精力。没有设计基础的人只能使用现成的海报模板来完成设计,但选择模板、替换图片、替换文本同样消耗时间,而且即便用户花了大量时间,有时候也无法达到理想

AI在用 | 川普魂穿《黑神话》，3D「魔改」悟空……一只黑猴勾起多少种AI玩法？Aug 21, 2024 pm 10:50 PM

机器之能报道编辑：杨文以大模型、AIGC为代表的人工智能浪潮已经在悄然改变着我们生活及工作方式，但绝大部分人依然不知道该如何使用。因此，我们推出了「AI在用」专栏，通过直观、有趣且简洁的人工智能使用案例，来具体介绍AI使用方法，并激发大家思考。我们也欢迎读者投稿亲自实践的创新型用例。投稿邮箱：content@jiqizhixin.com这两天被一只黑猴子刷了屏。这热度高得有多离谱？抖音、微博、公众号，只要一划拉，全在聊这款国产游戏《黑神话：悟空》，甚至官媒都下场开直播。还有公司直接放假，让员工在

See all articles