Baidu ビジネスのマルチモーダル理解と AIGC イノベーションの実践-AI-php.cn

ホームページ

テクノロジー周辺機器

Baidu ビジネスのマルチモーダル理解と AIGC イノベーションの実践

王林

Sep 18, 2023 pm 05:33 PM

aigc大型モデル

百度商业多模态理解及 AIGC 创新实践

1. リッチメディアのマルチモーダルについての理解

まず、マルチモーダルコンテンツに対する私たちの認識を紹介しましょう。

1. マルチモーダル理解

コンテンツ理解機能を向上させ、広告システムがセグメント化されたシナリオでコンテンツをよりよく理解できるようにします。

百度商业多模态理解及 AIGC 创新实践

コンテンツ理解能力を向上させる場合、多くの実際的な問題に遭遇するでしょう:

There多くの商用ビジネスシナリオと業界が存在する独立したモデリングは冗長であり、過剰適合につながるシナリオ間の分布の共通性と特異性のバランスをとる方法統合されたモデリングを考慮する方法
#商用ビジュアル素材の周囲に不適切なテキストがあると、簡単に不適切なイラストが作成される可能性があります。
#このシステムは意味のない ID 機能が満載であり、一般化が不十分です。
リッチメディア時代には、ビジュアルセマンティクスを効果的に活用し、これらのコンテンツ機能、ビデオ機能、その他の機能をどのように統合するかが課題です。システム内のリッチメディアコンテンツの知覚強度を改善します。

優れたマルチモーダル基本表現とは何ですか。

百度商业多模态理解及 AIGC 创新实践

#優れたマルチモーダル表現とは何でしょうか?

データ適用範囲を幅の面で拡大し、奥行きの面で視覚効果を向上させ、シーン内のデータを確実に微調整する必要があります。

以前は、画像モダリティ、つまり自己回帰タスクを学習するようにモデルをトレーニングしてからテキストタスクを実行し、次にいくつかのツインタワーモデルを適用してモーダルを閉じるという従来の考え方がありました。二人の関係。当時、テキストモデリングは比較的単純で、誰もがビジョンをモデル化する方法を研究していました。 CNN に始まり、その後、bbox 法などの視覚的表現を改善するためにターゲット検出に基づくいくつかの手法が導入されましたが、この手法は検出能力が限られており、重すぎるため、大規模なデータのトレーニングには適していません。

2020年、2021年頃からVIT工法が主流になってきました。ここで言及しなければならないより有名なモデルの 1 つは、2020 年に OpenAI によってリリースされたモデルである CLIP です。これは、テキストとビジュアル表現のためのツインタワーアーキテクチャに基づいています。次に、コサインを使用して 2 つの間の距離を縮めます。このモデルは検索には非常に優れていますが、VQA タスクなどの論理的推論を必要とする一部のタスクでは能力が若干劣ります。

表現の学習: 自然言語から視覚への基本的な認識能力を向上させます。

百度商业多模态理解及 AIGC 创新实践

# 私たちの目標は、自然言語の基本的な視覚認識を向上させることです。データに関しては、当社の事業領域には数十億件のデータがありますが、まだまだ不十分であり、さらに拡充し、事業領域の過去データを導入し、整理・整理する必要があります。数百億レベルのトレーニングセットが構築されました。

VICAN-12B マルチモーダル表現生成モデルを構築しました。生成タスクを使用してテキストの視覚的復元を可能にし、テキスト上の視覚的表現の融合効果をさらに確実にし、自然言語の視覚効果、基本的な知覚能力。上の写真は模型の全体構造を示したもので、2つの塔と1つの塔の複合構造であることがわかります。なぜなら、最初に解決すべきは大規模な画像検索タスクだからです。左側のボックス内の部分はビジュアルパーセプトロンと呼ばれるもので、20 億パラメータのスケールを持つ ViT 構造です。右側は2層に分かれており、下段は検索用のテキストトランスフォーマーのスタック、上段は生成用のテキストトランスフォーマーのスタックです。モデルは生成タスク、分類タスク、画像比較タスクの 3 つのタスクに分かれており、これら 3 つの異なる目標に基づいてモデルがトレーニングされているため、比較的良好な結果が得られていますが、さらに最適化していきます。

効率的で統合され、転送可能なマルチシナリオのグローバル表現スキームのセット。

百度商业多模态理解及 AIGC 创新实践

LLM モデルは、ビジネスシナリオデータと組み合わせて、モデルの理解能力を向上させるために導入されています。 CV モデルはパーセプトロンであり、LLM モデルは理解者です。私たちのアプローチは、視覚的特徴をそれに応じて転送することです。なぜなら、先ほど述べたように、表現はマルチモーダルであり、大規模なモデルはテキストに基づいているためです。これを Wenxin LLM の大規模モデルに適応させるだけでよいため、対応する機能融合を実行するにはコンボアテンションを使用する必要があります。大規模モデルの論理的推論機能を保持する必要があるため、大規模モデルを放置せず、ビジネスシナリオのフィードバックデータのみを追加して、大規模モデルへの視覚機能の統合を促進するように努めます。いくつかのショットを使用してタスクをサポートできます。主なタスクは次のとおりです:

画像の説明。実際、これは単なる説明ではなく、プロンプトリバースエンジニアリングです。高品質のグラフィックデータは、後でテキストとして使用できます。グラフのためのより良いデータソースです。
画像とテキストの相関制御。ビジネスでは画像情報の構成と理解が必要であるため、広告画像の検索用語と画像セマンティクスは実際に必要です。もちろん、これは画像やプロンプトに対して適切な判断を下すための非常に一般的な方法です。
画像のリスクとエクスペリエンスのコントロールでは、画像の内容を比較的うまく説明できました。その後は、単に次の小さなサンプルデータを使用するだけで済みます。リスク管理移行により、リスク問題が伴うかどうかが明確になります。

# 次に、シーンベースの微調整に焦点を当てましょう。

2. シナリオベースの微調整

ビジュアル検索シナリオ、基本表現に基づくツインタワー微調整。

百度商业多模态理解及 AIGC 创新实践

基本的な表現に基づいて、大きなテキストモデルと組み合わせて、さまざまなビジネスシーンの画像クリックフィードバック信号をラベラーとして使用して、部分的な順序を調整します。さまざまなシーンの写真とテキストの関係。主要な 7 つのデータセットに対して評価を実施しましたが、それらはすべて SOTA の結果を達成できます。

テキストセグメンテーションからインスピレーションを得た並べ替えシナリオは、マルチモーダル機能のセマンティクスを定量化します。

百度商业多模态理解及 AIGC 创新实践

#表現だけでなく、仕分けシーンにおける視覚効果をいかに向上させるかが課題です。まず分野の背景を見てみましょう. 大規模離散 DNN は業界におけるランキングモデルの開発方向の主流であり、離散特徴はランキングモデル最適化の中核でもあります。テキストはモデルに入力され、単語の分割に基づいてトークン化され、他の個別の特徴と組み合わされて、良好な結果が得られます。ビジョンに関しては、同様にトークン化したいと考えています。

ID タイプの特徴は、実際には非常に個人化された特徴ですが、汎用化された特徴がより多用途になるにつれて、その特徴付けの精度が悪化する可能性があります。データとタスクを通じてこのバランスポイントを動的に調整する必要があります。つまり、データに最も関連するスケールを見つけて、それに応じて特徴を ID に「セグメント化」し、テキストなどのマルチモーダル特徴をセグメント化したいと考えています。そこで、この問題を解決するために、マルチスケール、マルチレベルのコンテンツ定量化学習手法を提案しました。

シナリオの並べ替え、マルチモーダル機能とモデルの融合 MmDict。

百度商业多模态理解及 AIGC 创新实践

主に 2 つのステップに分かれており、第 1 ステップは離散性を学び、第 2 ステップは積分を学びます。

ステップ 1: 離散を学習する

① スパースアクティベーションを使用して、複数の離散化信号で連続信号を表現します。つまり、スパースアクティベーションを使用して密なフィーチャをセグメント化し、対応するマルチモーダルコードブックには ID が含まれていますが、実際には argmax 演算のみが存在し、微分不可能な問題が発生します同時に、特徴空間の崩壊を防ぐために、活性化されたニューロンと非活性化されたニューロン間の情報相互作用がが追加されます。

② STE 戦略を導入して、ネットワーク非微分可能性の問題を解決し、元の特徴を再構築し、半順序関係が変わらないことを確認します。

エンコーダ/デコーダ方式を通じて、密な特徴が連続的に量子化され、量子化された特徴が正しい方法で復元されます。半順序関係が復元前後で変化しないことを保証する必要があり、特定のタスクにおける特徴の量的損失をほぼ 1% 未満に抑えることができ、このような ID は現在のデータ分布をパーソナライズするだけでなく、一般化特性を持っています。

Step2: 融合の学習

① Sparse層のソートモデルと大規模に融合します。

次に、先ほど述べた隠れ層の再利用が直接最上部に配置されますが、その効果は実際には平均的です。 ID 化して量子化し、スパースフィーチャレイヤーや他のタイプのフィーチャと融合すると、より良い効果が得られます。

② センター→残留の2段階とS-M-Lの3段階でロスを軽減します。

もちろん、いくつかの残差とマルチスケール手法も使用します。 2020 年から、私たちは定量化損失を徐々に下げ、昨年のある点を下回りました。これにより、大規模なモデルが特徴を抽出した後、この学習可能な定量化手法を使用して、意味論的な関連付け ID を使用して視覚コンテンツを特徴付けることができます。特徴は実際には非常に優れています。このようなレコメンドシステムのIDに関する探索的な調査手法も含め、現在の業務システムに適したものを提案していきます。

2. Qingduo

1. 商用 AIGC はマーケティングを深く統合してコンテンツの生産性を向上させ、効率と効果のつながりを最適化します

百度商业多模态理解及 AIGC 创新实践

#Baidu Marketing AIGC クリエイティブプラットフォームは、インスピレーションから制作、配信まで完璧な閉ループを形成します。解体、生成、フィードバックに至るまで、AIGC の推進と最適化を行っています。

インスピレーション: AI の理解 (コンテンツとユーザーの理解)。 AI は、どのようなプロンプトが適切かを見つけるのに役立ちますか?素材に関する洞察からクリエイティブな方向性まで。
作成: AIGC (テキスト生成、画像生成、デジタルピープル、ビデオ生成など)
配信: AI の最適化。経験的な試行錯誤から自動最適化へ。

2. マーケティングコピーの生成 = ビジネスプロンプトシステムテキストモデル

百度商业多模态理解及 AIGC 创新实践

優れたビジネスプロンプトには次の要素があります。

ナレッジマップ: たとえば、車の販売、車にはどのようなビジネス要素が含まれている必要がありますか? ブランドだけでは十分ではなく、広告主が知りたいと考えているもの詳細完全な知識システム;
スタイル (現在のプロパガンダ本体である「文学スタイル」など) は、実際には、判断しやすくするためにいくつかのラベルに抽象化する必要があります。主にどのようなマーケティングタイトルまたはマーケティングに関する説明です。
セールスポイント、セールスポイントは実際には製品の属性の特徴であり、それが消費の最も強力な理由です。
ユーザーのポートレートを、ターゲットの行動観の違いに基づいてさまざまなタイプに分類し、すばやくまとめて、新たに派生したタイプを洗練して A タイプを形成しますユーザーペルソナの。

3. 複合モーダルマーケティングデジタルヒューマン動画生成、3 分でデジタルヒューマンを作成

百度商业多模态理解及 AIGC 创新实践

##ビデオ生成は現在、比較的成熟しています。しかし、実際にはまだいくつかの問題があります。

スクリプトの作成: 人々の知識と経験によって制限され、高品質の執筆を維持するのが難しく、均一性が深刻です。
材料の準備: 専門チーム、俳優、材料の予備、およびその他の高コストのツールが「アセンブリと合成」に重点を置いて強化されます。
ポストプロダクション: ポストプロダクションは手動の試行錯誤に依存しており、操作は煩雑です。

初期段階では、どのような動画を生成したいか、どのような人物を選択したいか、どのような人物を選択したいかをプロンプトを通じて入力します。たとえば、プロンプトを介してすべての入力を行うと、大規模なモデルを正確に制御して、その要求に基づいて対応するスクリプトを生成できます。

次に、デジタルヒューマンライブラリを通じて対応するデジタルピープルを呼び出すことができますが、AI テクノロジーを使用して、顔の置き換え、背景の置き換え、アクセントなどのデジタルピープルの多様性をさらに強化することもできます。最後に、スクリプト、デジタル唇形状の置換、背景の置換、顔の置換、およびビデオ抑制により、音声ビデオが生成されます。顧客はデジタルヒューマンを使用して、製品に対応するいくつかのマーケティングセールスポイントを紹介できます。このようにして、3 分でデジタル担当者になれるため、広告主のデジタル担当者になる能力が大幅に向上します。

4. マーケティング画像生成のマルチモーダル表現を組み合わせたマーケティングポスター画像の生成

百度商业多模态理解及 AIGC 创新实践

大規模なモデルは、企業がマーケティングポスターの生成を実現するのにも役立ちますおよび製品背景の交換。私たちはすでに数百億のマルチモーダル表現を持っています. 中間層は私たちが学んだ拡散です. 私たちは優れた動的表現に基づいて unet を学習します.ビッグデータを使用したトレーニングの後、顧客は特にパーソナライズされたものを求めているため、いくつかの微調整方法も追加する必要があります。

当社は、顧客の微調整を支援するソリューション、大規模なモデルに小さなパラメータを動的にロードするソリューションを提供します。これは業界で一般的なソリューションでもあります。

まず、お客様に画像を生成する機能を提供し、編集またはプロンプトを通じて画像の背後にある背景を変更できます。

以上がBaidu ビジネスのマルチモーダル理解と AIGC イノベーションの実践の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

声明

この記事は51CTO.COMで複製されています。侵害がある場合は、admin@php.cn までご連絡ください。

AIのスキルギャップは、サプライチェーンのダウンを遅くしていますApr 26, 2025 am 11:13 AM

「AI-Ready労働力」という用語は頻繁に使用されますが、サプライチェーン業界ではどういう意味ですか？サプライチェーン管理協会（ASCM）のCEOであるAbe Eshkenaziによると、批評家ができる専門家を意味します

1つの会社がAIを永遠に変えるために静かに取り組んでいる方法Apr 26, 2025 am 11:12 AM

分散型AI革命は静かに勢いを増しています。今週の金曜日、テキサス州オースティンでは、ビテンサーのエンドゲームサミットは極めて重要な瞬間を示し、理論から実用的な応用に分散したAI（DEAI）を移行します。派手なコマーシャルとは異なり

Nvidiaは、AIエージェント開発を合理化するためにNEMOマイクロサービスをリリースしますApr 26, 2025 am 11:11 AM

エンタープライズAIはデータ統合の課題に直面していますエンタープライズAIの適用は、ビジネスデータを継続的に学習することで正確性と実用性を維持できるシステムを構築する大きな課題に直面しています。 NEMOマイクロサービスは、NVIDIAが「データフライホイール」と呼んでいるものを作成することにより、この問題を解決し、AIシステムがエンタープライズ情報とユーザーインタラクションへの継続的な露出を通じて関連性を維持できるようにします。この新しく発売されたツールキットには、5つの重要なマイクロサービスが含まれています。 NEMOカスタマイザーは、より高いトレーニングスループットを備えた大規模な言語モデルの微調整を処理します。 NEMO評価者は、カスタムベンチマークのAIモデルの簡素化された評価を提供します。 Nemo Guardrailsは、コンプライアンスと適切性を維持するためにセキュリティ管理を実装しています

aiは芸術とデザインの未来のために新しい絵を描きますApr 26, 2025 am 11:10 AM

AI：芸術とデザインの未来人工知能（AI）は、前例のない方法で芸術とデザインの分野を変えており、その影響はもはやアマチュアに限定されませんが、より深く影響を与えています。 AIによって生成されたアートワークとデザインスキームは、広告、ソーシャルメディアの画像生成、Webデザインなど、多くのトランザクションデザインアクティビティで従来の素材画像とデザイナーに迅速に置き換えられています。ただし、プロのアーティストやデザイナーもAIの実用的な価値を見つけています。 AIを補助ツールとして使用して、新しい美的可能性を探求し、さまざまなスタイルをブレンドし、新しい視覚効果を作成します。 AIは、アーティストやデザイナーが繰り返しタスクを自動化し、さまざまなデザイン要素を提案し、創造的な入力を提供するのを支援します。 AIはスタイル転送をサポートします。これは、画像のスタイルを適用することです

エージェントAIとのズームがどのように革命を起こしているか：会議からマイルストーンまでApr 26, 2025 am 11:09 AM

最初はビデオ会議プラットフォームで知られていたZoomは、エージェントAIの革新的な使用で職場革命をリードしています。 ZoomのCTOであるXD Huangとの最近の会話は、同社の野心的なビジョンを明らかにしました。エージェントAIの定義 huang d

大学に対する実存的な脅威Apr 26, 2025 am 11:08 AM

AIは教育に革命をもたらしますか？この質問は、教育者と利害関係者の間で深刻な反省を促しています。 AIの教育への統合は、機会と課題の両方をもたらします。 Tech Edvocate NotesのMatthew Lynch、Universitとして

プロトタイプ：アメリカの科学者は海外の仕事を探していますApr 26, 2025 am 11:07 AM

米国における科学的研究と技術の開発は、おそらく予算削減のために課題に直面する可能性があります。 Natureによると、海外の雇用を申請するアメリカの科学者の数は、2024年の同じ期間と比較して、2025年1月から3月まで32％増加しました。以前の世論調査では、調査した研究者の75％がヨーロッパとカナダでの仕事の検索を検討していることが示されました。 NIHとNSFの助成金は過去数か月で終了し、NIHの新しい助成金は今年約23億ドル減少し、3分の1近く減少しました。リークされた予算の提案は、トランプ政権が科学機関の予算を急激に削減していることを検討しており、最大50％の削減の可能性があることを示しています。基礎研究の分野での混乱は、米国の主要な利点の1つである海外の才能を引き付けることにも影響を与えています。 35

Openaiは、強力なGPT-4.1シリーズを発表しました。実際のアプリケーション向けに設計された3つの高度な言語モデルのファミリー。この大幅な飛躍は、より速い応答時間、理解の強化、およびTと比較した大幅に削減されたコストを提供します

See all articles

ホットAIツール

Undresser.AI Undress

リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover

写真から衣服を削除するオンライン AI ツール。

Undress AI Tool

脱衣画像を無料で

Clothoff.io

AI衣類リムーバー

Video Face Swap

完全無料の AI 顔交換ツールを使用して、あらゆるビデオの顔を簡単に交換できます。

ホットツール

PhpStorm Mac バージョン

最新(2018.2.1)のプロフェッショナル向けPHP統合開発ツール

mPDF

mPDF は、UTF-8 でエンコードされた HTML から PDF ファイルを生成できる PHP ライブラリです。オリジナルの作者である Ian Back は、Web サイトから「オンザフライ」で PDF ファイルを出力し、さまざまな言語を処理するために mPDF を作成しました。 HTML2FPDF などのオリジナルのスクリプトよりも遅く、Unicode フォントを使用すると生成されるファイルが大きくなりますが、CSS スタイルなどをサポートし、多くの機能強化が施されています。 RTL (アラビア語とヘブライ語) や CJK (中国語、日本語、韓国語) を含むほぼすべての言語をサポートします。ネストされたブロックレベル要素 (P、DIV など) をサポートします。

MinGW - Minimalist GNU for Windows

このプロジェクトは osdn.net/projects/mingw に移行中です。引き続きそこでフォローしていただけます。 MinGW: GNU Compiler Collection (GCC) のネイティブ Windows ポートであり、ネイティブ Windows アプリケーションを構築するための自由に配布可能なインポートライブラリとヘッダーファイルであり、C99 機能をサポートする MSVC ランタイムの拡張機能が含まれています。すべての MinGW ソフトウェアは 64 ビット Windows プラットフォームで実行できます。