ホームページ > 記事 > テクノロジー周辺機器 > Baidu ビジネスのマルチモーダル理解と AIGC イノベーションの実践
まず、マルチモーダル コンテンツに対する私たちの認識を紹介しましょう。
コンテンツ理解機能を向上させ、広告システムがセグメント化されたシナリオでコンテンツをよりよく理解できるようにします。
コンテンツ理解能力を向上させる場合、多くの実際的な問題に遭遇するでしょう:
優れたマルチモーダル基本表現とは何ですか。
#優れたマルチモーダル表現とは何でしょうか?
データ適用範囲を幅の面で拡大し、奥行きの面で視覚効果を向上させ、シーン内のデータを確実に微調整する必要があります。
以前は、画像モダリティ、つまり自己回帰タスクを学習するようにモデルをトレーニングしてからテキスト タスクを実行し、次にいくつかのツインタワー モデルを適用してモーダルを閉じるという従来の考え方がありました。二人の関係。当時、テキスト モデリングは比較的単純で、誰もがビジョンをモデル化する方法を研究していました。 CNN に始まり、その後、bbox 法などの視覚的表現を改善するためにターゲット検出に基づくいくつかの手法が導入されましたが、この手法は検出能力が限られており、重すぎるため、大規模なデータのトレーニングには適していません。
2020年、2021年頃からVIT工法が主流になってきました。ここで言及しなければならないより有名なモデルの 1 つは、2020 年に OpenAI によってリリースされたモデルである CLIP です。これは、テキストとビジュアル表現のためのツインタワー アーキテクチャに基づいています。次に、コサインを使用して 2 つの間の距離を縮めます。このモデルは検索には非常に優れていますが、VQA タスクなどの論理的推論を必要とする一部のタスクでは能力が若干劣ります。
表現の学習: 自然言語から視覚への基本的な認識能力を向上させます。
# 私たちの目標は、自然言語の基本的な視覚認識を向上させることです。データに関しては、当社の事業領域には数十億件のデータがありますが、まだまだ不十分であり、さらに拡充し、事業領域の過去データを導入し、整理・整理する必要があります。数百億レベルのトレーニングセットが構築されました。
VICAN-12B マルチモーダル表現生成モデルを構築しました。生成タスクを使用してテキストの視覚的復元を可能にし、テキスト上の視覚的表現の融合効果をさらに確実にし、自然言語の視覚効果、基本的な知覚能力。上の写真は模型の全体構造を示したもので、2つの塔と1つの塔の複合構造であることがわかります。なぜなら、最初に解決すべきは大規模な画像検索タスクだからです。左側のボックス内の部分はビジュアル パーセプトロンと呼ばれるもので、20 億パラメータのスケールを持つ ViT 構造です。右側は2層に分かれており、下段は検索用のテキストトランスフォーマーのスタック、上段は生成用のテキストトランスフォーマーのスタックです。モデルは生成タスク、分類タスク、画像比較タスクの 3 つのタスクに分かれており、これら 3 つの異なる目標に基づいてモデルがトレーニングされているため、比較的良好な結果が得られていますが、さらに最適化していきます。
効率的で統合され、転送可能なマルチシナリオのグローバル表現スキームのセット。
LLM モデルは、ビジネス シナリオ データと組み合わせて、モデルの理解能力を向上させるために導入されています。 CV モデルはパーセプトロンであり、LLM モデルは理解者です。私たちのアプローチは、視覚的特徴をそれに応じて転送することです。なぜなら、先ほど述べたように、表現はマルチモーダルであり、大規模なモデルはテキストに基づいているためです。これを Wenxin LLM の大規模モデルに適応させるだけでよいため、対応する機能融合を実行するにはコンボ アテンションを使用する必要があります。大規模モデルの論理的推論機能を保持する必要があるため、大規模モデルを放置せず、ビジネス シナリオのフィードバック データのみを追加して、大規模モデルへの視覚機能の統合を促進するように努めます。いくつかのショットを使用してタスクをサポートできます。主なタスクは次のとおりです:
# 次に、シーンベースの微調整に焦点を当てましょう。
ビジュアル検索シナリオ、基本表現に基づくツインタワー微調整。
基本的な表現に基づいて、大きなテキスト モデルと組み合わせて、さまざまなビジネス シーンの画像クリック フィードバック信号をラベラーとして使用して、部分的な順序を調整します。さまざまなシーンの写真とテキストの関係。主要な 7 つのデータセットに対して評価を実施しましたが、それらはすべて SOTA の結果を達成できます。
テキスト セグメンテーションからインスピレーションを得た並べ替えシナリオは、マルチモーダル機能のセマンティクスを定量化します。
#表現だけでなく、仕分けシーンにおける視覚効果をいかに向上させるかが課題です。まず分野の背景を見てみましょう. 大規模離散 DNN は業界におけるランキング モデルの開発方向の主流であり、離散特徴はランキング モデル最適化の中核でもあります。テキストはモデルに入力され、単語の分割に基づいてトークン化され、他の個別の特徴と組み合わされて、良好な結果が得られます。ビジョンに関しては、同様にトークン化したいと考えています。
ID タイプの特徴は、実際には非常に個人化された特徴ですが、汎用化された特徴がより多用途になるにつれて、その特徴付けの精度が悪化する可能性があります。データとタスクを通じてこのバランスポイントを動的に調整する必要があります。つまり、データに最も関連するスケールを見つけて、それに応じて特徴を ID に「セグメント化」し、テキストなどのマルチモーダル特徴をセグメント化したいと考えています。そこで、この問題を解決するために、マルチスケール、マルチレベルのコンテンツ定量化学習手法を提案しました。
シナリオの並べ替え、マルチモーダル機能とモデルの融合 MmDict。
主に 2 つのステップに分かれており、第 1 ステップは離散性を学び、第 2 ステップは積分を学びます。
① スパース アクティベーションを使用して、複数の離散化信号で連続信号を表現します。つまり、スパース アクティベーションを使用して密なフィーチャをセグメント化し、対応するマルチモーダル コードブックには ID が含まれていますが、実際には argmax 演算のみが存在し、微分不可能な問題が発生します 同時に、特徴空間の崩壊を防ぐために、活性化されたニューロンと非活性化されたニューロン間の情報相互作用がが追加されます。
② STE 戦略を導入して、ネットワーク非微分可能性の問題を解決し、元の特徴を再構築し、半順序関係が変わらないことを確認します。
エンコーダ/デコーダ方式を通じて、密な特徴が連続的に量子化され、量子化された特徴が正しい方法で復元されます。半順序関係が復元前後で変化しないことを保証する必要があり、特定のタスクにおける特徴の量的損失をほぼ 1% 未満に抑えることができ、このような ID は現在のデータ分布をパーソナライズするだけでなく、一般化特性を持っています。
① Sparse層のソートモデルと大規模に融合します。
次に、先ほど述べた隠れ層の再利用が直接最上部に配置されますが、その効果は実際には平均的です。 ID 化して量子化し、スパース フィーチャ レイヤーや他のタイプのフィーチャと融合すると、より良い効果が得られます。
② センター→残留の2段階とS-M-Lの3段階でロスを軽減します。
もちろん、いくつかの残差とマルチスケール手法も使用します。 2020 年から、私たちは定量化損失を徐々に下げ、昨年のある点を下回りました。これにより、大規模なモデルが特徴を抽出した後、この学習可能な定量化手法を使用して、意味論的な関連付け ID を使用して視覚コンテンツを特徴付けることができます。特徴は実際には非常に優れています。このようなレコメンドシステムのIDに関する探索的な調査手法も含め、現在の業務システムに適したものを提案していきます。
#Baidu Marketing AIGC クリエイティブ プラットフォームは、インスピレーションから制作、配信まで完璧な閉ループを形成します。解体、生成、フィードバックに至るまで、AIGC の推進と最適化を行っています。
優れたビジネス プロンプトには次の要素があります。
##ビデオ生成は現在、比較的成熟しています。しかし、実際にはまだいくつかの問題があります。
初期段階では、どのような動画を生成したいか、どのような人物を選択したいか、どのような人物を選択したいかをプロンプトを通じて入力します。たとえば、プロンプトを介してすべての入力を行うと、大規模なモデルを正確に制御して、その要求に基づいて対応するスクリプトを生成できます。
次に、デジタル ヒューマン ライブラリを通じて対応するデジタル ピープルを呼び出すことができますが、AI テクノロジーを使用して、顔の置き換え、背景の置き換え、アクセントなどのデジタル ピープルの多様性をさらに強化することもできます。最後に、スクリプト、デジタル唇形状の置換、背景の置換、顔の置換、およびビデオ抑制により、音声ビデオが生成されます。顧客はデジタル ヒューマンを使用して、製品に対応するいくつかのマーケティング セールス ポイントを紹介できます。このようにして、3 分でデジタル担当者になれるため、広告主のデジタル担当者になる能力が大幅に向上します。
大規模なモデルは、企業がマーケティング ポスターの生成を実現するのにも役立ちますおよび製品 背景の交換。私たちはすでに数百億のマルチモーダル表現を持っています. 中間層は私たちが学んだ拡散です. 私たちは優れた動的表現に基づいて unet を学習します.ビッグデータを使用したトレーニングの後、顧客は特にパーソナライズされたものを求めているため、いくつかの微調整方法も追加する必要があります。
当社は、顧客の微調整を支援するソリューション、大規模なモデルに小さなパラメータを動的にロードするソリューションを提供します。これは業界で一般的なソリューションでもあります。
まず、お客様に画像を生成する機能を提供し、編集またはプロンプトを通じて画像の背後にある背景を変更できます。
以上がBaidu ビジネスのマルチモーダル理解と AIGC イノベーションの実践の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。