Bytedance Doubaoと武漢大学がCALを提案:視覚的に関連したトークンを通じてマルチモーダルアライメント効果を強化

AIxivコラムは、本サイト上で学術的・技術的な内容を掲載するコラムです。過去数年間で、このサイトの AIxiv コラムには 2,000 件を超えるレポートが寄せられ、世界中の主要な大学や企業のトップ研究室がカバーされ、学術交流と普及を効果的に促進しています。共有したい優れた作品がある場合は、お気軽に寄稿するか、報告のために当社までご連絡ください。送信メール: liyazhou@jiqizhixin.com; zhaoyunfeng@jiqizhixin.com
- ペーパーリンク: https://arxiv.org/pdf/2405.17871
- コードリンク: https://github.com/foundation-multimodal-models/CAL
- は、追加の事前トレーニング段階を必要とせずにトレーニング プロセスに直接ネストできます。
- は、OCR とキャプションのベンチマークで大幅な改善を達成しました。視覚化から、CAL により画像のモーダル配置が向上していることがわかります。
- CAL は、ノイズの多いデータに対するトレーニング プロセスの耐性を高めます。
写真に関連性の高いテキスト: エンティティ (人物、動物、物体など)、数量、色、テキストなど。これらのトークンは画像情報に直接対応しており、マルチモーダル位置合わせにとって重要です。 画像と相関性の低い文章:続く単語や前の文章から推測できる内容など。これらのトークンは、実際には主に VLM のプレーン テキスト機能をトレーニングするために使用されます。 画像コンテンツと矛盾するテキスト: これらのトークンは画像情報と矛盾しており、誤解を招く情報を提供する可能性もあり、マルチモーダル位置合わせプロセスに悪影響を及ぼします。
図 1: 緑色のマークは関連性の高いトークン、赤色はコンテンツのコンテンツ、無色は中立トークンです
- 前に画像入力を追加すると、追加のコンテキスト情報を提供することと同じになり、各テキスト トークンのロジットは新しい状況に基づいて調整されます。これら 2 つのケースにおけるロジットの変化は、各テキスト トークンに対する画像の新しい状態の影響を表しています。
- 具体的には、トレーニング プロセス中に、CAL は画像とテキスト シーケンス、および個々のテキスト シーケンスをそれぞれ大規模言語モデル (LLM) に入力して、各テキスト トークンのロジットを取得します。これら 2 つのケースのロジット差を計算することで、各トークンに対する画像の影響を測定できます。ロジットの差が大きいほど、トークンに対する画像の影響が大きくなるため、トークンは画像との関連性が高くなります。以下の図は、テキスト トークンのロジット diff メソッドと CAL メソッドのフローチャートを示しています。図 2: 左の図は 2 つの状況におけるトークン ロジット差分を視覚化したもの、右の図は CAL メソッドのプロセスを視覚化したものです


以上がBytedance Doubaoと武漢大学がCALを提案:視覚的に関連したトークンを通じてマルチモーダルアライメント効果を強化の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

導入 数週間で作物の進行を毎日観察する農民がいるとします。彼は成長率を見て、さらに数週間で彼の植物がどれほど背が高くなるかについて熟考し始めます。 thから

ソフトAIは、おおよその推論、パターン認識、柔軟な意思決定を使用して特定の狭いタスクを実行するように設計されたAIシステムとして定義されていますが、曖昧さを受け入れることにより、人間のような思考を模倣しようとします。 しかし、これはBusineにとって何を意味しますか

答えは明確です。クラウドコンピューティングには、クラウドネイティブセキュリティツールへの移行が必要であるため、AIはAIの独自のニーズに特化した新しい種類のセキュリティソリューションを要求します。 クラウドコンピューティングとセキュリティレッスンの台頭 で

起業家とAIと生成AIを使用して、ビジネスを改善します。同時に、すべてのテクノロジーと同様に、生成的AIが増幅器であることを覚えておくことが重要です。厳密な2024年の研究o

埋め込みモデルのパワーのロックを解除する:Andrew Ngの新しいコースに深く飛び込む マシンがあなたの質問を完全に正確に理解し、応答する未来を想像してください。 これはサイエンスフィクションではありません。 AIの進歩のおかげで、それはRになりつつあります

大規模な言語モデル(LLM)と幻覚の避けられない問題 ChatGpt、Claude、GeminiなどのAIモデルを使用した可能性があります。 これらはすべて、大規模なテキストデータセットでトレーニングされた大規模な言語モデル(LLMS)、強力なAIシステムの例です。

最近の研究では、AIの概要により、産業と検索の種類に基づいて、オーガニックトラフィックがなんと15〜64%減少する可能性があることが示されています。この根本的な変化により、マーケティング担当者はデジタルの可視性に関する戦略全体を再考することになっています。 新しい

Elon UniversityがDigital Future Centerを想像している最近のレポートは、300人近くのグローバルテクノロジーの専門家を調査しました。結果のレポート「2035年に人間である」は、ほとんどがTを超えるAIシステムの採用を深めることを懸念していると結論付けました。


ホットAIツール

Undresser.AI Undress
リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover
写真から衣服を削除するオンライン AI ツール。

Undress AI Tool
脱衣画像を無料で

Clothoff.io
AI衣類リムーバー

AI Hentai Generator
AIヘンタイを無料で生成します。

人気の記事

ホットツール

SecLists
SecLists は、セキュリティ テスターの究極の相棒です。これは、セキュリティ評価中に頻繁に使用されるさまざまな種類のリストを 1 か所にまとめたものです。 SecLists は、セキュリティ テスターが必要とする可能性のあるすべてのリストを便利に提供することで、セキュリティ テストをより効率的かつ生産的にするのに役立ちます。リストの種類には、ユーザー名、パスワード、URL、ファジング ペイロード、機密データ パターン、Web シェルなどが含まれます。テスターはこのリポジトリを新しいテスト マシンにプルするだけで、必要なあらゆる種類のリストにアクセスできるようになります。

AtomエディタMac版ダウンロード
最も人気のあるオープンソースエディター

DVWA
Damn Vulnerable Web App (DVWA) は、非常に脆弱な PHP/MySQL Web アプリケーションです。その主な目的は、セキュリティ専門家が法的環境でスキルとツールをテストするのに役立ち、Web 開発者が Web アプリケーションを保護するプロセスをより深く理解できるようにし、教師/生徒が教室環境で Web アプリケーションを教え/学習できるようにすることです。安全。 DVWA の目標は、シンプルでわかりやすいインターフェイスを通じて、さまざまな難易度で最も一般的な Web 脆弱性のいくつかを実践することです。このソフトウェアは、

mPDF
mPDF は、UTF-8 でエンコードされた HTML から PDF ファイルを生成できる PHP ライブラリです。オリジナルの作者である Ian Back は、Web サイトから「オンザフライ」で PDF ファイルを出力し、さまざまな言語を処理するために mPDF を作成しました。 HTML2FPDF などのオリジナルのスクリプトよりも遅く、Unicode フォントを使用すると生成されるファイルが大きくなりますが、CSS スタイルなどをサポートし、多くの機能強化が施されています。 RTL (アラビア語とヘブライ語) や CJK (中国語、日本語、韓国語) を含むほぼすべての言語をサポートします。ネストされたブロックレベル要素 (P、DIV など) をサポートします。

SAP NetWeaver Server Adapter for Eclipse
Eclipse を SAP NetWeaver アプリケーション サーバーと統合します。
