ダルイーとフラミンゴは分かり合えるのか？ 3 つの事前トレーニング済み SOTA ニューラルネットワークが画像とテキストを統合-AI-php.cn

ホームページ

テクノロジー周辺機器

ダルイーとフラミンゴは分かり合えるのか？ 3 つの事前トレーニング済み SOTA ニューラルネットワークが画像とテキストを統合

WBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWB

Apr 12, 2023 pm 04:49 PM

画像モデル

マルチモーダル研究の重要な目標は、画像とテキストを理解するマシンの能力を向上させることです。特に、研究者は 2 つのモデル間で有意義なコミュニケーションを実現する方法について多大な努力を払ってきました。たとえば、画像キャプションの生成では、画像の意味内容を人間が理解できる一貫したテキストに変換できなければなりません。対照的に、テキスト画像生成モデルは、テキスト記述のセマンティクスを利用してリアルな画像を作成することもできます。

これは、セマンティクスに関連したいくつかの興味深い疑問につながります。特定の画像について、どのテキスト記述がその画像を最も正確に説明しているでしょうか?同様に、特定のテキストに対して、画像を実装する最も意味のある方法は何でしょうか?最初の質問に関して、いくつかの研究では、最適な画像の説明は自然であり、視覚的なコンテンツを復元できる情報であるべきだと主張しています。 2 番目の質問に関しては、意味のある画像は高品質で、多様性があり、テキストの内容に忠実である必要があります。

いずれにしても、人間のコミュニケーションによって推進される、テキスト-画像生成モデルおよび画像-テキスト生成モデルを含むインタラクティブなタスクは、最も正確な画像とテキストのペアを選択するのに役立ちます。

図 1 に示すように、最初のタスクでは、画像テキストモデルが情報の送信者であり、テキスト画像モデルが情報の受信者です。送信者の目標は、自然言語を使用して画像の内容を受信者に伝え、受信者が言語を理解し、現実的な視覚表現を再構築できるようにすることです。受信機が元の画像情報を高い忠実度で再構築できれば、情報が正常に転送されたことになります。研究者らは、この方法で生成されたテキスト記述が最適であり、それによって生成された画像も元の画像に最も似ていると信じています。

ダルイーとフラミンゴは分かり合えるのか？ 3 つの事前トレーニング済み SOTA ニューラルネットワークが画像とテキストを統合

このルールは、人々がコミュニケーションに使用する言語に基づいています。次のシナリオを想像してください。緊急通報の現場で、警察は電話を通じて交通事故と負傷者の状況を知りました。これには基本的に、現場の目撃者による画像説明のプロセスが含まれます。警察は適切な救助活動を組織するために、口頭での説明に基づいて環境現場を精神的に再構築する必要がある。明らかに、最良のテキストによる説明は、シーンを再構築するための最良のガイドとなるはずです。

2 番目のタスクにはテキストの再構築が含まれます。テキスト画像モデルがメッセージ送信者になり、画像テキストモデルがメッセージ受信者になります。 2 つのモデルがテキストレベルで情報の内容に同意すると、情報を伝えるために使用される画像媒体は、ソーステキストを再現する最適な画像になります。

この記事では、ミュンヘン大学、シーメンス、その他の機関の研究者によって提案された方法は、エージェント間のコミュニケーションに密接に関連しています。言語は、エージェント間で情報を交換するための主な方法です。しかし、最初のエージェントと 2 番目のエージェントが猫とは何か、犬とは何かについて同じ理解を持っているとどうやって確認できるのでしょうか?

ダルイーとフラミンゴは分かり合えるのか？ 3 つの事前トレーニング済み SOTA ニューラルネットワークが画像とテキストを統合

論文アドレス: https://arxiv.org/pdf/2212.12249.pdf ##この記事で検討したいアイデアは、最初のエージェントに画像を分析させて画像を説明するテキストを生成させ、次に 2 番目のエージェントがテキストを取得して、それに基づいて画像をシミュレートするというものです。このうち、後者の処理が実施形態の処理といえる。この研究では、2 番目のエージェントによってシミュレートされた画像が最初のエージェントが受信した入力画像と類似している場合、コミュニケーションは成功すると考えられています (図 1 を参照)。

実験では、この研究では既製のモデル、特に最近開発された大規模な事前トレーニング済みモデルを使用しました。たとえば、Flamingo と BLIP は、画像に基づいてテキストの説明を自動的に生成できる画像説明モデルです。同様に、DALL-E モデルや潜在拡散モデル (SD) など、画像とテキストのペアでトレーニングされた画像生成モデルは、テキストの深い意味を理解し、高品質の画像を合成できます。

さらに、この調査では、CLIP モデルを利用して画像またはテキストを比較しました。 CLIP は、共有埋め込みスペースに画像とテキストをマッピングする視覚言語モデルです。この研究では、COCO や NoCaps などの手動で作成された画像テキストデータセットを使用して、生成されたテキストの品質を評価します。画像とテキストの生成モデルには、分布からのサンプリングを可能にする確率的コンポーネントがあり、候補となるテキストと画像の範囲から最適なものを選択します。画像記述モデルでは、カーネルサンプリングなどのさまざまなサンプリング方法を使用できます。この記事では、この記事で使用する方法の優位性を示すために、基本モデルとしてカーネルサンプリングを使用します。

メソッドの概要

この記事のフレームワークは、3 つの事前トレーニング済み SOTA ニューラルネットワークで構成されています。 1 つ目は画像テキスト生成モデル、2 つ目はテキスト画像生成モデル、3 つ目は画像エンコーダーとテキストエンコーダーで構成されるマルチモーダル表現モデルで、画像またはテキストをそれぞれ意味的埋め込みにマッピングできます。

ダルイーとフラミンゴは分かり合えるのか？ 3 つの事前トレーニング済み SOTA ニューラルネットワークが画像とテキストを統合

#テキスト説明による画像再構築

図 2 左半分このセクションでは、画像再構成タスクは、言語を指示として使用してソース画像を再構成することであり、このプロセスの実装により、ソースシーンを説明する最適なテキストが生成されます。まず、ソース画像 x が BLIP モデルに供給されて、複数の候補テキスト y_k が生成されます。たとえば、レッサーパンダは森の中で葉っぱを食べます。生成されたテキスト候補のセットは C で示され、テキスト y_k が SD モデルに送信されて画像 x’_k が生成されます。ここで、x’_k はレッサーパンダに基づいて生成された画像を指します。続いて、CLIP 画像エンコーダを使用して、ソースおよび生成された画像 ( およびダルイーとフラミンゴは分かり合えるのか？ 3 つの事前トレーニング済み SOTA ニューラルネットワークが画像とテキストを統合 ) から意味論的な特徴が抽出されます。

次に、候補テキスト記述 y_s を見つける目的で、これら 2 つの埋め込みベクトル間のコサイン類似度が計算されます。つまり

ダルイーとフラミンゴは分かり合えるのか？ 3 つの事前トレーニング済み SOTA ニューラルネットワークが画像とテキストを統合

ここで、 s はソース画像に最も近い画像インデックスです。

この研究では、CIDEr (画像記述メトリック) を使用し、人間の注釈を参照して最良のテキストを評価します。生成されるテキストの品質に興味があったため、この研究では、ほぼ同じ長さのテキストを出力するように BLIP モデルを設定しました。テキストの長さは伝達できる画像内の情報量と正の相関があるため、これにより比較的公平な比較が保証されます。この作業中、すべてのモデルはフリーズされ、微調整は実行されません。

#画像によるテキストの再構築

図 2 の右側は、前のセクションで説明したプロセスの逆を示しています。 BLIP モデルでは、SD によってガイドされたソーステキストを推測する必要があります。SD はテキストにアクセスできますが、そのコンテンツを画像の形式でレンダリングすることしかできません。このプロセスは、SD を使用してテキスト y の候補画像 x_k を生成することから始まり、結果として得られる候補画像のセットは K で示されます。 SD を使用した画像の生成にはランダムサンプリングプロセスが含まれ、各生成プロセスでは巨大なピクセル空間内で異なる有効な画像サンプルが生成される可能性があります。このサンプリングの多様性により、最良の画像をフィルタリングするための候補のプールが提供されます。次に、BLIP モデルは、サンプリングされた画像 x_k ごとにテキスト説明 y’_k を生成します。ここで、y’_k は最初のテキスト「森を這うレッサーパンダ」を指します。次に、この研究では、CLIP テキストエンコーダを使用して、ソーステキストと生成されたテキストの特徴を抽出しました。これらは、それぞれとで表されます。このタスクの目的は、テキスト y のセマンティクスに一致する最適な候補画像 x_s を見つけることです。これを行うには、研究では生成されたテキストと入力テキストの間の距離を比較し、ペアになったテキストの間の距離が最も小さい画像、つまり

を選択する必要があります。
研究では、画像 x_s は最小限の情報損失でコンテンツを受信者に配信できるため、テキスト説明 y を最もよく表現できると考えています。さらに、この研究では、テキスト y に対応する画像を y の参照プレゼンテーションとして扱い、最良の画像を参照画像への近さとして定量化します。

実験結果

図 3 の左のグラフは、2 つのデータセットにおける画像再構成の品質と説明テキストの品質の相関関係を示しています。特定の画像ごとに、再構成された画像の品質 (X 軸に表示) が向上するほど、テキスト記述の品質 (Y 軸に表示) も向上します。

図 3 の右のグラフは、復元されたテキストの品質と生成された画像の品質との関係を示しています。特定のテキストごとに、再構成されたテキストの説明 (x に表示) y 軸が良いほど)、画質も良くなります (y 軸に表示)。

# 図 4 (a) および (b) は、画像再構成品質と平均テキスト品質との関係を示しています。ソース画像上の関係。図 4(c) および (d) は、テキスト距離と再構成された画像品質の間の相関関係を示しています。

#表 1 は、調査のサンプリング方法があらゆる指標においてカーネルサンプリングよりも優れていることを示しています。また、モデルの相対ゲインは次のとおりです。 7.7%にも達します。

# 図 5 は、2 つの再構成タスクの定性的な例を示しています。

以上がダルイーとフラミンゴは分かり合えるのか？ 3 つの事前トレーニング済み SOTA ニューラルネットワークが画像とテキストを統合の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

声明

この記事は51CTO.COMで複製されています。侵害がある場合は、admin@php.cn までご連絡ください。

AI内部展開の隠された危険：ガバナンスのギャップと壊滅的なリスクApr 28, 2025 am 11:12 AM

Apollo Researchの新しいレポートによると、高度なAIシステムの未確認の内部展開は、重大なリスクをもたらします。主要なAI企業の間で一般的なこの監視の欠如は、Uncontに及ぶ潜在的な壊滅的な結果を可能にします

AIポリグラフの構築Apr 28, 2025 am 11:11 AM

従来の嘘検出器は時代遅れです。リストバンドで接続されたポインターに依存すると、被験者のバイタルサインと身体的反応を印刷する嘘発見器は、嘘を識別するのに正確ではありません。これが、嘘の検出結果が通常裁判所で採用されない理由ですが、多くの罪のない人々が投獄されています。対照的に、人工知能は強力なデータエンジンであり、その実用的な原則はすべての側面を観察することです。これは、科学者がさまざまな方法で真実を求めるアプリケーションに人工知能を適用できることを意味します。 1つのアプローチは、嘘発見器のように尋問されている人の重要な符号応答を分析することですが、より詳細かつ正確な比較分析を行います。別のアプローチは、言語マークアップを使用して、人々が実際に言うことを分析し、論理と推論を使用することです。ことわざにあるように、ある嘘は別の嘘を繁殖させ、最終的に

AIは航空宇宙産業の離陸のためにクリアされていますか？Apr 28, 2025 am 11:10 AM

イノベーションの先駆者である航空宇宙産業は、AIを活用して、最も複雑な課題に取り組んでいます。近代的な航空の複雑さの増加は、AIの自動化とリアルタイムのインテリジェンス機能を必要とします。

北京の春のロボットレースを見ていますApr 28, 2025 am 11:09 AM

ロボット工学の急速な発展により、私たちは魅力的なケーススタディをもたらしました。 NoetixのN2ロボットの重量は40ポンドを超えており、高さは3フィートで、逆流できると言われています。 UnitreeのG1ロボットの重量は、N2のサイズの約2倍で、高さは約4フィートです。また、競争に参加している多くの小さなヒューマノイドロボットがあり、ファンによって前進するロボットさえあります。データ解釈ハーフマラソンは12,000人以上の観客を惹きつけましたが、21人のヒューマノイドロボットのみが参加しました。政府は、参加しているロボットが競争前に「集中トレーニング」を実施したと指摘したが、すべてのロボットが競争全体を完了したわけではない。チャンピオン - 北京ヒューマノイドロボットイノベーションセンターによって開発されたティアンゴニ

ミラートラップ：AI倫理と人間の想像力の崩壊Apr 28, 2025 am 11:08 AM

人工知能は、現在の形式では、真にインテリジェントではありません。既存のデータを模倣して洗練するのに熟達しています。私たちは人工知能を作成するのではなく、人工的な推論を作成しています。情報を処理するマシン、人間は

新しいGoogleリークは、便利なGoogle写真機能の更新を明らかにしますApr 28, 2025 am 11:07 AM

レポートでは、更新されたインターフェイスがGoogle Photos Androidバージョン7.26のコードに隠されていることがわかり、写真を見るたびに、新しく検出された顔のサムネイルの行が画面の下部に表示されます。新しいフェイシャルサムネイルには名前タグが欠落しているため、検出された各人に関する詳細情報を見るには、個別にクリックする必要があると思います。今のところ、この機能は、Googleフォトが画像で見つけた人々以外の情報を提供しません。この機能はまだ利用できないため、Googleが正確にどのように使用するかはわかりません。 Googleはサムネイルを使用して、選択した人のより多くの写真を見つけるためにスピードアップしたり、編集して個人を選択するなど、他の目的に使用することもできます。待って見てみましょう。今のところ

補強能力のガイド - 分析VidhyaApr 28, 2025 am 09:30 AM

補強能力は、人間のフィードバックに基づいて調整するためにモデルを教えることにより、AI開発を揺さぶりました。それは、監督された学習基盤と報酬ベースの更新をブレンドして、より安全で、より正確に、そして本当に助けます

踊りましょう：私たちの人間のニューラルネットを微調整するための構造化された動きApr 27, 2025 am 11:09 AM

科学者は、彼らの機能を理解するために、人間とより単純なニューラルネットワーク（C. elegansのものと同様）を広く研究してきました。ただし、重要な疑問が生じます。新しいAIと一緒に効果的に作業するために独自のニューラルネットワークをどのように適応させるのか

See all articles

ホットAIツール

Undresser.AI Undress

リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover

写真から衣服を削除するオンライン AI ツール。

Undress AI Tool

脱衣画像を無料で

Clothoff.io

AI衣類リムーバー

Video Face Swap

完全無料の AI 顔交換ツールを使用して、あらゆるビデオの顔を簡単に交換できます。

ホットツール

SAP NetWeaver Server Adapter for Eclipse

Eclipse を SAP NetWeaver アプリケーションサーバーと統合します。

SublimeText3 英語版

推奨: Win バージョン、コードプロンプトをサポート!

MantisBT

Mantis は、製品の欠陥追跡を支援するために設計された、導入が簡単な Web ベースの欠陥追跡ツールです。 PHP、MySQL、Web サーバーが必要です。デモおよびホスティングサービスをチェックしてください。

DVWA

Damn Vulnerable Web App (DVWA) は、非常に脆弱な PHP/MySQL Web アプリケーションです。その主な目的は、セキュリティ専門家が法的環境でスキルとツールをテストするのに役立ち、Web 開発者が Web アプリケーションを保護するプロセスをより深く理解できるようにし、教師/生徒が教室環境で Web アプリケーションを教え/学習できるようにすることです。安全。 DVWA の目標は、シンプルでわかりやすいインターフェイスを通じて、さまざまな難易度で最も一般的な Web 脆弱性のいくつかを実践することです。このソフトウェアは、

SecLists

SecLists は、セキュリティテスターの究極の相棒です。これは、セキュリティ評価中に頻繁に使用されるさまざまな種類のリストを 1 か所にまとめたものです。 SecLists は、セキュリティテスターが必要とする可能性のあるすべてのリストを便利に提供することで、セキュリティテストをより効率的かつ生産的にするのに役立ちます。リストの種類には、ユーザー名、パスワード、URL、ファジングペイロード、機密データパターン、Web シェルなどが含まれます。テスターはこのリポジトリを新しいテストマシンにプルするだけで、必要なあらゆる種類のリストにアクセスできるようになります。