検索
ホームページテクノロジー周辺機器AI人民大学ヒルハウス人工知能大学院の Nature サブジャーナルは、マルチモーダル基本モデルを使用して一般的な人工知能に移行することを試みています

最近、中国人民大学ヒルハウス人工知能大学院の陸志烏教授、孫昊常任准教授、文吉龍学部長が、国際総合誌「Nature Communications」(英語名: Nature Communications (Nat Commun と呼ばれます) ) は、「マルチモーダル基盤モデルを介した汎用人工知能に向けて」というタイトルの研究論文を発表しました。この記事の最初の著者は、博士課程の学生である Fei Nanyi です。この研究は、一般的な人工知能に向けてマルチモーダル基本モデルを活用することを試みており、神経科学や医療などのさまざまな AI 分野に広範な影響を与えるでしょう。この記事はこの論文の解釈です。

人民大学ヒルハウス人工知能大学院の Nature サブジャーナルは、マルチモーダル基本モデルを使用して一般的な人工知能に移行することを試みています

  • 論文リンク: https://www.nature.com/articles /s41467-022-30761-2
  • コードリンク: https://github.com/neilfei/brivl-nmi

人工知能の基本的な目標は、知覚、記憶、推論など、人間の中核となる認知活動を模倣することです。多くの人工知能アルゴリズムやモデルがさまざまな研究分野で大きな成功を収めていますが、ほとんどの人工知能研究は、大量のラベル付きデータの取得や、大規模データのトレーニングをサポートするための不十分なコンピューティング リソースによって依然として制限されています。単一の認知能力。

これらの制限を克服し、一般的な人工知能への一歩を踏み出すために、私たちはマルチモーダル (視覚言語) 基本モデル、つまり事前トレーニング済みモデルを開発しました。さらに、モデルが強力な汎化能力を獲得するために、トレーニング データ内の画像とテキストは、画像領域と単語の厳密な一致ではなく、弱い意味相関仮説 (図 1b に示すように) に従う必要があることを提案します。 (強力な意味的相関)、強い意味的相関のため 意味的相関を仮定すると、人々が写真にキャプションを付けるときに暗示する複雑な感情や思考がモデルから失われます。

人民大学ヒルハウス人工知能大学院の Nature サブジャーナルは、マルチモーダル基本モデルを使用して一般的な人工知能に移行することを試みています人民大学ヒルハウス人工知能大学院の Nature サブジャーナルは、マルチモーダル基本モデルを使用して一般的な人工知能に移行することを試みています

# 図 1: 弱い意味相関の仮定に基づく BriVL モデル。 a. 視覚言語情報の処理における BriVL モデルと人間の脳との比較。 b. 意味論的に弱く関連したデータのモデリングと意味論的に強く関連したデータのモデリングの比較。

インターネットからクロールした大規模な画像やテキストデータを学習させることにより、得られたマルチモーダル基本モデルは、強力な一般化能力と想像力を示します。私たちは、私たちの研究が一般的な人工知能に向けた重要な (潜在的に小さいとはいえ) 一歩を表し、神経科学や医療などのさまざまな AI 分野に広範な影響を与えると信じています。

方法

大規模なマルチモーダルデータに対する自己教師ありトレーニングのための大規模マルチモーダル基本モデルを開発し、それを BriVL (Bridging-Vision) と名付けました。 -と言語)。

まず、弱セマンティック相関データセット (WSCD) と呼ばれる、インターネットから構築された大規模なマルチソースのグラフィックおよびテキスト データセットを使用します。 WSCD は、ニュース、百科事典、ソーシャル メディアなど、ウェブ上の複数のソースから中国語の画像とテキストのペアを収集します。自然なデータ分布を維持するために、元のデータを編集または変更することなく、WSCD 内のポルノおよび機密データのみをフィルタリングして除外しました。全体として、WSCD にはスポーツ、日常生活、映画などの多くのトピックをカバーする約 6 億 5,000 万の絵とテキストのペアが含まれています。

第二に、ネットワーク アーキテクチャに関しては、画像とテキストの間には必ずしも地域の詳細な単語一致が存在しないため、時間のかかるオブジェクト検出器を破棄し、シンプルなダブル タワー アーキテクチャを採用します。したがって、2 つの独立したエンコーダを介して画像とテキスト入力をエンコードできます (図 2)。ツインタワー構造には、クエリを実行する前に候補セットの特徴を計算してインデックスを付けることができ、現実世界のアプリケーションのリアルタイム要件を満たすことができるため、推論プロセスにおいて明らかな効率上の利点があります。第三に、大規模分散トレーニング技術と自己教師あり学習の開発により、大量のラベルなしマルチモーダルデータを使用してモデルをトレーニングすることが可能になりました。

具体的には、画像とテキストのペアの弱い相関をモデル化し、統一された意味空間を学習するために、シングルモーダル対比学習法 MoCo に基づいたクロスモーダル対比学習アルゴリズムを設計しました。図 2 に示すように、BriVL モデルはモメンタム メカニズムを使用して、さまざまなトレーニング バッチでネガティブ サンプル キューを動的に維持します。このようにして、GPU メモリの使用量を削減する (つまり GPU リソースの節約) ために比較的小さなバッチ サイズを使用しながら、比較的多数の負のサンプル (対比学習に不可欠) を得ることができます。

人民大学ヒルハウス人工知能大学院の Nature サブジャーナルは、マルチモーダル基本モデルを使用して一般的な人工知能に移行することを試みています

図 2: 大規模なマルチモーダル事前トレーニング用の BriVL モデルの概略図。

主な結果

ニューラル ネットワークの可視化

単語や説明文を聞くと、何かが頭に浮かびます。 BriVL の場合、相関の弱い画像とテキストの多数のペアで事前トレーニングされた後、テキストが与えられたときに何を想像するかについて非常に興味があります。

具体的には、まずテキストを入力し、BriVL のテキスト エンコーダーを通じてそのテキスト埋め込みを取得します。次に、ノイズのある画像をランダムに初期化し、画像エンコーダーを通じてその特徴を埋め込みます。入力画像はランダムに初期化されるため、その特徴は入力テキストの特徴と一致しない必要があります。したがって、2 つの特徴埋め込みを一致させるという目標を定義し、バックプロパゲーションを介して入力画像を更新します。結果の画像は、BriVL が入力テキストをどのように想像したかを明確に示しています。ここでは追加のモジュールやデータを使用せず、事前トレーニングされた BriVL も視覚化プロセス全体を通じてフリーズされます。

最初に、いくつかの高レベルの意味概念を想像する BriVL の機能を紹介します (図 3)。ご覧のとおり、これらの概念は非常に抽象的ですが、視覚化ではその具体的な形式を示すことができます (例: 「自然」: 草のような植物、「時間」: 時計、「科学」: メガネと三角錐を付けた顔)フラスコ; 「ドリームランド」: 雲、ドアへの橋、そして夢のような雰囲気)。抽象的な概念を一連の具体的なオブジェクトに一般化するこの機能は、意味的に関連性の低いデータのみを使用したマルチモーダル事前トレーニングの有効性を示しています。

人民大学ヒルハウス人工知能大学院の Nature サブジャーナルは、マルチモーダル基本モデルを使用して一般的な人工知能に移行することを試みています

図 3: BriVL モデルによる抽象概念の想像。

図 4 は、BriVL の文章に対する想像力を示しています。 BriVL の「雲の向こうに日差しがある」という想像は、文字通り雲の向こうに日差しがあるだけでなく、海上の危険な状況(左側に船のような物体や波がある)を示しているようにも見え、その暗黙の意味を表現しています。文 。ビジュアライゼーション「夏の花として咲く」では、花の群れが見られます。次の 2 つのシナリオのより複雑なテキスト入力は、両方とも古代中国の詩からのものであり、その構文はトレーニング セット内の大部分のテキストとは完全に異なります。 BriVLでもよく理解できるようで、「竹の外に桃の花が三、二枝」では竹とピンクの花があることがわかり、「太陽は山の向こうにあり、黄河は山に流れ込んでいる」ということが分かります。山の木々が夕日を隠し、目の前の川には小さな船が見えます。全体として、BriVL は、複雑な文によって促された場合でも、高い想像力を維持していることがわかりました。

人民大学ヒルハウス人工知能大学院の Nature サブジャーナルは、マルチモーダル基本モデルを使用して一般的な人工知能に移行することを試みています人民大学ヒルハウス人工知能大学院の Nature サブジャーナルは、マルチモーダル基本モデルを使用して一般的な人工知能に移行することを試みています

図 4: BriVL モデルによる中国語の文の想像。

図 5 では、BriVL のニューラル ネットワークの視覚化にいくつかの同様のテキストが使用されています。 「森のある山」の場合は、画像内の緑の領域が増えます。「石のある山」の場合、画像内の岩が増えます。「雪のある山」の場合、中央の木の周りの地面は白または青です。「山」の場合「滝」では、青い水が流れ落ちるのが見え、水蒸気も見えます。これらの視覚化は、BriVL が山の修飾子を正確に理解し、想像できることを示しています。

人民大学ヒルハウス人工知能大学院の Nature サブジャーナルは、マルチモーダル基本モデルを使用して一般的な人工知能に移行することを試みています

図 5: BriVL モデルの「…のある山」の想像。

#テキスト生成図

ニューラル ネットワークの視覚化は非常に簡単ですが、解釈が難しい場合があります。そこで私たちは、BriVL の想像上のコンテンツを人間がよりよく理解できるように、代替の視覚化/解釈可能アプローチを開発しました。具体的には、ImageNet データセットで事前トレーニングされた VQGAN はリアルな画像の生成に非常に優れているため、VQGAN を利用して BriVL の指導の下で画像を生成します。まずトークンシーケンスをランダムに取得し、事前トレーニングされた VQGAN から生成された画像を取得します。次に、生成された画像を BriVL の画像エンコーダに送り、テキストの一部をテキスト エンコーダに送ります。最後に、画像とテキストの埋め込み間のマッチングのターゲットを定義し、バックプロパゲーションによって初期トークン シーケンスを更新します。ニューラル ネットワークの視覚化と同様に、VQGAN と BriVL は両方とも生成プロセス中にフリーズされます。比較のために、BriVL の代わりに OpenAI の CLIP モデルによって生成された画像も示します。

最初に 4 つのテキスト入力を選択し、CLIP と BriVL のテキスト生成グラフの結果をそれぞれ図 6 と図 7 に示しました。 CLIP と BriVL はどちらもテキストをよく理解しますが、2 つの大きな違いもあります。まず、CLIP で生成された画像には漫画風の要素が表示されますが、BriVL で生成された画像はより現実的で自然です。第 2 に、CLIP は単純に要素をまとめて配置する傾向があるのに対し、BriVL はよりグローバルに統一された画像を生成します。最初の違いは、CLIP と BriVL で使用されるトレーニング データが異なるためである可能性があります。トレーニング データ内の画像はインターネットから収集されたもの (ほとんどが実際の写真) ですが、CLIP のトレーニング データには一定数の漫画画像が含まれている場合があります。 2 番目の違いは、CLIP が強い意味的相関関係を持つ画像とテキストのペアを (単語フィルタリングを通じて) 使用するのに対し、私たちは相関関係の弱いデータを使用するという事実によるものと考えられます。これは、マルチモーダル事前トレーニング中、CLIP は特定のオブジェクトと単語/フレーズ間の対応関係を学習する可能性が高いのに対し、BriVL は指定されたテキストを含む各画像を全体として理解しようとすることを意味します。

人民大学ヒルハウス人工知能大学院の Nature サブジャーナルは、マルチモーダル基本モデルを使用して一般的な人工知能に移行することを試みています

図 6: CLIP (ResNet-50x4 使用) は VQGAN を使用してテキスト生成グラフの例を実現します。

人民大学ヒルハウス人工知能大学院の Nature サブジャーナルは、マルチモーダル基本モデルを使用して一般的な人工知能に移行することを試みています人民大学ヒルハウス人工知能大学院の Nature サブジャーナルは、マルチモーダル基本モデルを使用して一般的な人工知能に移行することを試みています

# 図 7: BriVL の例グラフを生成するための VQGAN 実装。

また、複数の連続する文に基づいて一連の画像を生成するという、より困難なタスクも検討しました。図 8 に示すように、各画像は独立して生成されていますが、4 つの画像が視覚的に一貫しており、同じスタイルであることがわかります。これは、BriVL モデルのもう 1 つの利点を示しています。画像内の環境と背景は、関連するテキストで明示的に言及するのが難しいにもかかわらず、大規模なマルチモーダル事前トレーニングでは無視されません。

人民大学ヒルハウス人工知能大学院の Nature サブジャーナルは、マルチモーダル基本モデルを使用して一般的な人工知能に移行することを試みています

図 8: VQGAN を使用して一連の一貫したコンテンツを生成する BriVL の例。

図 9 では、現実には存在しない概念/シナリオ (例: "サイバーパンクシティ」と「雲の上の城」)。これは、BriVL の優れたパフォーマンスが事前トレーニング データへの過剰適合から得られるものではないことを証明します。なぜなら、ここで入力された概念/シナリオは現実には存在すらしないからです (もちろん、事前トレーニング データセットには存在しない可能性が最も高いです)。 )。さらに、これらの生成された例は、意味的に関連性の低いデータで BriVL を事前トレーニングすることの利点を再確認します (きめ細かい地域単語のアライメントは BriVL の想像力を損なうため)。

人民大学ヒルハウス人工知能大学院の Nature サブジャーナルは、マルチモーダル基本モデルを使用して一般的な人工知能に移行することを試みています

図 9: BriVL テキスト生成グラフの結果の詳細、概念/シナリオは次のとおりです。現実にはあまり見られないか、存在すらしません。

さらに、リモート センシング画像のゼロサンプル分類、中国ニュースのゼロサンプル分類、視覚的な質疑応答など、複数の下流タスクにも BriVL を適用しました。詳細については、論文の原文を参照してください。

結論と考察

私たちは、意味的に関連性の低い 6 億 5,000 万の画像とテキストを操作する、BriVL と呼ばれる大規模なマルチモーダル基本モデルを開発しました。ニューラル ネットワークの視覚化とテキスト生成のグラフを通じて、位置合わせされた画像とテキストの埋め込み空間を直感的に示します。さらに、他の下流タスクの実験でも、BriVL のクロスドメイン学習/転送機能と、シングルモーダル学習に対するマルチモーダル学習の利点が示されています。特に、BriVL は想像力と推論力をある程度獲得しているようであることがわかりました。これらの利点は主に、BriVL に従う弱いセマンティック相関の仮定から来ると考えられます。つまり、相関の弱い画像とテキストのペアで人間の複雑な感情や思考をマイニングすることにより、BriVL の認知力が向上します。

一般的な人工知能に向けて私たちが講じるこの一歩は、人工知能そのものの分野だけでなく、AI のすべての分野に広範な影響を与えると信じています。人工知能研究の場合、GPU リソースを節約するマルチモーダル事前トレーニング フレームワークに基づいて、研究者は BriVL をより大きな規模とより多くのモダリティに簡単に拡張して、より一般的なベース モデルを取得できます。大規模なマルチモーダル ベース モデルの助けを借りて、研究者が新しいタスク (特に十分なヒューマン アノテーション サンプルがないタスク) を探索することも容易になります。 AI の分野では、基本モデルはその強力な一般化機能により、特定の作業環境に迅速に適応できます。たとえば、ヘルスケアの分野では、マルチモーダル基本モデルは症例のマルチモーダルデータを最大限に活用して診断の精度を向上させることができ、神経科学の分野では、マルチモーダル基本モデルは、神経科学のメカニズムでマルチモーダル情報がどのように機能するかを解明するのにも役立つ可能性があります。人工ニューラルネットワークは、人間の脳の実際のニューラルシステムよりも研究が容易であるため、人間の脳における融合。

これにもかかわらず、マルチモーダル基本モデルは依然としていくつかのリスクと課題に直面しています。基本モデルは特定の事柄についての偏見や固定観念を学習する可能性があるため、これらの問題はモデルのトレーニング前に慎重に対処し、下流のアプリケーションで監視して対処する必要があります。また、基本モデルが機能を強化するにつれて、社会に悪影響を及ぼさないように、悪意を持った人々によって悪用されることにも注意する必要があります。さらに、基本モデルに関する今後の研究には、より深いモデル解釈ツールを開発する方法、より多くのモダリティを備えた事前トレーニング データセットを構築する方法、および基本モデルを変換するためのより効果的な微調整テクニックを使用する方法など、いくつかの課題もあります。モデル。さまざまな下流タスクに適用されます。

この論文の著者: Fei Nanyi、Lu Zhiwu、Gao Yizhao、Yang Guoxing、Huo Yuqi、Wen Jingyuan、Lu Haoyu、Song Ruihua、Gao Xin、Xiang Tao、Sunハオ、ウェン・ジロン ; 共同執筆者は、中国人民大学ヒルハウス人工知能大学院のLu Zhiwu教授、Sun Hao常任准教授、Wen Jiron教授です。論文は国際総合誌「Nature Communications」(英語名:Nature Communications、略称:Nat Commun)に掲載された。この論文はFei Nanyiによって通訳されました。

###

以上が人民大学ヒルハウス人工知能大学院の Nature サブジャーナルは、マルチモーダル基本モデルを使用して一般的な人工知能に移行することを試みていますの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

声明
この記事は51CTO.COMで複製されています。侵害がある場合は、admin@php.cn までご連絡ください。
AIのスキルギャップは、サプライチェーンのダウンを遅くしていますAIのスキルギャップは、サプライチェーンのダウンを遅くしていますApr 26, 2025 am 11:13 AM

「AI-Ready労働力」という用語は頻繁に使用されますが、サプライチェーン業界ではどういう意味ですか? サプライチェーン管理協会(ASCM)のCEOであるAbe Eshkenaziによると、批評家ができる専門家を意味します

1つの会社がAIを永遠に変えるために静かに取り組んでいる方法1つの会社がAIを永遠に変えるために静かに取り組んでいる方法Apr 26, 2025 am 11:12 AM

分散型AI革命は静かに勢いを増しています。 今週の金曜日、テキサス州オースティンでは、ビテンサーのエンドゲームサミットは極めて重要な瞬間を示し、理論から実用的な応用に分散したAI(DEAI)を移行します。 派手なコマーシャルとは異なり

Nvidiaは、AIエージェント開発を合理化するためにNEMOマイクロサービスをリリースしますNvidiaは、AIエージェント開発を合理化するためにNEMOマイクロサービスをリリースしますApr 26, 2025 am 11:11 AM

エンタープライズAIはデータ統合の課題に直面しています エンタープライズAIの適用は、ビジネスデータを継続的に学習することで正確性と実用性を維持できるシステムを構築する大きな課題に直面しています。 NEMOマイクロサービスは、NVIDIAが「データフライホイール」と呼んでいるものを作成することにより、この問題を解決し、AIシステムがエンタープライズ情報とユーザーインタラクションへの継続的な露出を通じて関連性を維持できるようにします。 この新しく発売されたツールキットには、5つの重要なマイクロサービスが含まれています。 NEMOカスタマイザーは、より高いトレーニングスループットを備えた大規模な言語モデルの微調整を処理します。 NEMO評価者は、カスタムベンチマークのAIモデルの簡素化された評価を提供します。 Nemo Guardrailsは、コンプライアンスと適切性を維持するためにセキュリティ管理を実装しています

aiは芸術とデザインの未来のために新しい絵を描きますaiは芸術とデザインの未来のために新しい絵を描きますApr 26, 2025 am 11:10 AM

AI:芸術とデザインの未来 人工知能(AI)は、前例のない方法で芸術とデザインの分野を変えており、その影響はもはやアマチュアに限定されませんが、より深く影響を与えています。 AIによって生成されたアートワークとデザインスキームは、広告、ソーシャルメディアの画像生成、Webデザインなど、多くのトランザクションデザインアクティビティで従来の素材画像とデザイナーに迅速に置き換えられています。 ただし、プロのアーティストやデザイナーもAIの実用的な価値を見つけています。 AIを補助ツールとして使用して、新しい美的可能性を探求し、さまざまなスタイルをブレンドし、新しい視覚効果を作成します。 AIは、アーティストやデザイナーが繰り返しタスクを自動化し、さまざまなデザイン要素を提案し、創造的な入力を提供するのを支援します。 AIはスタイル転送をサポートします。これは、画像のスタイルを適用することです

エージェントAIとのズームがどのように革命を起こしているか:会議からマイルストーンまでエージェントAIとのズームがどのように革命を起こしているか:会議からマイルストーンまでApr 26, 2025 am 11:09 AM

最初はビデオ会議プラットフォームで知られていたZoomは、エージェントAIの革新的な使用で職場革命をリードしています。 ZoomのCTOであるXD Huangとの最近の会話は、同社の野心的なビジョンを明らかにしました。 エージェントAIの定義 huang d

大学に対する実存的な脅威大学に対する実存的な脅威Apr 26, 2025 am 11:08 AM

AIは教育に革命をもたらしますか? この質問は、教育者と利害関係者の間で深刻な反省を促しています。 AIの教育への統合は、機会と課題の両方をもたらします。 Tech Edvocate NotesのMatthew Lynch、Universitとして

プロトタイプ:アメリカの科学者は海外の仕事を探していますプロトタイプ:アメリカの科学者は海外の仕事を探していますApr 26, 2025 am 11:07 AM

米国における科学的研究と技術の開発は、おそらく予算削減のために課題に直面する可能性があります。 Natureによると、海外の雇用を申請するアメリカの科学者の数は、2024年の同じ期間と比較して、2025年1月から3月まで32%増加しました。以前の世論調査では、調査した研究者の75%がヨーロッパとカナダでの仕事の検索を検討していることが示されました。 NIHとNSFの助成金は過去数か月で終了し、NIHの新しい助成金は今年約23億ドル減少し、3分の1近く減少しました。リークされた予算の提案は、トランプ政権が科学機関の予算を急激に削減していることを検討しており、最大50%の削減の可能性があることを示しています。 基礎研究の分野での混乱は、米国の主要な利点の1つである海外の才能を引き付けることにも影響を与えています。 35

オープンAIの最新のGPT 4.1ファミリ - 分析VidhyaオープンAIの最新のGPT 4.1ファミリ - 分析VidhyaApr 26, 2025 am 10:19 AM

Openaiは、強力なGPT-4.1シリーズを発表しました。実際のアプリケーション向けに設計された3つの高度な言語モデルのファミリー。 この大幅な飛躍は、より速い応答時間、理解の強化、およびTと比較した大幅に削減されたコストを提供します

See all articles

ホットAIツール

Undresser.AI Undress

Undresser.AI Undress

リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover

AI Clothes Remover

写真から衣服を削除するオンライン AI ツール。

Undress AI Tool

Undress AI Tool

脱衣画像を無料で

Clothoff.io

Clothoff.io

AI衣類リムーバー

Video Face Swap

Video Face Swap

完全無料の AI 顔交換ツールを使用して、あらゆるビデオの顔を簡単に交換できます。

ホットツール

EditPlus 中国語クラック版

EditPlus 中国語クラック版

サイズが小さく、構文の強調表示、コード プロンプト機能はサポートされていません

AtomエディタMac版ダウンロード

AtomエディタMac版ダウンロード

最も人気のあるオープンソースエディター

MinGW - Minimalist GNU for Windows

MinGW - Minimalist GNU for Windows

このプロジェクトは osdn.net/projects/mingw に移行中です。引き続きそこでフォローしていただけます。 MinGW: GNU Compiler Collection (GCC) のネイティブ Windows ポートであり、ネイティブ Windows アプリケーションを構築するための自由に配布可能なインポート ライブラリとヘッダー ファイルであり、C99 機能をサポートする MSVC ランタイムの拡張機能が含まれています。すべての MinGW ソフトウェアは 64 ビット Windows プラットフォームで実行できます。

ドリームウィーバー CS6

ドリームウィーバー CS6

ビジュアル Web 開発ツール

SecLists

SecLists

SecLists は、セキュリティ テスターの究極の相棒です。これは、セキュリティ評価中に頻繁に使用されるさまざまな種類のリストを 1 か所にまとめたものです。 SecLists は、セキュリティ テスターが必要とする可能性のあるすべてのリストを便利に提供することで、セキュリティ テストをより効率的かつ生産的にするのに役立ちます。リストの種類には、ユーザー名、パスワード、URL、ファジング ペイロード、機密データ パターン、Web シェルなどが含まれます。テスターはこのリポジトリを新しいテスト マシンにプルするだけで、必要なあらゆる種類のリストにアクセスできるようになります。