ホームページ >テクノロジー周辺機器 >AI >カリフォルニア大学バークレー校は大規模な一般視覚推論モデルの開発に成功し、3 人の上級学者が研究に参加するために力を合わせました
ビジュアル (ピクセル) モデルだけでどこまでできるでしょうか?カリフォルニア大学バークレー校とジョンズ・ホプキンス大学の新しい論文では、この問題を調査し、さまざまな CV タスクに対するラージ ビジョン モデル (LVM) の可能性を実証しています。
最近、GPT や LLaMA などの大規模言語モデル (LLM) が世界中で人気になってきています。
大規模ビジュアル モデル (LVM) の構築は大きな懸念事項です。それを達成するには何が必要でしょうか?
LLaVA などの視覚言語モデルによって提供されるアイデアは興味深いものであり、検討する価値がありますが、動物界の法則によれば、視覚能力と言語能力には関連性がないことがすでにわかっています。たとえば、人間以外の霊長類の言語体系は人間と「同一」であるにもかかわらず、その視覚世界は人間の視覚世界と非常に似ていることが多くの実験で示されています。
最近の論文では、ピクセルだけでどこまでできるかという別の質問に対する答えが論じられています。この論文は、カリフォルニア大学バークレー校とジョンズ・ホプキンス大学の研究者によって書かれました。
論文リンク: https://arxiv.org/ abs/2312.00785
プロジェクトのホームページ: https://yutongbai.com/lvm.html
研究者が LVM でエミュレートしようとしている LLM主な特徴: 1) データの規模に応じた成長 ビジネスを拡大するには、新たな市場機会を見つける必要があります。今後も需要の高まりに応えるべく、製品ラインをさらに拡充していく予定です。同時にマーケティング戦略を強化し、ブランド認知度を高めていきます。今後も業界展示会やプロモーション活動に積極的に参加し、より多くの顧客層の開拓に努めてまいります。これらの取り組みを通じて、より大きな成功を収め、継続的な成長を達成できると信じています。 2) プロンプトを通じてタスクを柔軟に指定します (コンテキスト学習)。
これらは、データ、アーキテクチャ、損失関数という 3 つの主要コンポーネントを指定します。
データの観点から見ると、研究者は視覚データの大きな多様性を活用したいと考えています。注釈のない生の画像とビデオから始めて、過去数十年にわたって作成されたさまざまな注釈付きビジュアル データ ソース (セマンティック セグメンテーション、深度再構成、キーポイント、マルチビュー 3D オブジェクトなど) を活用します。彼らは、ピクセルを超えたメタ知識を必要とせずに、これらのさまざまな注釈を表現するための共通フォーマットである「ビジュアル センテンス」を定義しました。トレーニング セットの合計サイズは 16 億 4,000 万画像/フレームです。
アーキテクチャの面では、研究者らは大規模なトランスフォーマー アーキテクチャ (30 億パラメータ) を使用してトークン シーケンスとして表現されたビジュアル データをトレーニングし、学習されたトークナイザーを使用して各画像を 256 のベクトルにマッピングしました定量化 トークン文字列。
損失関数に関して、研究者は自然言語コミュニティからインスピレーションを得ています。つまり、マスク トークン モデリングがシーケンス自己回帰予測手法に「道を譲った」ということです。画像、ビデオ、および注釈付き画像をすべてシーケンスとして表現できるようになると、トレーニングされたモデルは次のトークンを予測する際のクロスエントロピー損失を最小限に抑えることができます。
この非常にシンプルな設計を通じて、研究者らは次の注目すべき動作を実証しました:
モデル サイズとデータ サイズが増加するにつれて、モデルは自動的に拡張するために適切な動作を示します。私たちのビジネスでは、新しい市場機会を探す必要があります。今後も需要の高まりに応えるべく、製品ラインをさらに拡充していく予定です。同時にマーケティング戦略を強化し、ブランド認知度を高めていきます。今後も業界展示会やプロモーション活動に積極的に参加し、より多くの顧客層の開拓に努めてまいります。これらの取り組みを通じて、より大きな成功を収め、継続的な成長を実現できると信じています。
テスト時に適切なプロンプトを設計することで、さまざまな視覚的なタスクを解決できるようになりました。特別にトレーニングされたカスタム モデルほど高性能ではありませんが、単一のビジョン モデルで非常に多くのタスクを解決できるという事実は非常に心強いものです。
教師付きデータは、パフォーマンスに大きく貢献します。さまざまな視覚タスク
分布外のデータを処理し、新しいタスクを実行する際に、一般的な視覚的推論能力の兆候はすでにありますが、さらなる研究がまだ必要です
論文の共著者で、ジョンズ・ホプキンス大学CS博士課程4年生でバークレー校客員博士課程学生でもあるYutong Bai氏は、自分たちの研究を宣伝するためにツイートした。
元の画像ソースは Twitter アカウントからのものです: https://twitter.com/YutongBAI1002/status/1731512110247473608 #この論文の著者のうち、最後の 3 人はカリフォルニア大学バークレー校の履歴書分野の上級学者です。 Trevor Darrell 教授はバークレー人工知能研究所 BAIR の創設共同所長であり、Jitendra Malik 教授は 2019 IEEE Computer Pioneer Award を受賞し、Alexei A. Efros 教授は最近傍研究で特に有名です。
左から右へ、トレバー・ダレル、ジテンドラ・マリク、アレクセイ・A・エフロス。
メソッドの紹介
この記事では 2 段階のメソッドを使用しています。1) 大規模なビジュアル トークナイザー (単一の画像上で動作) をトレーニングして、画像を一連の視覚トークンに変換することを組み合わせることができる; 2) 視覚的な文で自己回帰変換モデルをトレーニングすると、各文は一連のトークンとして表現されます。この方法を図 2 に示します。
画像トークン化
Transformer モデルを画像に適用するための一般的な操作は次のとおりです。 : 画像をパッチに分割してシーケンスとして扱います。または、VQVAE や VQGAN などの事前トレーニング済み画像トークナイザーを使用して、画像特徴を個別のトークンのグリッドに集約します。この記事では後者の方法を採用し、VQGAN モデルを使用してセマンティック トークンを生成します。
LVM フレームワークには、エンコードおよびデコードのメカニズムが含まれており、量子化レイヤーもあり、エンコーダーとデコーダーは畳み込みレイヤーで構築されます。エンコーダには入力の空間次元を縮小するための複数のダウンサンプリング モジュールが装備されており、デコーダには画像を元のサイズに復元するための一連の同等のアップサンプリング モジュールが装備されています。特定の画像に対して、VQGAN トークナイザーは 256 個の個別のトークンを生成します。
この記事の VQGAN アーキテクチャは、Chang らによって提案された実装の詳細を採用し、そのセットアップに従います。具体的には、ダウンサンプリング係数は f=16、コードブック サイズは 8192 です。これは、サイズ 256×256 の画像の場合、VQGAN トークナイザーは 16×16=256 個のトークンを生成し、各トークンは 8192 個の異なる値を取ることができることを意味します。さらに、この記事では、LAION 5B データセットの 1.5B サブセットでトークナイザーをトレーニングしました。
ビジュアル センテンス シーケンス モデリング
VQGAN を使用して画像を離散トークンに変換します。この論文は、複数の画像内の離散トークンを 1 次元シーケンスに連結し、視覚的な文章を統一されたシーケンスとして扱います。重要なのは、ビジュアル センテンスはいずれも特別に処理されていないことです。つまり、特定のタスクや形式を示すための特別なトークンは使用されていません。
#ビジュアル センテンスの機能は、さまざまなビジュアル データを統一された画像シーケンス構造にフォーマットすることです。
実装の詳細。この論文では、ビジュアル センテンスの各画像を 256 個のトークンにトークン化した後、それらを連結して 1D トークン シーケンスを形成します。視覚的なトークン シーケンスに関しては、この記事の Transformer モデルは実際には自己回帰言語モデルと同じであるため、LLaMA の Transformer アーキテクチャを採用しています。 このコンテンツは、言語モデルと同様に、4096 トークンのコンテキスト長を使用します。各ビジュアルセンテンスの先頭に [BOS] (文の始まり) トークンを追加し、最後に [EOS] (文の終わり) トークンを追加し、トレーニング中にシーケンスのスプライシングを使用して効率を向上させます この記事モデルはデータ セット (4,200 億トークン) でトレーニングされ、パラメーターの数が異なる合計 4 つのモデル (3 億、6 億、10 億、30 億) がトレーニングされました。実験結果は書き直す必要があります
この研究では、モデルを評価するために実験が行われました。ビジネスを拡大するには、新しい市場機会を見つける必要があります。今後も需要の高まりに応えるべく、製品ラインをさらに拡充していく予定です。同時にマーケティング戦略を強化し、ブランド認知度を高めていきます。今後も業界展示会やプロモーション活動に積極的に参加し、より多くの顧客層の開拓に努めてまいります。私たちは、これらの取り組みを通じて、より大きな成功を収め、さまざまなタスクを理解し、それに答える能力と能力の継続的な成長を達成できると信じています。ビジネスを拡大するには、新しい市場機会を見つける必要があります。今後も需要の高まりに応えるべく、製品ラインをさらに拡充していく予定です。同時にマーケティング戦略を強化し、ブランド認知度を高めていきます。今後も業界展示会やプロモーション活動に積極的に参加し、より多くの顧客層の開拓に努めてまいります。私たちは、これらの取り組みを通じて、より大きな成果を達成し、持続的な成長を達成できると信じています。
図 3 に示すように、この研究では、まず、さまざまなサイズの LVM のトレーニング損失を調べました。以下の図 4 に示すように、大規模なモデルはすべてのタスクの複雑さが低く、モデルの全体的なパフォーマンスを一連の下流タスクに転送できることを示しています。
図 5 に示すように、各データ コンポーネントは下流のタスクに重要な影響を与えます。 LVM は、より大きなデータから恩恵を受けるだけでなく、データセットの多様性によっても改善されます。
元の意味を変更せずにコンテンツを書き換えます。言語を書き直す必要があります。中国人に。
LVM のさまざまなプロンプトを理解する能力をテストするために、この研究ではまず、シーケンス推論タスクに関する LVM の評価実験を実施しました。その中で、プロンプトは非常に単純です: モデルに 7 枚の画像のシーケンスを提供し、次の画像を予測するように依頼します。実験結果は、以下の図 6 に示すように書き直す必要があります。
## また、この研究では、LVM が同じカテゴリの画像を予測できるように、特定のカテゴリのアイテムのリストをシーケンスとして扱います。実験結果は、以下の図 15 に示すように書き直す必要があります。 それでは、後続のフレームを正確に予測するには、どのくらいのコンテキストが必要なのでしょうか? この研究では、さまざまな長さ (1 ~ 15 フレーム) のコンテキスト プロンプトを与えることによって、モデルのフレーム生成の複雑さを評価します。結果は、フレーム数が増加するにつれて、複雑さが徐々に改善されることを示しています。具体的なデータは以下の図 7 に示されています。混乱はフレーム 1 からフレーム 11 まで大幅に改善され、その後安定しました (62.1 → 48.4)アナロジー プロンプト
この研究では、アナロジー プロンプトなどのより複雑なプロンプト構造を評価することで、LVM の高度な解釈機能もテストしました。
下の図 8 は、多数のタスクに対するアナロジー プロンプトの結果を示しています。 :
視覚的なプロンプトとの比較に基づいて、ほとんどすべてのタスクにおいてシーケンス LVM が以前の方法よりも優れていることがわかります ##合成タスク。図 9 は、単一のプロンプトを使用して複数のタスクを組み合わせた結果を示していますその他のプロンプト
研究者が試したこのモデルは、さまざまなプロンプトを提供しますモデルを観察し、ビジネスを拡大するには、新しい市場機会を見つける必要があります。今後も需要の高まりに応えるべく、製品ラインをさらに拡充していく予定です。同時にマーケティング戦略を強化し、ブランド認知度を高めていきます。今後も業界展示会やプロモーション活動に積極的に参加し、より多くの顧客層の開拓に努めてまいります。これらの取り組みを通じて、当社はより大きな成功を収め、継続的な成長を達成できると信じています。以下の図 10 は、そのようなプロンプトがうまく機能していることを示しています。
以下の図 11 は、言葉で説明するのが難しいいくつかのプロンプトを示していますが、これらのタスクに関しては、LVM が最終的に LLM よりも優れたパフォーマンスを発揮する可能性があります。
#図 13 は、人間の非言語的 IQ テストにおける、典型的な視覚的推論の質問に対する暫定的な定性的結果を示しています。
# 詳細については元の記事を読んでください。
以上がカリフォルニア大学バークレー校は大規模な一般視覚推論モデルの開発に成功し、3 人の上級学者が研究に参加するために力を合わせましたの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。