カリフォルニア大学バークレー校は大規模な一般視覚推論モデルの開発に成功し、3 人の上級学者が研究に参加するために力を合わせました-AI-php.cn

ホームページ

テクノロジー周辺機器

カリフォルニア大学バークレー校は大規模な一般視覚推論モデルの開発に成功し、3 人の上級学者が研究に参加するために力を合わせました

WBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWB

Dec 04, 2023 pm 06:25 PM

理論llava

ビジュアル (ピクセル) モデルだけでどこまでできるでしょうか?カリフォルニア大学バークレー校とジョンズ・ホプキンス大学の新しい論文では、この問題を調査し、さまざまな CV タスクに対するラージビジョンモデル (LVM) の可能性を実証しています。

最近、GPT や LLaMA などの大規模言語モデル (LLM) が世界中で人気になってきています。

大規模ビジュアルモデル (LVM) の構築は大きな懸念事項です。それを達成するには何が必要でしょうか?

LLaVA などの視覚言語モデルによって提供されるアイデアは興味深いものであり、検討する価値がありますが、動物界の法則によれば、視覚能力と言語能力には関連性がないことがすでにわかっています。たとえば、人間以外の霊長類の言語体系は人間と「同一」であるにもかかわらず、その視覚世界は人間の視覚世界と非常に似ていることが多くの実験で示されています。

最近の論文では、ピクセルだけでどこまでできるかという別の質問に対する答えが論じられています。この論文は、カリフォルニア大学バークレー校とジョンズ・ホプキンス大学の研究者によって書かれました。

カリフォルニア大学バークレー校は大規模な一般視覚推論モデルの開発に成功し、3 人の上級学者が研究に参加するために力を合わせました

論文リンク: https://arxiv.org/ abs/2312.00785
プロジェクトのホームページ: https://yutongbai.com/lvm.html

研究者が LVM でエミュレートしようとしている LLM主な特徴： 1) データの規模に応じた成長ビジネスを拡大するには、新たな市場機会を見つける必要があります。今後も需要の高まりに応えるべく、製品ラインをさらに拡充していく予定です。同時にマーケティング戦略を強化し、ブランド認知度を高めていきます。今後も業界展示会やプロモーション活動に積極的に参加し、より多くの顧客層の開拓に努めてまいります。これらの取り組みを通じて、より大きな成功を収め、継続的な成長を達成できると信じています。 2) プロンプトを通じてタスクを柔軟に指定します (コンテキスト学習)。

これらは、データ、アーキテクチャ、損失関数という 3 つの主要コンポーネントを指定します。

データの観点から見ると、研究者は視覚データの大きな多様性を活用したいと考えています。注釈のない生の画像とビデオから始めて、過去数十年にわたって作成されたさまざまな注釈付きビジュアルデータソース (セマンティックセグメンテーション、深度再構成、キーポイント、マルチビュー 3D オブジェクトなど) を活用します。彼らは、ピクセルを超えたメタ知識を必要とせずに、これらのさまざまな注釈を表現するための共通フォーマットである「ビジュアルセンテンス」を定義しました。トレーニングセットの合計サイズは 16 億 4,000 万画像/フレームです。

アーキテクチャの面では、研究者らは大規模なトランスフォーマーアーキテクチャ (30 億パラメータ) を使用してトークンシーケンスとして表現されたビジュアルデータをトレーニングし、学習されたトークナイザーを使用して各画像を 256 のベクトルにマッピングしました定量化トークン文字列。

損失関数に関して、研究者は自然言語コミュニティからインスピレーションを得ています。つまり、マスクトークンモデリングがシーケンス自己回帰予測手法に「道を譲った」ということです。画像、ビデオ、および注釈付き画像をすべてシーケンスとして表現できるようになると、トレーニングされたモデルは次のトークンを予測する際のクロスエントロピー損失を最小限に抑えることができます。

この非常にシンプルな設計を通じて、研究者らは次の注目すべき動作を実証しました:

モデルサイズとデータサイズが増加するにつれて、モデルは自動的に拡張するために適切な動作を示します。私たちのビジネスでは、新しい市場機会を探す必要があります。今後も需要の高まりに応えるべく、製品ラインをさらに拡充していく予定です。同時にマーケティング戦略を強化し、ブランド認知度を高めていきます。今後も業界展示会やプロモーション活動に積極的に参加し、より多くの顧客層の開拓に努めてまいります。これらの取り組みを通じて、より大きな成功を収め、継続的な成長を実現できると信じています。
テスト時に適切なプロンプトを設計することで、さまざまな視覚的なタスクを解決できるようになりました。特別にトレーニングされたカスタムモデルほど高性能ではありませんが、単一のビジョンモデルで非常に多くのタスクを解決できるという事実は非常に心強いものです。
教師付きデータは、パフォーマンスに大きく貢献します。さまざまな視覚タスク
分布外のデータを処理し、新しいタスクを実行する際に、一般的な視覚的推論能力の兆候はすでにありますが、さらなる研究がまだ必要です

論文の共著者で、ジョンズ・ホプキンス大学CS博士課程4年生でバークレー校客員博士課程学生でもあるYutong Bai氏は、自分たちの研究を宣伝するためにツイートした。

カリフォルニア大学バークレー校は大規模な一般視覚推論モデルの開発に成功し、3 人の上級学者が研究に参加するために力を合わせました

元の画像ソースは Twitter アカウントからのものです: https://twitter.com/YutongBAI1002/status/1731512110247473608 #この論文の著者のうち、最後の 3 人はカリフォルニア大学バークレー校の履歴書分野の上級学者です。 Trevor Darrell 教授はバークレー人工知能研究所 BAIR の創設共同所長であり、Jitendra Malik 教授は 2019 IEEE Computer Pioneer Award を受賞し、Alexei A. Efros 教授は最近傍研究で特に有名です。

カリフォルニア大学バークレー校は大規模な一般視覚推論モデルの開発に成功し、3 人の上級学者が研究に参加するために力を合わせました

^{左から右へ、トレバー・ダレル、ジテンドラ・マリク、アレクセイ・A・エフロス。}

メソッドの紹介

この記事では 2 段階のメソッドを使用しています。1) 大規模なビジュアルトークナイザー (単一の画像上で動作) をトレーニングして、画像を一連の視覚トークンに変換することを組み合わせることができる; 2) 視覚的な文で自己回帰変換モデルをトレーニングすると、各文は一連のトークンとして表現されます。この方法を図 2 に示します。

カリフォルニア大学バークレー校は大規模な一般視覚推論モデルの開発に成功し、3 人の上級学者が研究に参加するために力を合わせました

画像トークン化

Transformer モデルを画像に適用するための一般的な操作は次のとおりです。 : 画像をパッチに分割してシーケンスとして扱います。または、VQVAE や VQGAN などの事前トレーニング済み画像トークナイザーを使用して、画像特徴を個別のトークンのグリッドに集約します。この記事では後者の方法を採用し、VQGAN モデルを使用してセマンティックトークンを生成します。

LVM フレームワークには、エンコードおよびデコードのメカニズムが含まれており、量子化レイヤーもあり、エンコーダーとデコーダーは畳み込みレイヤーで構築されます。エンコーダには入力の空間次元を縮小するための複数のダウンサンプリングモジュールが装備されており、デコーダには画像を元のサイズに復元するための一連の同等のアップサンプリングモジュールが装備されています。特定の画像に対して、VQGAN トークナイザーは 256 個の個別のトークンを生成します。

この記事の VQGAN アーキテクチャは、Chang らによって提案された実装の詳細を採用し、そのセットアップに従います。具体的には、ダウンサンプリング係数は f=16、コードブックサイズは 8192 です。これは、サイズ 256×256 の画像の場合、VQGAN トークナイザーは 16×16=256 個のトークンを生成し、各トークンは 8192 個の異なる値を取ることができることを意味します。さらに、この記事では、LAION 5B データセットの 1.5B サブセットでトークナイザーをトレーニングしました。

ビジュアルセンテンスシーケンスモデリング

VQGAN を使用して画像を離散トークンに変換します。この論文は、複数の画像内の離散トークンを 1 次元シーケンスに連結し、視覚的な文章を統一されたシーケンスとして扱います。重要なのは、ビジュアルセンテンスはいずれも特別に処理されていないことです。つまり、特定のタスクや形式を示すための特別なトークンは使用されていません。

カリフォルニア大学バークレー校は大規模な一般視覚推論モデルの開発に成功し、3 人の上級学者が研究に参加するために力を合わせました

#ビジュアルセンテンスの機能は、さまざまなビジュアルデータを統一された画像シーケンス構造にフォーマットすることです。

実装の詳細。この論文では、ビジュアルセンテンスの各画像を 256 個のトークンにトークン化した後、それらを連結して 1D トークンシーケンスを形成します。視覚的なトークンシーケンスに関しては、この記事の Transformer モデルは実際には自己回帰言語モデルと同じであるため、LLaMA の Transformer アーキテクチャを採用しています。

このコンテンツは、言語モデルと同様に、4096 トークンのコンテキスト長を使用します。各ビジュアルセンテンスの先頭に [BOS] (文の始まり) トークンを追加し、最後に [EOS] (文の終わり) トークンを追加し、トレーニング中にシーケンスのスプライシングを使用して効率を向上させます

この記事モデルはデータセット (4,200 億トークン) でトレーニングされ、パラメーターの数が異なる合計 4 つのモデル (3 億、6 億、10 億、30 億) がトレーニングされました。

実験結果は書き直す必要があります

この研究では、モデルを評価するために実験が行われました。ビジネスを拡大するには、新しい市場機会を見つける必要があります。今後も需要の高まりに応えるべく、製品ラインをさらに拡充していく予定です。同時にマーケティング戦略を強化し、ブランド認知度を高めていきます。今後も業界展示会やプロモーション活動に積極的に参加し、より多くの顧客層の開拓に努めてまいります。私たちは、これらの取り組みを通じて、より大きな成功を収め、さまざまなタスクを理解し、それに答える能力と能力の継続的な成長を達成できると信じています。

ビジネスを拡大するには、新しい市場機会を見つける必要があります。今後も需要の高まりに応えるべく、製品ラインをさらに拡充していく予定です。同時にマーケティング戦略を強化し、ブランド認知度を高めていきます。今後も業界展示会やプロモーション活動に積極的に参加し、より多くの顧客層の開拓に努めてまいります。私たちは、これらの取り組みを通じて、より大きな成果を達成し、持続的な成長を達成できると信じています。

図 3 に示すように、この研究では、まず、さまざまなサイズの LVM のトレーニング損失を調べました。

カリフォルニア大学バークレー校は大規模な一般視覚推論モデルの開発に成功し、3 人の上級学者が研究に参加するために力を合わせました

以下の図 4 に示すように、大規模なモデルはすべてのタスクの複雑さが低く、モデルの全体的なパフォーマンスを一連の下流タスクに転送できることを示しています。

カリフォルニア大学バークレー校は大規模な一般視覚推論モデルの開発に成功し、3 人の上級学者が研究に参加するために力を合わせました

図 5 に示すように、各データコンポーネントは下流のタスクに重要な影響を与えます。 LVM は、より大きなデータから恩恵を受けるだけでなく、データセットの多様性によっても改善されます。

カリフォルニア大学バークレー校は大規模な一般視覚推論モデルの開発に成功し、3 人の上級学者が研究に参加するために力を合わせました

元の意味を変更せずにコンテンツを書き換えます。言語を書き直す必要があります。中国人に。

LVM のさまざまなプロンプトを理解する能力をテストするために、この研究ではまず、シーケンス推論タスクに関する LVM の評価実験を実施しました。その中で、プロンプトは非常に単純です: モデルに 7 枚の画像のシーケンスを提供し、次の画像を予測するように依頼します。実験結果は、以下の図 6 に示すように書き直す必要があります。

## また、この研究では、LVM が同じカテゴリの画像を予測できるように、特定のカテゴリのアイテムのリストをシーケンスとして扱います。実験結果は、以下の図 15 に示すように書き直す必要があります。

カリフォルニア大学バークレー校は大規模な一般視覚推論モデルの開発に成功し、3 人の上級学者が研究に参加するために力を合わせました

それでは、後続のフレームを正確に予測するには、どのくらいのコンテキストが必要なのでしょうか?

この研究では、さまざまな長さ (1 ～ 15 フレーム) のコンテキストプロンプトを与えることによって、モデルのフレーム生成の複雑さを評価します。結果は、フレーム数が増加するにつれて、複雑さが徐々に改善されることを示しています。具体的なデータは以下の図 7 に示されています。混乱はフレーム 1 からフレーム 11 まで大幅に改善され、その後安定しました (62.1 → 48.4)

カリフォルニア大学バークレー校は大規模な一般視覚推論モデルの開発に成功し、3 人の上級学者が研究に参加するために力を合わせました

アナロジープロンプト

カリフォルニア大学バークレー校は大規模な一般視覚推論モデルの開発に成功し、3 人の上級学者が研究に参加するために力を合わせましたこの研究では、アナロジープロンプトなどのより複雑なプロンプト構造を評価することで、LVM の高度な解釈機能もテストしました。

下の図 8 は、多数のタスクに対するアナロジープロンプトの結果を示しています。 :

視覚的なプロンプトとの比較に基づいて、ほとんどすべてのタスクにおいてシーケンス LVM が以前の方法よりも優れていることがわかります

カリフォルニア大学バークレー校は大規模な一般視覚推論モデルの開発に成功し、3 人の上級学者が研究に参加するために力を合わせました

##合成タスク。図 9 は、単一のプロンプトを使用して複数のタスクを組み合わせた結果を示しています

カリフォルニア大学バークレー校は大規模な一般視覚推論モデルの開発に成功し、3 人の上級学者が研究に参加するために力を合わせました

その他のプロンプト

カリフォルニア大学バークレー校は大規模な一般視覚推論モデルの開発に成功し、3 人の上級学者が研究に参加するために力を合わせました研究者が試したこのモデルは、さまざまなプロンプトを提供しますモデルを観察し、ビジネスを拡大するには、新しい市場機会を見つける必要があります。今後も需要の高まりに応えるべく、製品ラインをさらに拡充していく予定です。同時にマーケティング戦略を強化し、ブランド認知度を高めていきます。今後も業界展示会やプロモーション活動に積極的に参加し、より多くの顧客層の開拓に努めてまいります。これらの取り組みを通じて、当社はより大きな成功を収め、継続的な成長を達成できると信じています。以下の図 10 は、そのようなプロンプトがうまく機能していることを示しています。

以下の図 11 は、言葉で説明するのが難しいいくつかのプロンプトを示していますが、これらのタスクに関しては、LVM が最終的に LLM よりも優れたパフォーマンスを発揮する可能性があります。

カリフォルニア大学バークレー校は大規模な一般視覚推論モデルの開発に成功し、3 人の上級学者が研究に参加するために力を合わせました #図 13 は、人間の非言語的 IQ テストにおける、典型的な視覚的推論の質問に対する暫定的な定性的結果を示しています。

カリフォルニア大学バークレー校は大規模な一般視覚推論モデルの開発に成功し、3 人の上級学者が研究に参加するために力を合わせました # 詳細については元の記事を読んでください。

以上がカリフォルニア大学バークレー校は大規模な一般視覚推論モデルの開発に成功し、3 人の上級学者が研究に参加するために力を合わせましたの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

声明

この記事は机器之心で複製されています。侵害がある場合は、admin@php.cn までご連絡ください。

AIインデックス2025を読む：AIはあなたの友人、敵、または副操縦士ですか？Apr 11, 2025 pm 12:13 PM

スタンフォード大学ヒト指向の人工知能研究所によってリリースされた2025年の人工知能インデックスレポートは、進行中の人工知能革命の良い概要を提供します。 4つの単純な概念で解釈しましょう：認知（何が起こっているのかを理解する）、感謝（利益を見る）、受け入れ（顔の課題）、責任（責任を見つける）。認知：人工知能はどこにでもあり、急速に発展しています私たちは、人工知能がどれほど速く発展し、広がっているかを強く認識する必要があります。人工知能システムは絶えず改善されており、数学と複雑な思考テストで優れた結果を達成しており、わずか1年前にこれらのテストで惨めに失敗しました。 2023年以来、複雑なコーディングの問題や大学院レベルの科学的問題を解決することを想像してみてください

Meta Llama 3.2を始めましょう - 分析VidhyaApr 11, 2025 pm 12:04 PM

メタのラマ3.2：マルチモーダルとモバイルAIの前進メタは最近、ラマ3.2を発表しました。これは、モバイルデバイス向けに最適化された強力なビジョン機能と軽量テキストモデルを特徴とするAIの大幅な進歩です。成功に基づいてo

AVバイト：Meta＆＃039; s llama 3.2、GoogleのGemini 1.5などApr 11, 2025 pm 12:01 PM

今週のAIの風景：進歩、倫理的考慮、規制の議論の旋風。 Openai、Google、Meta、Microsoftのような主要なプレーヤーは、画期的な新しいモデルからLEの重要な変化まで、アップデートの急流を解き放ちました

マシンと話すための人的費用：チャットボットは本当に気にすることができますか？Apr 11, 2025 pm 12:00 PM

つながりの慰めの幻想：私たちはAIとの関係において本当に繁栄していますか？この質問は、MIT Media Labの「AI（AHA）で人間を進める」シンポジウムの楽観的なトーンに挑戦しました。イベントではCondedgを紹介している間

PythonのScipy Libraryの理解Apr 11, 2025 am 11:57 AM

導入あなたが科学者またはエンジニアで複雑な問題に取り組んでいると想像してください - 微分方程式、最適化の課題、またはフーリエ分析。 Pythonの使いやすさとグラフィックスの機能は魅力的ですが、これらのタスクは強力なツールを必要とします

ラマ3.2を実行する3つの方法-Analytics VidhyaApr 11, 2025 am 11:56 AM

メタのラマ3.2：マルチモーダルAIパワーハウス Metaの最新のマルチモーダルモデルであるLlama 3.2は、AIの大幅な進歩を表しており、言語理解の向上、精度の向上、および優れたテキスト生成機能を誇っています。その能力t

Dagsterでデータ品質チェックを自動化しますApr 11, 2025 am 11:44 AM

データ品質保証：ダグスターと大きな期待でチェックを自動化するデータ駆動型のビジネスにとって、高いデータ品質を維持することが重要です。データの量とソースが増加するにつれて、手動の品質管理は非効率的でエラーが発生しやすくなります。

メインフレームはAI時代に役割を果たしていますか？Apr 11, 2025 am 11:42 AM

MainFrames：AI革命のUnsung Heroes サーバーは汎用アプリケーションで優れており、複数のクライアントの処理を行いますが、メインフレームは大量のミッションクリティカルなタスク用に構築されています。これらの強力なシステムは、頻繁にヘビルで見られます

See all articles

ホットAIツール

Undresser.AI Undress

リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover

写真から衣服を削除するオンライン AI ツール。

Undress AI Tool

脱衣画像を無料で

Clothoff.io

AI衣類リムーバー

AI Hentai Generator

AIヘンタイを無料で生成します。

ホットツール

EditPlus 中国語クラック版

サイズが小さく、構文の強調表示、コードプロンプト機能はサポートされていません

メモ帳++7.3.1

使いやすく無料のコードエディター

SecLists

SecLists は、セキュリティテスターの究極の相棒です。これは、セキュリティ評価中に頻繁に使用されるさまざまな種類のリストを 1 か所にまとめたものです。 SecLists は、セキュリティテスターが必要とする可能性のあるすべてのリストを便利に提供することで、セキュリティテストをより効率的かつ生産的にするのに役立ちます。リストの種類には、ユーザー名、パスワード、URL、ファジングペイロード、機密データパターン、Web シェルなどが含まれます。テスターはこのリポジトリを新しいテストマシンにプルするだけで、必要なあらゆる種類のリストにアクセスできるようになります。

MinGW - Minimalist GNU for Windows

このプロジェクトは osdn.net/projects/mingw に移行中です。引き続きそこでフォローしていただけます。 MinGW: GNU Compiler Collection (GCC) のネイティブ Windows ポートであり、ネイティブ Windows アプリケーションを構築するための自由に配布可能なインポートライブラリとヘッダーファイルであり、C99 機能をサポートする MSVC ランタイムの拡張機能が含まれています。すべての MinGW ソフトウェアは 64 ビット Windows プラットフォームで実行できます。