Google は視覚伝達モデルのパラメータを 220 億まで拡張し、ChatGPT が普及して以来研究者が集団的な行動をとった-AI-php.cn

ホームページ

テクノロジー周辺機器

Google は視覚伝達モデルのパラメータを 220 億まで拡張し、ChatGPT が普及して以来研究者が集団的な行動をとった

WBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWB

Apr 27, 2023 am 11:31 AM

グーグルモデル

自然言語処理と同様に、事前トレーニングされたビジュアルバックボーンの転送により、さまざまなビジュアルタスクにおけるモデルのパフォーマンスが向上します。大規模なデータセット、スケーラブルなアーキテクチャ、および新しいトレーニング方法はすべて、モデルのパフォーマンスの向上を推進しました。

しかし、視覚モデルは依然として言語モデルに大きく遅れをとっています。具体的には、これまで最大のビジョンモデルである ViT のパラメーターは 4B のみですが、エントリーレベルの言語モデルは 10B パラメーターを超えることがよくあり、ましてや 540B パラメーターを持つ大規模な言語モデルは言うまでもありません。

AI モデルのパフォーマンスの限界を調査するために、Google Research は最近 CV の分野で研究を実施し、ビジョントランスフォーマーのパラメータサイズを 22B に拡大し、ViT を提案しました。前回と同様の-22Bであり、モデルパラメータ量4Bと比較すると、これまでで最大の高密度ViTモデルと言えます。

Google は視覚伝達モデルのパラメータを 220 億まで拡張し、ChatGPT が普及して以来研究者が集団的な行動をとった

#論文アドレス: https://arxiv.org/pdf/2302.05442.pdf

#従来最大のViT-GとViT-eを比較した結果が表1にありますが、以下の表からViT-22Bは主にモデル幅を拡大していることがわかります。、パラメーターを作成します。ViT-G よりもボリュームが大きく、深さは同じです。

Google は視覚伝達モデルのパラメータを 220 億まで拡張し、ChatGPT が普及して以来研究者が集団的な行動をとった

##現在の ViT ラージモデル

としてこの Zhihu ネチズンは、もしかしたら Google は ChatGPT でラウンドに敗れ、CV 分野で競争することになるのではないか、と述べています。＃＃＃＃＃＃＃＃＃＃＃＃＃＃＃＃＃＃＃＃＃＃＃＃＃＃＃どうやってするの？研究の初期段階で、ViT の拡張中にトレーニングの不安定性が発生し、アーキテクチャの変更につながる可能性があることが判明しました。その後、研究者たちはモデルを慎重に設計し、前例のない効率で並行してトレーニングしました。 ViT-22B の品質は、(数ショットの) 分類から高密度の出力タスクに至るまで、現在の SOTA レベルを満たしているか、それを超えている包括的な一連のタスクを通じて評価されました。たとえば、ViT-22B は、凍結された視覚特徴抽出器として使用された場合でも、ImageNet 上で 89.5% の精度を達成しました。これらの視覚的特徴に一致するようにテキストタワーをトレーニングすることにより、ImageNet 上で 85.9% のゼロショット精度を達成します。さらに、モデルを教師とみなし、蒸留ターゲットとして使用することもでき、研究者らは ViT-B 学生モデルをトレーニングし、ImageNet 上で 88.6% の精度を達成し、この規模のモデルでは SOTA レベルに達しました。

モデルアーキテクチャ

ViT-22B は、オリジナルの Vision Transformer アーキテクチャに似た Transformer ベースのエンコーダモデルですが、効率と安定性を向上させるために次の 3 つの主要な変更が含まれています。大規模トレーニング: 並列レイヤー、クエリ/キー (QK) 正規化、バイアスの省略。

Google は視覚伝達モデルのパラメータを 220 億まで拡張し、ChatGPT が普及して以来研究者が集団的な行動をとった

#並列レイヤー。注意と MLP の並列構造を設計した Wang と小松崎の研究で述べられているように、

これは達成できます。 MLP の線形投影とアテンションブロックを組み合わせて追加の並列化を実現します。特に、クエリ/キー/値射影の行列乗算と MLP の最初の線形層は、アテンション外射影と MLP の 2 番目の線形層の場合と同様、単一の演算に融合されています。

QK 正規化。大規模なモデルをトレーニングする際の難点の 1 つはモデルの安定性であり、研究者らは ViT を拡張する過程で、数千ラウンドのステップ後にトレーニング損失が発散することを発見しました。この現象は、8B パラメータモデルで特に顕著です。モデルトレーニングを安定させるために、研究者らはGilmerらの手法を採用し、ドット積アテンション計算の前にクエリとキーにLayerNorm正規化演算を適用してトレーニングの安定性を向上させた。具体的には、注目の重みは次のように計算されます:

Google は視覚伝達モデルのパラメータを 220 億まで拡張し、ChatGPT が普及して以来研究者が集団的な行動をとった

#偏見を省略しました。 PaLM の後、QKV 投影からバイアス項が削除され、すべてのレイヤーノルムがバイアスなしで適用され、その結果、品質を劣化させることなくアクセラレータの利用率が向上 (3%) しました。ただし、PaLM とは異なり、研究者らは MLP 高密度層にバイアス項を使用しましたが、それでも、このアプローチは品質を考慮しながら速度を犠牲にすることはありませんでした。

図 2 は、ViT-22B エンコーダブロックを示しています。埋め込み層は、元の ViT に基づいてパッチ抽出、線形投影、追加位置の埋め込みなどの操作を実行します。研究者らは、マルチヘッドアテンションプーリングを使用して、ヘッド内の各トークン表現を集約しました。

Google は視覚伝達モデルのパラメータを 220 億まで拡張し、ChatGPT が普及して以来研究者が集団的な行動をとった

#ViT-22B は 14 × 14 パッチと 224 × 224 の画像解像度を使用します。 ViT-22B は学習された 1 次元位置の埋め込みを採用しています。高解像度画像の微調整中に、研究者らは、事前にトレーニングされた位置埋め込みが元の画像のどこにあるかに基づいて 2 次元補間を実行しました。

トレーニングインフラストラクチャと効率

ViT-22B は、JAX として実装され、Scenic に組み込まれた FLAX ライブラリを使用します。モデルとデータの両方の並列処理を利用します。特に、研究者らは、すべての中間物 (重みやアクティベーションなど) のシャーディングとチップ間通信の明示的な制御を提供する jax.xmap API を使用しました。研究者らはチップをサイズ t × k の 2D 論理グリッドに編成しました。ここで、t はデータ平行軸のサイズ、k はモデル軸のサイズです。次に、t グループのそれぞれについて、k 個のデバイスが同じバッチの画像を取得します。各デバイスは 1/k のアクティベーションのみを保持し、すべての線形層出力の 1/k を計算する責任を負います (詳細は以下を参照)。

Google は視覚伝達モデルのパラメータを 220 億まで拡張し、ChatGPT が普及して以来研究者が集団的な行動をとった

図 3: 非同期並列線形演算 (y = Ax): デバイス間での通信と計算のオーバーラップモデル並列行列乗算用。

非同期並列線形操作。スループットを最大化するには、計算と通信を考慮する必要があります。つまり、これらの操作を非シャードの場合と分析的に同等にしたい場合は、通信をできる限り少なくする必要があり、理想的には行列乗算ユニット (FLOP の容量の大部分が存在する) を維持できるようにそれらの操作をオーバーラップさせます。いつも忙しい。

パラメータのシャーディング。モデルは最初の軸に並列したデータです。各パラメータをこの軸上で完全に複製することも、各デバイスをその一部として保存することもできます。研究者らは、より大きなモデルとバッチサイズに適合できるように、モデルパラメーターからいくつかの大きなテンソルを分割することを選択しました。

これらの手法を使用して、ViT-22B は TPUv4 でのトレーニング中にコアあたり 1 秒あたり 1.15k トークンを処理します。 ViT-22B のモデルフロップ使用率 (MFU) は 54.9% であり、ハードウェアが非常に効率的に使用されていることを示しています。 PaLM は 46.2% の MFU を報告しているのに対し、研究者らは同じハードウェア上で ViT-e (データ並列処理のみ) の MFU を 44.0% と測定したことに注意してください。

実験結果

実験では、画像分類における ViT-22B の評価結果を調査します。

表 2 の結果は、ViT-22B がさまざまな指標において依然として大幅な改善を示していることを示しています。さらに、ViT-22B のような大型モデルの線形プローブは、高分解能の小型モデルの完全な微調整パフォーマンスに近づくか、それを超えることが研究で示されており、多くの場合、より安価で簡単に行うことができます。

Google は視覚伝達モデルのパラメータを 220 億まで拡張し、ChatGPT が普及して以来研究者が集団的な行動をとった

研究では、ViT-22B を他のデータセットと比較しながら、細粒度の分類データセット iNaturalist 2017 の線形分離性をさらにテストします。比較のための ViT バリアント。この調査では、224px と 384px の入力解像度をテストしました。結果を図 4 に示します。この研究では、特に標準の 224px 入力解像度において、ViT-22B が他の ViT バリアントよりも大幅に優れていることが観察されました。これは、ViT-22B の多数のパラメーターが画像から詳細な情報を抽出するのに役立つことを示しています。

Google は視覚伝達モデルのパラメータを 220 億まで拡張し、ChatGPT が普及して以来研究者が集団的な行動をとった

#表 3 は、CLIP、ALIGN、BASIC、CoCa、および LiT モデルに対する ViT-22B のゼロサンプルマイグレーション結果を示しています。表 3 の下部では、3 つの ViT モデルの性能を比較しています。

ViT-22B は、すべての ImageNet テストセットで同等以上の結果を達成します。特に、ObjectNet テストセットのゼロショットの結果は、ViT モデルのサイズと高度に相関しています。最大の ViT-22B は、困難な ObjectNet テストセットに新しい最先端技術を導入します。

Google は視覚伝達モデルのパラメータを 220 億まで拡張し、ChatGPT が普及して以来研究者が集団的な行動をとった

配布外 (OOD)。この研究では、JFT から ImageNet へのラベルマッピング、および ImageNet からさまざまな配布外データセット (つまり、ObjectNet、ImageNet-v2、ImageNet-R、および ImageNet-A) へのラベルマッピングを構築します。

これまでに確認できた結果は、ImageNet の改善と一致して、拡張モデルによって配布外のパフォーマンスが向上しているということです。これは、JFT イメージのみを参照したモデルや、ImageNet で微調整されたモデルに対して機能します。どちらの場合も、ViT-22B は大型モデルで OOD パフォーマンスが向上する傾向を継続しています (図 5、表 11)。

Google は視覚伝達モデルのパラメータを 220 億まで拡張し、ChatGPT が普及して以来研究者が集団的な行動をとった

さらに、研究者らは、セマンティックセグメンテーションと単眼深度推定でキャプチャされた ViT-22B モデルのパフォーマンスも研究しました。幾何学的および空間的情報の品質。

セマンティックセグメンテーション。研究者らは、ADE20K、Pascal Context、Pascal VOC の 3 つのベンチマークで ViT-22B をセマンティックセグメンテーションバックボーンとして評価しました。表 4 からわかるように、ViT-22B バックボーンの移行は、セグメンテーションマスクが少数しか見られない場合に、より適切に機能します。

Google は視覚伝達モデルのパラメータを 220 億まで拡張し、ChatGPT が普及して以来研究者が集団的な行動をとった

#単眼の深さの推定。表 5 は、研究の主な結果をまとめたものです。上の行 (DPT デコーダー) からわかるように、ViT-22B 機能を使用すると、さまざまなバックボーンと比較して (すべてのメトリクスで) 最高のパフォーマンスが得られます。 ViT-22B バックボーンを、より小型だが ViT-22B と同じデータでトレーニングされたモデルである ViT-e と比較することで、アーキテクチャを拡張することでパフォーマンスが向上することがわかりました。

さらに、ViT-e バックボーンを ViT-L (ViT-e と同様のアーキテクチャですが、トレーニングデータが少ない) と比較した研究では、これらの改善も次の点から得られることがわかりました。拡張機能トレーニング前のデータ。これらの調査結果は、大規模なモデルと大規模なデータセットの両方がパフォーマンスの向上に役立つことを示唆しています。

Google は視覚伝達モデルのパラメータを 220 億まで拡張し、ChatGPT が普及して以来研究者が集団的な行動をとった

この研究では、ビデオデータセットについても調査しました。表 6 は、Kinetics 400 および Moments in Time データセットでのビデオ分類結果を示しており、凍結されたバックボーンを使用して競合する結果が達成できることを示しています。この研究ではまず、40 億のパラメータで構成され、同じく JFT データセットでトレーニングされた過去最大のビジュアルバックボーンモデルを備えた ViT-e と比較します。より大きな ViT-22B モデルでは、Kinetics 400 で 1.5 ポイント、Moments in Time で 1.3 ポイント向上していることが観察されました。

最終調査では、完全なエンドツーエンドの微調整を通じてさらに改善の余地があることが判明しました。

Google は視覚伝達モデルのパラメータを 220 億まで拡張し、ChatGPT が普及して以来研究者が集団的な行動をとった

#技術的な詳細については、元の論文を参照してください。

以上がGoogle は視覚伝達モデルのパラメータを 220 億まで拡張し、ChatGPT が普及して以来研究者が集団的な行動をとったの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

声明

この記事は51CTO.COMで複製されています。侵害がある場合は、admin@php.cn までご連絡ください。

AIインデックス2025を読む：AIはあなたの友人、敵、または副操縦士ですか？Apr 11, 2025 pm 12:13 PM

スタンフォード大学ヒト指向の人工知能研究所によってリリースされた2025年の人工知能インデックスレポートは、進行中の人工知能革命の良い概要を提供します。 4つの単純な概念で解釈しましょう：認知（何が起こっているのかを理解する）、感謝（利益を見る）、受け入れ（顔の課題）、責任（責任を見つける）。認知：人工知能はどこにでもあり、急速に発展しています私たちは、人工知能がどれほど速く発展し、広がっているかを強く認識する必要があります。人工知能システムは絶えず改善されており、数学と複雑な思考テストで優れた結果を達成しており、わずか1年前にこれらのテストで惨めに失敗しました。 2023年以来、複雑なコーディングの問題や大学院レベルの科学的問題を解決することを想像してみてください

Meta Llama 3.2を始めましょう - 分析VidhyaApr 11, 2025 pm 12:04 PM

メタのラマ3.2：マルチモーダルとモバイルAIの前進メタは最近、ラマ3.2を発表しました。これは、モバイルデバイス向けに最適化された強力なビジョン機能と軽量テキストモデルを特徴とするAIの大幅な進歩です。成功に基づいてo

AVバイト：Meta＆＃039; s llama 3.2、GoogleのGemini 1.5などApr 11, 2025 pm 12:01 PM

今週のAIの風景：進歩、倫理的考慮、規制の議論の旋風。 Openai、Google、Meta、Microsoftのような主要なプレーヤーは、画期的な新しいモデルからLEの重要な変化まで、アップデートの急流を解き放ちました

マシンと話すための人的費用：チャットボットは本当に気にすることができますか？Apr 11, 2025 pm 12:00 PM

つながりの慰めの幻想：私たちはAIとの関係において本当に繁栄していますか？この質問は、MIT Media Labの「AI（AHA）で人間を進める」シンポジウムの楽観的なトーンに挑戦しました。イベントではCondedgを紹介している間

PythonのScipy Libraryの理解Apr 11, 2025 am 11:57 AM

導入あなたが科学者またはエンジニアで複雑な問題に取り組んでいると想像してください - 微分方程式、最適化の課題、またはフーリエ分析。 Pythonの使いやすさとグラフィックスの機能は魅力的ですが、これらのタスクは強力なツールを必要とします

ラマ3.2を実行する3つの方法-Analytics VidhyaApr 11, 2025 am 11:56 AM

メタのラマ3.2：マルチモーダルAIパワーハウス Metaの最新のマルチモーダルモデルであるLlama 3.2は、AIの大幅な進歩を表しており、言語理解の向上、精度の向上、および優れたテキスト生成機能を誇っています。その能力t

Dagsterでデータ品質チェックを自動化しますApr 11, 2025 am 11:44 AM

データ品質保証：ダグスターと大きな期待でチェックを自動化するデータ駆動型のビジネスにとって、高いデータ品質を維持することが重要です。データの量とソースが増加するにつれて、手動の品質管理は非効率的でエラーが発生しやすくなります。

メインフレームはAI時代に役割を果たしていますか？Apr 11, 2025 am 11:42 AM

MainFrames：AI革命のUnsung Heroes サーバーは汎用アプリケーションで優れており、複数のクライアントの処理を行いますが、メインフレームは大量のミッションクリティカルなタスク用に構築されています。これらの強力なシステムは、頻繁にヘビルで見られます

See all articles

ホットAIツール

Undresser.AI Undress

リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover

写真から衣服を削除するオンライン AI ツール。

Undress AI Tool

脱衣画像を無料で

Clothoff.io

AI衣類リムーバー

AI Hentai Generator

AIヘンタイを無料で生成します。

ホットツール

SecLists

SecLists は、セキュリティテスターの究極の相棒です。これは、セキュリティ評価中に頻繁に使用されるさまざまな種類のリストを 1 か所にまとめたものです。 SecLists は、セキュリティテスターが必要とする可能性のあるすべてのリストを便利に提供することで、セキュリティテストをより効率的かつ生産的にするのに役立ちます。リストの種類には、ユーザー名、パスワード、URL、ファジングペイロード、機密データパターン、Web シェルなどが含まれます。テスターはこのリポジトリを新しいテストマシンにプルするだけで、必要なあらゆる種類のリストにアクセスできるようになります。

Dreamweaver Mac版

ビジュアル Web 開発ツール

MinGW - Minimalist GNU for Windows

このプロジェクトは osdn.net/projects/mingw に移行中です。引き続きそこでフォローしていただけます。 MinGW: GNU Compiler Collection (GCC) のネイティブ Windows ポートであり、ネイティブ Windows アプリケーションを構築するための自由に配布可能なインポートライブラリとヘッダーファイルであり、C99 機能をサポートする MSVC ランタイムの拡張機能が含まれています。すべての MinGW ソフトウェアは 64 ビット Windows プラットフォームで実行できます。