検索
ホームページテクノロジー周辺機器AIMa Yi 教授の新作: ホワイトボックス ViT は「分割創発」の達成に成功、実証的深層学習の時代は終わりに近づいているのか?

Transformer に基づく基本的なビジュアル モデルは、セグメンテーションや検出などのさまざまな下流タスクで非常に強力なパフォーマンスを示しており、自己教師ありトレーニング後にセマンティック セグメンテーション属性を備えた DINO などのモデルが登場しました。

視覚的な Transformer モデルが、教師あり分類用にトレーニングされた後に同様の創発機能を持たないのは奇妙です

最近、Ma Yi 教授のチームは、 Transformer アーキテクチャに基づくモデルを研究し、創発的なセグメンテーション能力が単に複雑な自己教師あり学習メカニズムの結果であるのか、それともモデル アーキテクチャを適切に設計することでより一般的な条件下でも同じパフォーマンスを達成できるのかを調査しました。

Ma Yi 教授の新作: ホワイトボックス ViT は「分割創発」の達成に成功、実証的深層学習の時代は終わりに近づいているのか?

# コードリンク: https://github.com/Ma-Lab-Berkeley/CRATE

##クリックしてください論文を表示するには次のリンクをクリックしてください: https://arxiv.org/abs/2308.16271

多数の実験の後、研究者らはホワイトボックス Transformer モデルを使用すると次のことを証明しました。 CRATE、その設計 データ分布の低次元構造を明示的にモデル化し、追跡し、最小限の教師付きトレーニング レシピで全体レベルおよび部分レベルのセグメンテーション プロパティを明らかにします。

階層的な詳細な分析を通じて、 get 重要な結論が導き出されます。つまり、創発的なプロパティは、ホワイト ボックス ネットワークの設計数学的機能を強く裏付けています。この結果に基づいて、高性能であるだけでなく完全に数学的に解釈可能なホワイトボックス基本モデルを設計する方法を提案しました。

Ma Yi 教授は次のようにも述べています。学習は徐々に経験的な設計から理論的な指導へと移行していきます。

Ma Yi 教授の新作: ホワイトボックス ViT は「分割創発」の達成に成功、実証的深層学習の時代は終わりに近づいているのか?ホワイトボックス CRATE の創発プロパティ

DINO のセグメンテーション創発能力とは、DINO モデルの能力を指します。プロセス言語タスク このとき、入力文をより小さなフラグメントに分割し、各フラグメントを独立して処理できます。この機能により、DINO モデルは複雑な文構造と意味情報をよりよく理解できるようになり、それによって自然言語処理の分野でのパフォーマンスが向上します

インテリジェント システムにおける表現学習を目的としています。世界の高次元のマルチモーダル感覚データ (画像、言語、音声) を、その基本的な低次元構造を維持しながらよりコンパクトな形式に変換して、効率的な認識 (分類など) とグループ化 (セグメンテーションなど) および追跡を実現します。 。

Ma Yi 教授の新作: ホワイトボックス ViT は「分割創発」の達成に成功、実証的深層学習の時代は終わりに近づいているのか?#ディープ ラーニング モデルのトレーニングでは、通常、大規模なデータを入力して自己教師ありの方法で学習する、データ駆動型のアプローチが採用されます

基本的な視覚モデルの中でも、DINO モデルは驚くべき創発能力を示し、ViT は教師付きセグメンテーション トレーニングがなくても明示的なセマンティック セグメンテーション情報を認識できます。自己監視型 Transformer アーキテクチャを備えた DINO モデルは、この点で優れたパフォーマンスを発揮します。

フォローアップ作業では、このセグメンテーション情報を DINO モデルで利用し、次のような下流タスクで実行する方法が研究されました。セグメンテーションや検出などにより最先端のパフォーマンスが達成されており、DINO でトレーニングされた ViT の最後から 2 番目のレイヤーの特徴が、前景の区別などの視覚入力の顕著性情報と強く関連していることも証明された研究もあります。背景とオブジェクトの境界により、画像のセグメンテーションやその他のタスクのパフォーマンスが向上します。

#セグメンテーション属性を強調するために、DINO はトレーニング プロセス中に自己教師あり学習、知識の蒸留、および加重平均法を巧みに組み合わせる必要があります。 # #DINO で導入された各コンポーネントがセグメンテーション マスクの創発に必須であるかどうかは不明ですが、DINO もバックボーンとして ViT アーキテクチャを採用していますが、分類タスクで学習された通常の教師あり ViT モデルでは、セグメンテーション創発の動作は観察されませんでした。

CRATEの登場

DINOの成功事例に基づいて、研究者たちは複雑な自己教師ありの研究を目指しています学習 Transformer のようなビジュアル モデルで創発的なプロパティを取得するにはパイプラインが必要ですか?

研究者らは、Transformer モデルのセグメンテーション プロパティを促進する有望な方法は、表現学習も表す入力データ構造を考慮して Transformer モデル アーキテクチャを設計することであると考えています。古典的な手法と最新のデータ駆動型深層学習フレームワーク。

現在主流の Transformer モデルと比較すると、この設計手法はホワイトボックス Transformer モデルとも言えます。

Ma Yi 教授のグループの以前の研究に基づいて、研究者らはホワイト ボックス アーキテクチャを備えた CRATE モデルで広範な実験を実施し、CRATE のホワイト ボックス設計が自己のセグメンテーション属性の出現の理由であることを証明しました。 -注目グラフ。

言い換える必要があるのは次のとおりです: 定性的評価

研究者は [CLS] トークンベースの注意を使用します。グラフ手法を使用してモデルを説明および視覚化して、CRATE のクエリ-キー-値の行列がすべて同じであることを確認してください

Ma Yi 教授の新作: ホワイトボックス ViT は「分割創発」の達成に成功、実証的深層学習の時代は終わりに近づいているのか?

#CRATEセルフアテンションマップは入力画像のセマンティクスに対応しており、モデルの内部ネットワークは各画像に対して明確なセマンティックセグメンテーションを実行し、DINOモデルと同様の効果を実現します。

通常の ViT は、教師付き分類タスクでトレーニングした場合、同様のセグメンテーション プロパティを表示しません

Ma Yi 教授の新作: ホワイトボックス ViT は「分割創発」の達成に成功、実証的深層学習の時代は終わりに近づいているのか?

以前の内容に基づくブロックごとの深い特徴の視覚画像学習に関する研究、研究者は CRATE および ViT モデルの深いトークン表現に関する主成分分析 (PCA) 研究を実施しました

Ma Yi 教授の新作: ホワイトボックス ViT は「分割創発」の達成に成功、実証的深層学習の時代は終わりに近づいているのか?

CRATE はセグメンテーション監視トレーニングなしでも画像内のオブジェクトの境界をキャプチャできることがわかります。

# さらに、主成分は、馬の脚に対応する赤いチャネルなど、トークンとオブジェクト間の類似部分の特徴の位置合わせも示します。 #教師あり ViT モデルの PCA 可視化構造の程度は非常に低いです。

定量的評価

研究者らは、既存のセグメンテーションを使用して CRATE 創発セグメンテーション プロパティとオブジェクト検出テクノロジーを評価しました

セルフ アテンション マップからわかるように、CRATE は明確な境界を持つオブジェクト レベルのセマンティクスを明示的にキャプチャします。セグメンテーションの品質を定量的に測定するために、研究者らはセルフ アテンションを使用してアテンション マップはセグメンテーション マスクを生成し、標準の mIoU (平均交差対和集合比) を実際のマスクと比較します。

実験結果から、ビジュアルおよび mIOU スコアの点で CRATE が ViT よりも大幅に優れていることがわかります。これは、内部表現がCRATE の機能は、セグメンテーション マスクの生成に役立ちます。タスクをより効率的にマスクします。Ma Yi 教授の新作: ホワイトボックス ViT は「分割創発」の達成に成功、実証的深層学習の時代は終わりに近づいているのか?

オブジェクト検出と詳細なセグメンテーション

CRATE Information によって取得された豊富なセマンティクスをさらに検証および評価するために、研究者らは、効率的なオブジェクト検出およびセグメンテーション手法である MaskCut を採用し、手動による注釈を付けずに自動化された評価モデルを取得し、トークンに基づいて画像からよりきめの細かいセグメンテーションを抽出できます。 CRATE によって学習された表現。

Ma Yi 教授の新作: ホワイトボックス ViT は「分割創発」の達成に成功、実証的深層学習の時代は終わりに近づいているのか?

COCO val2017 のセグメンテーション結果からわかるように、CRATE の内部表現は次のとおりです。検出とセグメンテーション インデックスは教師あり ViT よりも優れていますが、教師あり ViT 機能を備えた MaskCut では、場合によってはセグメンテーション マスクをまったく生成することさえできません。 Ma Yi 教授の新作: ホワイトボックス ViT は「分割創発」の達成に成功、実証的深層学習の時代は終わりに近づいているのか?

#CRATE のセグメンテーション機能のホワイト ボックス分析

CRATE における深さの役割

##CRATE の各層の設計は、同じ概念的な目的に従っています。つまり、スパース レートの削減を最適化し、トークンの配布をコンパクトで構造化された形式に変換することです。 書き換え後: CRATE の各レベルの設計は同じ哲学に従います: スパース率の削減を最適化し、トークンの配布をコンパクトで構造化された形式に変換します

CRATE の出現を想定しますセマンティック セグメンテーション機能の特徴は、「Z における同様のセマンティック カテゴリに属する​​トークンのクラスターを表現する」ことに似ています。CRATE のセグメンテーション パフォーマンスは、深さが増すにつれて向上することが期待されます。

これをテストするために、研究者らは、MaskCut パイプラインを使用して、さまざまなレイヤーの内部表現にわたるセグメンテーションのパフォーマンスを定量的に評価し、さらに PCA 視覚化を適用して、セグメンテーションがどのように深度で現れるかを理解しました。

Ma Yi 教授の新作: ホワイトボックス ViT は「分割創発」の達成に成功、実証的深層学習の時代は終わりに近づいているのか?

実験結果から、より深い層からの表現を使用するとセグメンテーション スコアが向上することがわかります。これは、CRATE の増分最適化設計と非常に一致しています。

対照的に、ViT-B/8 のパフォーマンスは後の層でわずかに向上しますが、そのセグメンテーション スコアは CRATE よりも大幅に低くなります。PCA の結果は、CRATE からの深い抽出が示されています。表現は徐々に前景オブジェクトにより注意を払い、テクスチャ レベルの詳細をキャプチャできるようになります。

CRATE での溶解実験

CRATE と MLP のアテンション ブロック (MSSA)ブロック (ISTA) は ViT のアテンション ブロックとは異なります

CRATE の創発セグメンテーション特性に対する各コンポーネントの影響を研究するために、研究者は 3 つの CRATE バリアントを選択しました: CRATE、CRATE- MHSA、クレート-MLP。これらのバリアントは、それぞれ ViT のアテンション ブロック (MHSA) と MLP ブロックを表します。

研究者らは、ImageNet-21k データセットに同じ事前トレーニング設定を適用し、次に粗セグメンテーション評価を適用し、異なるモデルのパフォーマンスを定量的に比較するためのマスク セグメンテーション評価。

Ma Yi 教授の新作: ホワイトボックス ViT は「分割創発」の達成に成功、実証的深層学習の時代は終わりに近づいているのか?

実験結果によると、CRATE はすべてのタスクにおいて他のモデル アーキテクチャよりも大幅に優れています。 MHSA と MSSA のアーキテクチャ上の違いは小さいですが、ViT の MHSA を CRATE の MSSA に置き換えるだけで、ViT の粗セグメンテーション パフォーマンス (つまり、VOC セグメント) が大幅に向上する可能性があることは注目に値します。これは、ホワイト ボックス デザインの有効性をさらに証明しています。

書き直す必要がある内容は次のとおりです: ヘッダーの意味属性の識別に注意してください

[CLS] トークンと画像ブロック トークン間のセルフ アテンション マップでは、明確なセグメンテーション マスクが確認できます。直観によると、各アテンション ヘッドは、画像ブロックのいくつかの特徴をキャプチャできるはずです。データ。

研究者らは、最初に画像を CRATE モデルに入力し、次に人間に検査して意味的な意味を持つと思われる 4 つのアテンション ヘッドを選択させ、次にこれらのアテンション ヘッドを他の入力に使用しました。画像 頭上の自己注意マップの視覚化。

Ma Yi 教授の新作: ホワイトボックス ViT は「分割創発」の達成に成功、実証的深層学習の時代は終わりに近づいているのか?

観察によると、各アテンションヘッドはオブジェクトの異なる部分、さらには異なるセマンティクスをキャプチャできることがわかります。たとえば、最初の列のアテンション ヘッドはさまざまな動物の脚をキャプチャでき、最後の列のアテンション ヘッドは耳と頭をキャプチャできます。

変形可能なため、この機能は視覚入力を部品全体の階層に解析することは、変形可能な部品モデルとカプセル ネットワークのリリース以来、認識アーキテクチャの目標であり、ホワイト ボックス設計の CRATE モデルにもこの機能があります。

以上がMa Yi 教授の新作: ホワイトボックス ViT は「分割創発」の達成に成功、実証的深層学習の時代は終わりに近づいているのか?の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

声明
この記事は51CTO.COMで複製されています。侵害がある場合は、admin@php.cn までご連絡ください。
最高の迅速なエンジニアリング技術の最新の年次編集最高の迅速なエンジニアリング技術の最新の年次編集Apr 10, 2025 am 11:22 AM

私のコラムに新しいかもしれない人のために、具体化されたAI、AI推論、AIのハイテクブレークスルー、AIの迅速なエンジニアリング、AIのトレーニング、AIのフィールディングなどのトピックなど、全面的なAIの最新の進歩を広く探求します。

ヨーロッパのAI大陸行動計画:GigaFactories、Data Labs、Green AIヨーロッパのAI大陸行動計画:GigaFactories、Data Labs、Green AIApr 10, 2025 am 11:21 AM

ヨーロッパの野心的なAI大陸行動計画は、人工知能のグローバルリーダーとしてEUを確立することを目指しています。 重要な要素は、AI GigaFactoriesのネットワークの作成であり、それぞれが約100,000の高度なAIチップを収容しています。

Microsoftの簡単なエージェントストーリーは、より多くのファンを作成するのに十分ですか?Microsoftの簡単なエージェントストーリーは、より多くのファンを作成するのに十分ですか?Apr 10, 2025 am 11:20 AM

AIエージェントアプリケーションに対するMicrosoftの統一アプローチ:企業の明確な勝利 新しいAIエージェント機能に関するマイクロソフトの最近の発表は、その明確で統一されたプレゼンテーションに感銘を受けました。 TEで行き詰まった多くのハイテクアナウンスとは異なり

従業員へのAI戦略の販売:Shopify CEOのマニフェスト従業員へのAI戦略の販売:Shopify CEOのマニフェストApr 10, 2025 am 11:19 AM

Shopify CEOのTobiLütkeの最近のメモは、AIの能力がすべての従業員にとって基本的な期待であると大胆に宣言し、会社内の重大な文化的変化を示しています。 これはつかの間の傾向ではありません。これは、pに統合された新しい運用パラダイムです

IBMは、完全なAI統合でZ17メインフレームを起動しますIBMは、完全なAI統合でZ17メインフレームを起動しますApr 10, 2025 am 11:18 AM

IBMのZ17メインフレーム:AIを強化した事業運営の統合 先月、IBMのニューヨーク本社で、Z17の機能のプレビューを受け取りました。 Z16の成功に基づいて構築(2022年に開始され、持続的な収益の成長の実証

5 chatgptプロンプトは他の人に依存して停止し、自分を完全に信頼する5 chatgptプロンプトは他の人に依存して停止し、自分を完全に信頼するApr 10, 2025 am 11:17 AM

揺るぎない自信のロックを解除し、外部検証の必要性を排除します! これらの5つのCHATGPTプロンプトは、完全な自立と自己認識の変革的な変化に向けて導きます。 ブラケットをコピー、貼り付け、カスタマイズするだけです

AIはあなたの心に危険なほど似ていますAIはあなたの心に危険なほど似ていますApr 10, 2025 am 11:16 AM

人工知能のセキュリティおよび研究会社であるAnthropicによる最近の[研究]は、これらの複雑なプロセスについての真実を明らかにし始め、私たち自身の認知領域に不穏に似た複雑さを示しています。自然知能と人工知能は、私たちが思っているよりも似ているかもしれません。 内部スヌーピング:人類の解釈可能性研究 人類によって行われた研究からの新しい発見は、AIの内部コンピューティングをリバースエンジニアリングすることを目的とする機械的解釈可能性の分野の大きな進歩を表しています。AIが何をするかを観察するだけでなく、人工ニューロンレベルでそれがどのように行うかを理解します。 誰かが特定のオブジェクトを見たり、特定のアイデアについて考えたりしたときに、どのニューロンが発射するかを描くことによって脳を理解しようとすることを想像してください。 a

Dragonwingは、QualcommのEdge Momentumを紹介していますDragonwingは、QualcommのEdge Momentumを紹介していますApr 10, 2025 am 11:14 AM

Qualcomm's DragonWing:企業とインフラストラクチャへの戦略的な飛躍 Qualcommは、新しいDragonwingブランドで世界的に企業やインフラ市場をターゲットにして、モバイルを超えてリーチを積極的に拡大しています。 これは単なるレブランではありません

See all articles

ホットAIツール

Undresser.AI Undress

Undresser.AI Undress

リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover

AI Clothes Remover

写真から衣服を削除するオンライン AI ツール。

Undress AI Tool

Undress AI Tool

脱衣画像を無料で

Clothoff.io

Clothoff.io

AI衣類リムーバー

AI Hentai Generator

AI Hentai Generator

AIヘンタイを無料で生成します。

ホットツール

AtomエディタMac版ダウンロード

AtomエディタMac版ダウンロード

最も人気のあるオープンソースエディター

SAP NetWeaver Server Adapter for Eclipse

SAP NetWeaver Server Adapter for Eclipse

Eclipse を SAP NetWeaver アプリケーション サーバーと統合します。

ゼンドスタジオ 13.0.1

ゼンドスタジオ 13.0.1

強力な PHP 統合開発環境

VSCode Windows 64 ビットのダウンロード

VSCode Windows 64 ビットのダウンロード

Microsoft によって発売された無料で強力な IDE エディター

ZendStudio 13.5.1 Mac

ZendStudio 13.5.1 Mac

強力な PHP 統合開発環境