Ma Yi 教授の新作: ホワイトボックス ViT は「分割創発」の達成に成功、実証的深層学習の時代は終わりに近づいているのか?-AI-php.cn

ホームページ

テクノロジー周辺機器

Ma Yi 教授の新作: ホワイトボックス ViT は「分割創発」の達成に成功、実証的深層学習の時代は終わりに近づいているのか?

WBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWB

Sep 14, 2023 pm 02:45 PM

モデル監督する

Transformer に基づく基本的なビジュアルモデルは、セグメンテーションや検出などのさまざまな下流タスクで非常に強力なパフォーマンスを示しており、自己教師ありトレーニング後にセマンティックセグメンテーション属性を備えた DINO などのモデルが登場しました。

視覚的な Transformer モデルが、教師あり分類用にトレーニングされた後に同様の創発機能を持たないのは奇妙です

最近、Ma Yi 教授のチームは、 Transformer アーキテクチャに基づくモデルを研究し、創発的なセグメンテーション能力が単に複雑な自己教師あり学習メカニズムの結果であるのか、それともモデルアーキテクチャを適切に設計することでより一般的な条件下でも同じパフォーマンスを達成できるのかを調査しました。

Ma Yi 教授の新作: ホワイトボックス ViT は「分割創発」の達成に成功、実証的深層学習の時代は終わりに近づいているのか?

# コードリンク: https://github.com/Ma-Lab-Berkeley/CRATE

##クリックしてください論文を表示するには次のリンクをクリックしてください: https://arxiv.org/abs/2308.16271

多数の実験の後、研究者らはホワイトボックス Transformer モデルを使用すると次のことを証明しました。 CRATE、その設計データ分布の低次元構造を明示的にモデル化し、追跡し、最小限の教師付きトレーニングレシピで全体レベルおよび部分レベルのセグメンテーションプロパティを明らかにします。

階層的な詳細な分析を通じて、 get 重要な結論が導き出されます。つまり、創発的なプロパティは、ホワイトボックスネットワークの設計数学的機能を強く裏付けています。この結果に基づいて、高性能であるだけでなく完全に数学的に解釈可能なホワイトボックス基本モデルを設計する方法を提案しました。

Ma Yi 教授は次のようにも述べています。学習は徐々に経験的な設計から理論的な指導へと移行していきます。

Ma Yi 教授の新作: ホワイトボックス ViT は「分割創発」の達成に成功、実証的深層学習の時代は終わりに近づいているのか? ホワイトボックス CRATE の創発プロパティ

DINO のセグメンテーション創発能力とは、DINO モデルの能力を指します。プロセス言語タスクこのとき、入力文をより小さなフラグメントに分割し、各フラグメントを独立して処理できます。この機能により、DINO モデルは複雑な文構造と意味情報をよりよく理解できるようになり、それによって自然言語処理の分野でのパフォーマンスが向上します

インテリジェントシステムにおける表現学習を目的としています。世界の高次元のマルチモーダル感覚データ (画像、言語、音声) を、その基本的な低次元構造を維持しながらよりコンパクトな形式に変換して、効率的な認識 (分類など) とグループ化 (セグメンテーションなど) および追跡を実現します。。

Ma Yi 教授の新作: ホワイトボックス ViT は「分割創発」の達成に成功、実証的深層学習の時代は終わりに近づいているのか? #ディープラーニングモデルのトレーニングでは、通常、大規模なデータを入力して自己教師ありの方法で学習する、データ駆動型のアプローチが採用されます

基本的な視覚モデルの中でも、DINO モデルは驚くべき創発能力を示し、ViT は教師付きセグメンテーショントレーニングがなくても明示的なセマンティックセグメンテーション情報を認識できます。自己監視型 Transformer アーキテクチャを備えた DINO モデルは、この点で優れたパフォーマンスを発揮します。

フォローアップ作業では、このセグメンテーション情報を DINO モデルで利用し、次のような下流タスクで実行する方法が研究されました。セグメンテーションや検出などにより最先端のパフォーマンスが達成されており、DINO でトレーニングされた ViT の最後から 2 番目のレイヤーの特徴が、前景の区別などの視覚入力の顕著性情報と強く関連していることも証明された研究もあります。背景とオブジェクトの境界により、画像のセグメンテーションやその他のタスクのパフォーマンスが向上します。

#セグメンテーション属性を強調するために、DINO はトレーニングプロセス中に自己教師あり学習、知識の蒸留、および加重平均法を巧みに組み合わせる必要があります。 # #DINO で導入された各コンポーネントがセグメンテーションマスクの創発に必須であるかどうかは不明ですが、DINO もバックボーンとして ViT アーキテクチャを採用していますが、分類タスクで学習された通常の教師あり ViT モデルでは、セグメンテーション創発の動作は観察されませんでした。

CRATEの登場

DINOの成功事例に基づいて、研究者たちは複雑な自己教師ありの研究を目指しています学習 Transformer のようなビジュアルモデルで創発的なプロパティを取得するにはパイプラインが必要ですか?

研究者らは、Transformer モデルのセグメンテーションプロパティを促進する有望な方法は、表現学習も表す入力データ構造を考慮して Transformer モデルアーキテクチャを設計することであると考えています。古典的な手法と最新のデータ駆動型深層学習フレームワーク。

現在主流の Transformer モデルと比較すると、この設計手法はホワイトボックス Transformer モデルとも言えます。

Ma Yi 教授のグループの以前の研究に基づいて、研究者らはホワイトボックスアーキテクチャを備えた CRATE モデルで広範な実験を実施し、CRATE のホワイトボックス設計が自己のセグメンテーション属性の出現の理由であることを証明しました。 -注目グラフ。

言い換える必要があるのは次のとおりです: 定性的評価

研究者は [CLS] トークンベースの注意を使用します。グラフ手法を使用してモデルを説明および視覚化して、CRATE のクエリ-キー-値の行列がすべて同じであることを確認してください

Ma Yi 教授の新作: ホワイトボックス ViT は「分割創発」の達成に成功、実証的深層学習の時代は終わりに近づいているのか?

#CRATEセルフアテンションマップは入力画像のセマンティクスに対応しており、モデルの内部ネットワークは各画像に対して明確なセマンティックセグメンテーションを実行し、DINOモデルと同様の効果を実現します。

通常の ViT は、教師付き分類タスクでトレーニングした場合、同様のセグメンテーションプロパティを表示しません

Ma Yi 教授の新作: ホワイトボックス ViT は「分割創発」の達成に成功、実証的深層学習の時代は終わりに近づいているのか?

以前の内容に基づくブロックごとの深い特徴の視覚画像学習に関する研究、研究者は CRATE および ViT モデルの深いトークン表現に関する主成分分析 (PCA) 研究を実施しました

Ma Yi 教授の新作: ホワイトボックス ViT は「分割創発」の達成に成功、実証的深層学習の時代は終わりに近づいているのか?

CRATE はセグメンテーション監視トレーニングなしでも画像内のオブジェクトの境界をキャプチャできることがわかります。

# さらに、主成分は、馬の脚に対応する赤いチャネルなど、トークンとオブジェクト間の類似部分の特徴の位置合わせも示します。 #教師あり ViT モデルの PCA 可視化構造の程度は非常に低いです。

定量的評価

研究者らは、既存のセグメンテーションを使用して CRATE 創発セグメンテーションプロパティとオブジェクト検出テクノロジーを評価しました

セルフアテンションマップからわかるように、CRATE は明確な境界を持つオブジェクトレベルのセマンティクスを明示的にキャプチャします。セグメンテーションの品質を定量的に測定するために、研究者らはセルフアテンションを使用してアテンションマップはセグメンテーションマスクを生成し、標準の mIoU (平均交差対和集合比) を実際のマスクと比較します。

実験結果から、ビジュアルおよび mIOU スコアの点で CRATE が ViT よりも大幅に優れていることがわかります。これは、内部表現がCRATE の機能は、セグメンテーションマスクの生成に役立ちます。タスクをより効率的にマスクします。 Ma Yi 教授の新作: ホワイトボックス ViT は「分割創発」の達成に成功、実証的深層学習の時代は終わりに近づいているのか?

オブジェクト検出と詳細なセグメンテーション

CRATE Information によって取得された豊富なセマンティクスをさらに検証および評価するために、研究者らは、効率的なオブジェクト検出およびセグメンテーション手法である MaskCut を採用し、手動による注釈を付けずに自動化された評価モデルを取得し、トークンに基づいて画像からよりきめの細かいセグメンテーションを抽出できます。 CRATE によって学習された表現。

Ma Yi 教授の新作: ホワイトボックス ViT は「分割創発」の達成に成功、実証的深層学習の時代は終わりに近づいているのか?

COCO val2017 のセグメンテーション結果からわかるように、CRATE の内部表現は次のとおりです。検出とセグメンテーションインデックスは教師あり ViT よりも優れていますが、教師あり ViT 機能を備えた MaskCut では、場合によってはセグメンテーションマスクをまったく生成することさえできません。 Ma Yi 教授の新作: ホワイトボックス ViT は「分割創発」の達成に成功、実証的深層学習の時代は終わりに近づいているのか?

#CRATE のセグメンテーション機能のホワイトボックス分析

CRATE における深さの役割

##CRATE の各層の設計は、同じ概念的な目的に従っています。つまり、スパースレートの削減を最適化し、トークンの配布をコンパクトで構造化された形式に変換することです。書き換え後: CRATE の各レベルの設計は同じ哲学に従います: スパース率の削減を最適化し、トークンの配布をコンパクトで構造化された形式に変換します

CRATE の出現を想定しますセマンティックセグメンテーション機能の特徴は、「Z における同様のセマンティックカテゴリに属するトークンのクラスターを表現する」ことに似ています。CRATE のセグメンテーションパフォーマンスは、深さが増すにつれて向上することが期待されます。

これをテストするために、研究者らは、MaskCut パイプラインを使用して、さまざまなレイヤーの内部表現にわたるセグメンテーションのパフォーマンスを定量的に評価し、さらに PCA 視覚化を適用して、セグメンテーションがどのように深度で現れるかを理解しました。

Ma Yi 教授の新作: ホワイトボックス ViT は「分割創発」の達成に成功、実証的深層学習の時代は終わりに近づいているのか?

実験結果から、より深い層からの表現を使用するとセグメンテーションスコアが向上することがわかります。これは、CRATE の増分最適化設計と非常に一致しています。

対照的に、ViT-B/8 のパフォーマンスは後の層でわずかに向上しますが、そのセグメンテーションスコアは CRATE よりも大幅に低くなります。PCA の結果は、CRATE からの深い抽出が示されています。表現は徐々に前景オブジェクトにより注意を払い、テクスチャレベルの詳細をキャプチャできるようになります。

CRATE での溶解実験

CRATE と MLP のアテンションブロック (MSSA)ブロック (ISTA) は ViT のアテンションブロックとは異なります

CRATE の創発セグメンテーション特性に対する各コンポーネントの影響を研究するために、研究者は 3 つの CRATE バリアントを選択しました: CRATE、CRATE- MHSA、クレート-MLP。これらのバリアントは、それぞれ ViT のアテンションブロック (MHSA) と MLP ブロックを表します。

研究者らは、ImageNet-21k データセットに同じ事前トレーニング設定を適用し、次に粗セグメンテーション評価を適用し、異なるモデルのパフォーマンスを定量的に比較するためのマスクセグメンテーション評価。

Ma Yi 教授の新作: ホワイトボックス ViT は「分割創発」の達成に成功、実証的深層学習の時代は終わりに近づいているのか?

実験結果によると、CRATE はすべてのタスクにおいて他のモデルアーキテクチャよりも大幅に優れています。 MHSA と MSSA のアーキテクチャ上の違いは小さいですが、ViT の MHSA を CRATE の MSSA に置き換えるだけで、ViT の粗セグメンテーションパフォーマンス (つまり、VOC セグメント) が大幅に向上する可能性があることは注目に値します。これは、ホワイトボックスデザインの有効性をさらに証明しています。

書き直す必要がある内容は次のとおりです: ヘッダーの意味属性の識別に注意してください

[CLS] トークンと画像ブロックトークン間のセルフアテンションマップでは、明確なセグメンテーションマスクが確認できます。直観によると、各アテンションヘッドは、画像ブロックのいくつかの特徴をキャプチャできるはずです。データ。

研究者らは、最初に画像を CRATE モデルに入力し、次に人間に検査して意味的な意味を持つと思われる 4 つのアテンションヘッドを選択させ、次にこれらのアテンションヘッドを他の入力に使用しました。画像頭上の自己注意マップの視覚化。

Ma Yi 教授の新作: ホワイトボックス ViT は「分割創発」の達成に成功、実証的深層学習の時代は終わりに近づいているのか?

観察によると、各アテンションヘッドはオブジェクトの異なる部分、さらには異なるセマンティクスをキャプチャできることがわかります。たとえば、最初の列のアテンションヘッドはさまざまな動物の脚をキャプチャでき、最後の列のアテンションヘッドは耳と頭をキャプチャできます。

変形可能なため、この機能は視覚入力を部品全体の階層に解析することは、変形可能な部品モデルとカプセルネットワークのリリース以来、認識アーキテクチャの目標であり、ホワイトボックス設計の CRATE モデルにもこの機能があります。

以上がMa Yi 教授の新作: ホワイトボックス ViT は「分割創発」の達成に成功、実証的深層学習の時代は終わりに近づいているのか?の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

声明

この記事は51CTO.COMで複製されています。侵害がある場合は、admin@php.cn までご連絡ください。

AIゲーム開発は、激動の夢想家ポータルでエージェントの時代に入りますMay 02, 2025 am 11:17 AM

激動ゲーム：AIエージェントとのゲーム開発に革命をもたらします BlizzardやObsidianなどの業界の巨人の退役軍人で構成されるゲーム開発スタジオであるUpheavalは、革新的なAIを搭載したPlatforでゲームの作成に革命をもたらす態勢を整えています。

UberはあなたのRobotaxiショップになりたいと思っています、プロバイダーはそれらを許可しますか？May 02, 2025 am 11:16 AM

UberのRobotaxi戦略：自動運転車用の乗車エコシステム最近のCurbivore Conferenceで、UberのRichard Willderは、Robotaxiプロバイダーの乗車プラットフォームになるための戦略を発表しました。で支配的な位置を活用します

ビデオゲームをプレイするAIエージェントは、将来のロボットを変革しますMay 02, 2025 am 11:15 AM

ビデオゲームは、特に自律的なエージェントと現実世界のロボットの開発において、最先端のAI研究のための非常に貴重なテストの根拠であることが証明されています。 a

スタートアップインダストリアルコンプレックス、VC 3.0、およびジェームズクーリエのマニフェストMay 02, 2025 am 11:14 AM

進化するベンチャーキャピタルの景観の影響は、メディア、財務報告、日常の会話で明らかです。ただし、投資家、スタートアップ、資金に対する特定の結果はしばしば見落とされています。ベンチャーキャピタル3.0：パラダイム

AdobeはAdobe Max London 2025でクリエイティブクラウドとホタルを更新しますMay 02, 2025 am 11:13 AM

Adobe Max London 2025は、アクセシビリティと生成AIへの戦略的シフトを反映して、Creative Cloud and Fireflyに大幅な更新を提供しました。この分析には、イベント以前のブリーフィングからの洞察がAdobeのリーダーシップを取り入れています。（注：ADOB

すべてのメタがラマコンで発表しましたMay 02, 2025 am 11:12 AM

MetaのLlamaconアナウンスは、Openaiのような閉じたAIシステムと直接競合するように設計された包括的なAI戦略を紹介し、同時にオープンソースモデルの新しい収益ストリームを作成します。この多面的なアプローチはBOをターゲットにします

AIは単なる通常のテクノロジーに過ぎないという提案に関する醸造論争May 02, 2025 am 11:10 AM

この結論に関して、人工知能の分野には深刻な違いがあります。「皇帝の新しい服」を暴露する時が来たと主張する人もいれば、人工知能は普通の技術であるという考えに強く反対する人もいます。それについて議論しましょう。この革新的なAIブレークスルーの分析は、AIの分野での最新の進歩をカバーする私の進行中のForbesコラムの一部です。一般的な技術としての人工知能第一に、この重要な議論の基礎を築くためには、いくつかの基本的な知識が必要です。現在、人工知能をさらに発展させることに専念する大量の研究があります。全体的な目標は、人工的な一般情報（AGI）を達成し、さらには可能な人工スーパーインテリジェンス（AS）を達成することです

モデル市民、なぜAI価値が次のビジネスヤードスティックであるのかMay 02, 2025 am 11:09 AM

企業のAIモデルの有効性は、現在、重要なパフォーマンス指標になっています。 AIブーム以来、生成AIは、誕生日の招待状の作成からソフトウェアコードの作成まで、すべてに使用されてきました。これにより、言語modが急増しました

See all articles

ホットAIツール

Undresser.AI Undress

リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover

写真から衣服を削除するオンライン AI ツール。

Undress AI Tool

脱衣画像を無料で

Clothoff.io

AI衣類リムーバー

Video Face Swap

完全無料の AI 顔交換ツールを使用して、あらゆるビデオの顔を簡単に交換できます。

ホットツール

mPDF

mPDF は、UTF-8 でエンコードされた HTML から PDF ファイルを生成できる PHP ライブラリです。オリジナルの作者である Ian Back は、Web サイトから「オンザフライ」で PDF ファイルを出力し、さまざまな言語を処理するために mPDF を作成しました。 HTML2FPDF などのオリジナルのスクリプトよりも遅く、Unicode フォントを使用すると生成されるファイルが大きくなりますが、CSS スタイルなどをサポートし、多くの機能強化が施されています。 RTL (アラビア語とヘブライ語) や CJK (中国語、日本語、韓国語) を含むほぼすべての言語をサポートします。ネストされたブロックレベル要素 (P、DIV など) をサポートします。