Transformer に基づく基本的なビジュアル モデルは、セグメンテーションや検出などのさまざまな下流タスクで非常に強力なパフォーマンスを示しており、自己教師ありトレーニング後にセマンティック セグメンテーション属性を備えた DINO などのモデルが登場しました。
視覚的な Transformer モデルが、教師あり分類用にトレーニングされた後に同様の創発機能を持たないのは奇妙です
最近、Ma Yi 教授のチームは、 Transformer アーキテクチャに基づくモデルを研究し、創発的なセグメンテーション能力が単に複雑な自己教師あり学習メカニズムの結果であるのか、それともモデル アーキテクチャを適切に設計することでより一般的な条件下でも同じパフォーマンスを達成できるのかを調査しました。
##クリックしてください論文を表示するには次のリンクをクリックしてください: https://arxiv.org/abs/2308.16271
多数の実験の後、研究者らはホワイトボックス Transformer モデルを使用すると次のことを証明しました。 CRATE、その設計 データ分布の低次元構造を明示的にモデル化し、追跡し、最小限の教師付きトレーニング レシピで全体レベルおよび部分レベルのセグメンテーション プロパティを明らかにします。
階層的な詳細な分析を通じて、 get 重要な結論が導き出されます。つまり、創発的なプロパティは、ホワイト ボックス ネットワークの設計数学的機能を強く裏付けています。この結果に基づいて、高性能であるだけでなく完全に数学的に解釈可能なホワイトボックス基本モデルを設計する方法を提案しました。
Ma Yi 教授は次のようにも述べています。学習は徐々に経験的な設計から理論的な指導へと移行していきます。
ホワイトボックス CRATE の創発プロパティ
DINO のセグメンテーション創発能力とは、DINO モデルの能力を指します。プロセス言語タスク このとき、入力文をより小さなフラグメントに分割し、各フラグメントを独立して処理できます。この機能により、DINO モデルは複雑な文構造と意味情報をよりよく理解できるようになり、それによって自然言語処理の分野でのパフォーマンスが向上します
インテリジェント システムにおける表現学習を目的としています。世界の高次元のマルチモーダル感覚データ (画像、言語、音声) を、その基本的な低次元構造を維持しながらよりコンパクトな形式に変換して、効率的な認識 (分類など) とグループ化 (セグメンテーションなど) および追跡を実現します。 。
#ディープ ラーニング モデルのトレーニングでは、通常、大規模なデータを入力して自己教師ありの方法で学習する、データ駆動型のアプローチが採用されます
基本的な視覚モデルの中でも、DINO モデルは驚くべき創発能力を示し、ViT は教師付きセグメンテーション トレーニングがなくても明示的なセマンティック セグメンテーション情報を認識できます。自己監視型 Transformer アーキテクチャを備えた DINO モデルは、この点で優れたパフォーマンスを発揮します。
フォローアップ作業では、このセグメンテーション情報を DINO モデルで利用し、次のような下流タスクで実行する方法が研究されました。セグメンテーションや検出などにより最先端のパフォーマンスが達成されており、DINO でトレーニングされた ViT の最後から 2 番目のレイヤーの特徴が、前景の区別などの視覚入力の顕著性情報と強く関連していることも証明された研究もあります。背景とオブジェクトの境界により、画像のセグメンテーションやその他のタスクのパフォーマンスが向上します。
#セグメンテーション属性を強調するために、DINO はトレーニング プロセス中に自己教師あり学習、知識の蒸留、および加重平均法を巧みに組み合わせる必要があります。 # #DINO で導入された各コンポーネントがセグメンテーション マスクの創発に必須であるかどうかは不明ですが、DINO もバックボーンとして ViT アーキテクチャを採用していますが、分類タスクで学習された通常の教師あり ViT モデルでは、セグメンテーション創発の動作は観察されませんでした。
CRATEの登場
DINOの成功事例に基づいて、研究者たちは複雑な自己教師ありの研究を目指しています学習 Transformer のようなビジュアル モデルで創発的なプロパティを取得するにはパイプラインが必要ですか?
研究者らは、Transformer モデルのセグメンテーション プロパティを促進する有望な方法は、表現学習も表す入力データ構造を考慮して Transformer モデル アーキテクチャを設計することであると考えています。古典的な手法と最新のデータ駆動型深層学習フレームワーク。
現在主流の Transformer モデルと比較すると、この設計手法はホワイトボックス Transformer モデルとも言えます。
Ma Yi 教授のグループの以前の研究に基づいて、研究者らはホワイト ボックス アーキテクチャを備えた CRATE モデルで広範な実験を実施し、CRATE のホワイト ボックス設計が自己のセグメンテーション属性の出現の理由であることを証明しました。 -注目グラフ。
言い換える必要があるのは次のとおりです: 定性的評価
研究者は [CLS] トークンベースの注意を使用します。グラフ手法を使用してモデルを説明および視覚化して、CRATE のクエリ-キー-値の行列がすべて同じであることを確認してください
#CRATEセルフアテンションマップは入力画像のセマンティクスに対応しており、モデルの内部ネットワークは各画像に対して明確なセマンティックセグメンテーションを実行し、DINOモデルと同様の効果を実現します。
通常の ViT は、教師付き分類タスクでトレーニングした場合、同様のセグメンテーション プロパティを表示しません
以前の内容に基づくブロックごとの深い特徴の視覚画像学習に関する研究、研究者は CRATE および ViT モデルの深いトークン表現に関する主成分分析 (PCA) 研究を実施しました
CRATE はセグメンテーション監視トレーニングなしでも画像内のオブジェクトの境界をキャプチャできることがわかります。
# さらに、主成分は、馬の脚に対応する赤いチャネルなど、トークンとオブジェクト間の類似部分の特徴の位置合わせも示します。 #教師あり ViT モデルの PCA 可視化構造の程度は非常に低いです。
定量的評価
研究者らは、既存のセグメンテーションを使用して CRATE 創発セグメンテーション プロパティとオブジェクト検出テクノロジーを評価しました
セルフ アテンション マップからわかるように、CRATE は明確な境界を持つオブジェクト レベルのセマンティクスを明示的にキャプチャします。セグメンテーションの品質を定量的に測定するために、研究者らはセルフ アテンションを使用してアテンション マップはセグメンテーション マスクを生成し、標準の mIoU (平均交差対和集合比) を実際のマスクと比較します。
実験結果から、ビジュアルおよび mIOU スコアの点で CRATE が ViT よりも大幅に優れていることがわかります。これは、内部表現がCRATE の機能は、セグメンテーション マスクの生成に役立ちます。タスクをより効率的にマスクします。
オブジェクト検出と詳細なセグメンテーション
CRATE Information によって取得された豊富なセマンティクスをさらに検証および評価するために、研究者らは、効率的なオブジェクト検出およびセグメンテーション手法である MaskCut を採用し、手動による注釈を付けずに自動化された評価モデルを取得し、トークンに基づいて画像からよりきめの細かいセグメンテーションを抽出できます。 CRATE によって学習された表現。
COCO val2017 のセグメンテーション結果からわかるように、CRATE の内部表現は次のとおりです。検出とセグメンテーション インデックスは教師あり ViT よりも優れていますが、教師あり ViT 機能を備えた MaskCut では、場合によってはセグメンテーション マスクをまったく生成することさえできません。
CRATE における深さの役割
##CRATE の各層の設計は、同じ概念的な目的に従っています。つまり、スパース レートの削減を最適化し、トークンの配布をコンパクトで構造化された形式に変換することです。 書き換え後: CRATE の各レベルの設計は同じ哲学に従います: スパース率の削減を最適化し、トークンの配布をコンパクトで構造化された形式に変換します
CRATE の出現を想定しますセマンティック セグメンテーション機能の特徴は、「Z における同様のセマンティック カテゴリに属するトークンのクラスターを表現する」ことに似ています。CRATE のセグメンテーション パフォーマンスは、深さが増すにつれて向上することが期待されます。これをテストするために、研究者らは、MaskCut パイプラインを使用して、さまざまなレイヤーの内部表現にわたるセグメンテーションのパフォーマンスを定量的に評価し、さらに PCA 視覚化を適用して、セグメンテーションがどのように深度で現れるかを理解しました。
実験結果から、より深い層からの表現を使用するとセグメンテーション スコアが向上することがわかります。これは、CRATE の増分最適化設計と非常に一致しています。 対照的に、ViT-B/8 のパフォーマンスは後の層でわずかに向上しますが、そのセグメンテーション スコアは CRATE よりも大幅に低くなります。PCA の結果は、CRATE からの深い抽出が示されています。表現は徐々に前景オブジェクトにより注意を払い、テクスチャ レベルの詳細をキャプチャできるようになります。 CRATE での溶解実験 CRATE と MLP のアテンション ブロック (MSSA)ブロック (ISTA) は ViT のアテンション ブロックとは異なります CRATE の創発セグメンテーション特性に対する各コンポーネントの影響を研究するために、研究者は 3 つの CRATE バリアントを選択しました: CRATE、CRATE- MHSA、クレート-MLP。これらのバリアントは、それぞれ ViT のアテンション ブロック (MHSA) と MLP ブロックを表します。 研究者らは、ImageNet-21k データセットに同じ事前トレーニング設定を適用し、次に粗セグメンテーション評価を適用し、異なるモデルのパフォーマンスを定量的に比較するためのマスク セグメンテーション評価。 実験結果によると、CRATE はすべてのタスクにおいて他のモデル アーキテクチャよりも大幅に優れています。 MHSA と MSSA のアーキテクチャ上の違いは小さいですが、ViT の MHSA を CRATE の MSSA に置き換えるだけで、ViT の粗セグメンテーション パフォーマンス (つまり、VOC セグメント) が大幅に向上する可能性があることは注目に値します。これは、ホワイト ボックス デザインの有効性をさらに証明しています。 書き直す必要がある内容は次のとおりです: ヘッダーの意味属性の識別に注意してください [CLS] トークンと画像ブロック トークン間のセルフ アテンション マップでは、明確なセグメンテーション マスクが確認できます。直観によると、各アテンション ヘッドは、画像ブロックのいくつかの特徴をキャプチャできるはずです。データ。 研究者らは、最初に画像を CRATE モデルに入力し、次に人間に検査して意味的な意味を持つと思われる 4 つのアテンション ヘッドを選択させ、次にこれらのアテンション ヘッドを他の入力に使用しました。画像 頭上の自己注意マップの視覚化。 観察によると、各アテンションヘッドはオブジェクトの異なる部分、さらには異なるセマンティクスをキャプチャできることがわかります。たとえば、最初の列のアテンション ヘッドはさまざまな動物の脚をキャプチャでき、最後の列のアテンション ヘッドは耳と頭をキャプチャできます。 変形可能なため、この機能は視覚入力を部品全体の階層に解析することは、変形可能な部品モデルとカプセル ネットワークのリリース以来、認識アーキテクチャの目標であり、ホワイト ボックス設計の CRATE モデルにもこの機能があります。
以上がMa Yi 教授の新作: ホワイトボックス ViT は「分割創発」の達成に成功、実証的深層学習の時代は終わりに近づいているのか?の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

激動ゲーム:AIエージェントとのゲーム開発に革命をもたらします BlizzardやObsidianなどの業界の巨人の退役軍人で構成されるゲーム開発スタジオであるUpheavalは、革新的なAIを搭載したPlatforでゲームの作成に革命をもたらす態勢を整えています。

UberのRobotaxi戦略:自動運転車用の乗車エコシステム 最近のCurbivore Conferenceで、UberのRichard Willderは、Robotaxiプロバイダーの乗車プラットフォームになるための戦略を発表しました。 で支配的な位置を活用します

ビデオゲームは、特に自律的なエージェントと現実世界のロボットの開発において、最先端のAI研究のための非常に貴重なテストの根拠であることが証明されています。 a

進化するベンチャーキャピタルの景観の影響は、メディア、財務報告、日常の会話で明らかです。 ただし、投資家、スタートアップ、資金に対する特定の結果はしばしば見落とされています。 ベンチャーキャピタル3.0:パラダイム

Adobe Max London 2025は、アクセシビリティと生成AIへの戦略的シフトを反映して、Creative Cloud and Fireflyに大幅な更新を提供しました。 この分析には、イベント以前のブリーフィングからの洞察がAdobeのリーダーシップを取り入れています。 (注:ADOB

MetaのLlamaconアナウンスは、Openaiのような閉じたAIシステムと直接競合するように設計された包括的なAI戦略を紹介し、同時にオープンソースモデルの新しい収益ストリームを作成します。 この多面的なアプローチはBOをターゲットにします

この結論に関して、人工知能の分野には深刻な違いがあります。 「皇帝の新しい服」を暴露する時が来たと主張する人もいれば、人工知能は普通の技術であるという考えに強く反対する人もいます。 それについて議論しましょう。 この革新的なAIブレークスルーの分析は、AIの分野での最新の進歩をカバーする私の進行中のForbesコラムの一部です。 一般的な技術としての人工知能 第一に、この重要な議論の基礎を築くためには、いくつかの基本的な知識が必要です。 現在、人工知能をさらに発展させることに専念する大量の研究があります。全体的な目標は、人工的な一般情報(AGI)を達成し、さらには可能な人工スーパーインテリジェンス(AS)を達成することです

企業のAIモデルの有効性は、現在、重要なパフォーマンス指標になっています。 AIブーム以来、生成AIは、誕生日の招待状の作成からソフトウェアコードの作成まで、すべてに使用されてきました。 これにより、言語modが急増しました


ホットAIツール

Undresser.AI Undress
リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover
写真から衣服を削除するオンライン AI ツール。

Undress AI Tool
脱衣画像を無料で

Clothoff.io
AI衣類リムーバー

Video Face Swap
完全無料の AI 顔交換ツールを使用して、あらゆるビデオの顔を簡単に交換できます。

人気の記事

ホットツール

mPDF
mPDF は、UTF-8 でエンコードされた HTML から PDF ファイルを生成できる PHP ライブラリです。オリジナルの作者である Ian Back は、Web サイトから「オンザフライ」で PDF ファイルを出力し、さまざまな言語を処理するために mPDF を作成しました。 HTML2FPDF などのオリジナルのスクリプトよりも遅く、Unicode フォントを使用すると生成されるファイルが大きくなりますが、CSS スタイルなどをサポートし、多くの機能強化が施されています。 RTL (アラビア語とヘブライ語) や CJK (中国語、日本語、韓国語) を含むほぼすべての言語をサポートします。ネストされたブロックレベル要素 (P、DIV など) をサポートします。

Safe Exam Browser
Safe Exam Browser は、オンライン試験を安全に受験するための安全なブラウザ環境です。このソフトウェアは、あらゆるコンピュータを安全なワークステーションに変えます。あらゆるユーティリティへのアクセスを制御し、学生が無許可のリソースを使用するのを防ぎます。

MantisBT
Mantis は、製品の欠陥追跡を支援するために設計された、導入が簡単な Web ベースの欠陥追跡ツールです。 PHP、MySQL、Web サーバーが必要です。デモおよびホスティング サービスをチェックしてください。

SAP NetWeaver Server Adapter for Eclipse
Eclipse を SAP NetWeaver アプリケーション サーバーと統合します。

VSCode Windows 64 ビットのダウンロード
Microsoft によって発売された無料で強力な IDE エディター

ホットトピック









