Ma Yi 教授の 5 年間の傑作、完全に数学的に解釈可能なホワイトボックス Transformer であり、その性能は ViT に劣りません。-AI-php.cn

ホームページ

テクノロジー周辺機器

Ma Yi 教授の 5 年間の傑作、完全に数学的に解釈可能なホワイトボックス Transformer であり、その性能は ViT に劣りません。

PHPz

Jun 10, 2023 am 08:39 AM

モデル研究

過去 10 年ほどで、AI が急速に発展したのは、主にエンジニアリングの実践の進歩によるものです。AI 理論は、アルゴリズム開発の指針としての役割を果たしていません。経験的に設計されたニューラルネットワークは、依然として未解決です。箱。

ChatGPT の人気により、AI の機能は常に誇張され、誇大宣伝され、社会を脅かし誘拐するまでになっています。Transformer アーキテクチャの設計を透明にすることが急務です。

Ma Yi 教授の 5 年間の傑作、完全に数学的に解釈可能なホワイトボックス Transformer であり、その性能は ViT に劣りません。

最近、Ma Yi 教授のチームは最新の研究結果を発表し、次の方法で完全に説明できるホワイトボックス変圧器モデル CRATE を設計しました。そして、実世界のデータセット ImageNet-1K で ViT に近いパフォーマンスを達成しました。

コードリンク: https://github.com/Ma-Lab-Berkeley/CRATE

#論文リンク: https://arxiv.org/abs/2306.01129

この論文では、研究者らは、表現学習の目標はデータの圧縮と変換であると考えています (たとえば、トークンセットの分布) を使用して、インコヒーレントな部分空間上の低次元ガウス分布の混合をサポートし、最終表現の品質は、スパースレート削減の統一目的関数によって測定できます。

この観点から、Transformer などの一般的なディープネットワークモデルは、この目標を段階的に最適化するための反復スキームを実現すると自然に考えることができます。

特に、結果は、標準の Transformer ブロックが、この目的の補完的な部分の交互の最適化から導出できることを示しています。マルチヘッドのセルフアテンションオペレーターは、最小化すると見なすことができます。勾配降下ステップでは、コーディングレートを下げてトークンセットを圧縮します。その後の多層パーセプトロンは、トークン表現をスパース化しようとしていると考えることができます。

この発見は、数学的に完全に解釈可能な一連のホワイトボックストランスフォーマーのようなディープネットワークアーキテクチャの設計も促しました。設計は単純ですが、実験結果は、これらのネットワークが実際に設計目標を最適化する方法を学びました。ImageNet などの大規模な実世界のビジュアルデータセットの表現を圧縮およびスパース化し、高度に設計された Transformer モデル (ViT) に近いパフォーマンスを達成します。

Turing Award 受賞者の Yann LeCun 氏も Ma Yi 教授の研究に同意し、Transformer は LISTA (Learned Iterative Shrinkage and Thresholding Algorithm) と同様の手法を使用してスパース圧縮を段階的に最適化していると考えています。

Ma Yi 教授の 5 年間の傑作、完全に数学的に解釈可能なホワイトボックス Transformer であり、その性能は ViT に劣りません。

Ma Yi 教授は、1995 年に清華大学でオートメーションと応用数学の二重学士号を取得し、中国大学で EECS の修士号を取得しました。 1997 年にカリフォルニア州バークレーで数学の修士号を取得し、2000 年に EECS で博士号を取得しました。

Ma Yi 教授の 5 年間の傑作、完全に数学的に解釈可能なホワイトボックス Transformer であり、その性能は ViT に劣りません。

#Ma Yi 教授は、2018 年にカリフォルニア大学バークレー校の電気工学およびコンピューターサイエンス学部に加わりました。彼は香港大学のデータサイエンス研究所所長として入社し、最近では香港大学のコンピューティング学部長に就任しました。

主な研究方向は、3D コンピュータビジョン、高次元データの低次元モデル、スケーラビリティの最適化、機械学習です。最近の研究トピックには、大規模な 3D 幾何学的再構成と相互作用、および低次元モデルとディープネットワークの関係。

Transformer をホワイトボックスにしましょう

このペーパーの主な目的は、より統合されたフレームワークを使用して、Transformer と同様のネットワーク構造を設計し、次のことを実現することです。数学的信頼性解釈可能で優れた実用的なパフォーマンス。

この目的を達成するために、研究者らは、入力データ (トークンセット) の最小限の圧縮と最もまばらな表現を取得し、統合された目的関数を最適化するために、一連の増分マッピングを学習することを提案しました。スパース率を下げるため。

Ma Yi 教授の 5 年間の傑作、完全に数学的に解釈可能なホワイトボックス Transformer であり、その性能は ViT に劣りません。

このフレームワークは、「トランスモデルとセルフアテンション」、「拡散モデルとノイズリダクション」、「構造化探索とレートリダクション」を統合します（構造探索モデルとレートリダクション） ) および、Transformer のようなディープネットワーク層が、スパースレート削減目標を段階的に最適化するための反復最適化スキームの展開から自然に導出できることを示します。

Ma Yi 教授の 5 年間の傑作、完全に数学的に解釈可能なホワイトボックス Transformer であり、その性能は ViT に劣りません。

#マップされたターゲット

複数の部分空間に向けたトークンのノイズ除去によるセルフアテンション

研究者らは、理想化されたトークン分布モデルを使用して、低次元の部分空間系列ノイズに向けて反復すると、関連するスコアリング関数は、Transformer のセルフアテンション演算子と同様の明示的な形式になります。

レート削減の最適化によるトークンセットの圧縮によるセルフアテンション

研究者らは、マルチヘッドセルフアテンションを導き出しました。層は、レート削減の非可逆符号化レート部分を最小限に抑えるための展開された勾配降下ステップであり、セルフアテンション層を圧縮されたトークン表現として解釈する代替方法を示しています。

スパースコーディングのための反復圧縮閾値アルゴリズム (ISTA) による MLP

研究者らは、Transformer でそれを実証しました。ブロックマルチヘッドセルフアテンション層の直後に続く多層パーセプトロンは、トークン表現スパースエンコーディングを構築することによってスパースレート削減ターゲットの残りを徐々に最適化する層として解釈できます (また、置き換えることもできます)。

CRATE

上記の理解に基づいて、研究者らは目的関数と深層学習を学習するための新しいホワイトボックス Transformer アーキテクチャ CRATE (Coding RAteduction TransformEr) を作成しました。アーキテクチャと最終的に学習された表現は完全に数学的に解釈可能であり、各層が交互の最小化アルゴリズムのステップを実行して、スパース性低減の目標を最適化します。

Ma Yi 教授の 5 年間の傑作、完全に数学的に解釈可能なホワイトボックス Transformer であり、その性能は ViT に劣りません。

CRATE は、新しくビルドされたパーツが同じである限り、ビルドのすべての段階で可能な限り単純なビルド方法を選択することがわかります。概念的な役割を直接置き換えて、新しいホワイトボックスアーキテクチャを取得できます。

実験セクション

研究者の実験目標は、基本設計を使用して他の優れた設計のトランスフォーマーと競合することだけでなく、次のことも行うことでした。

1. 通常、エンドツーエンドのパフォーマンスのみで評価される経験的に設計されたブラックボックスネットワークとは異なり、ホワイトボックス設計のネットワークは、ディープアーキテクチャの内部を調べて、学習したレイヤーの層を検証できます。 network ターゲット上で増分最適化を実行するという設計目標を実際に実行するかどうか。

2. CRATE アーキテクチャはシンプルですが、実験結果は、このアーキテクチャの大きな可能性を検証する必要があります、つまり、大規模な環境で使用できるということです。現実世界のデータセットとタスク高度に設計された Transformer モデルに匹敵するパフォーマンスを達成します。

モデルアーキテクチャ

トークンの次元、ヘッドの数、およびトークンの数を変更することで、レイヤー、調査 CRATE-Tiny、CRATE-Small、CRATE-Base、および CRATE-Large として示される、異なるサイズの 4 つの CRATE モデルを作成しました。最適化

この記事では主に ImageNet-1K をテストプラットフォームとして考慮し、Lion オプティマイザーを使用してさまざまなモデルサイズの CRATE モデルをトレーニングします。

CRATE の転移学習パフォーマンスも評価されました。ImageNet-1K でトレーニングされたモデルが事前トレーニングモデルとして使用され、その後、そのモデルが一般的に使用されるいくつかのダウンストリームデータでトレーニングされました。 CRATE を微調整するためのセット (CIFAR10/100、Oxford Flowers、Oxford-IIT-Pets)。

#CRATE のレイヤーは設計目標を達成していますか?

Ma Yi 教授の 5 年間の傑作、完全に数学的に解釈可能なホワイトボックス Transformer であり、その性能は ViT に劣りません。

層インデックスが増加するにつれて、ほとんどの場合、CRATE-Small モデルには圧縮項とスパース化項の両方があることがわかります。、最後の層のスパース度の増加は、分類に使用される追加の線形層によるものです。

結果は、CRATE が元の設計目標と非常に一致していることを示しています。CRATE は、一度学習すると、基本的に、レイヤーを通して表現を徐々に圧縮し、スパースすることを学習します。

Ma Yi 教授の 5 年間の傑作、完全に数学的に解釈可能なホワイトボックス Transformer であり、その性能は ViT に劣りません。

他のサイズの CRATE モデルと中間モデルチェックポイントで圧縮とスパース化の項を測定した後、実験結果は依然として非常に優れていることがわかります。一貫性があり、層が多いモデルは目標をより効果的に最適化する傾向があり、各層の役割についての以前の理解を検証します。

パフォーマンスの比較

ImageNet-1K と提案されたネットワークの経験的パフォーマンスは、広く使用されているいくつかの下流データセットに対する転移学習パフォーマンスを通じて研究されます。

Ma Yi 教授の 5 年間の傑作、完全に数学的に解釈可能なホワイトボックス Transformer であり、その性能は ViT に劣りません。

設計されたアーキテクチャではアテンションブロック (MSSA) と MLP ブロック (ISTA) の両方でパラメーター共有を利用しているため、CRATE-Base モデル ( 2,208 万) には、ViT-Small (2,205 万) と同様の数のパラメータがあります。

モデルパラメータの数が同様の場合、記事で提案されているネットワークは、ViT と同様の ImageNet-1K と転移学習パフォーマンスを達成していることがわかりますが、CRATE の設計は次のとおりです。よりシンプルで強力な解釈可能性。

さらに、同じトレーニングハイパーパラメータの下で、CRATE は拡張を続けることができます。つまり、ImageNet 上の ViT の規模を直接拡張しながら、モデルの規模を拡張することでパフォーマンスを継続的に向上させることができます。 -1K であり、常に一貫したパフォーマンスの向上につながるとは限りません。

つまり、CRATE ネットワークは、その単純さにもかかわらず、大規模な実世界のデータセットで必要な圧縮とスパース表現をすでに学習し、次のようなさまざまなタスクで適切に実行できます。分類と転移学習) を使用して、より高度に設計された Transformer ネットワーク (ViT など) と同等のパフォーマンスを実現します。

以上がMa Yi 教授の 5 年間の傑作、完全に数学的に解釈可能なホワイトボックス Transformer であり、その性能は ViT に劣りません。の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

声明

この記事は51CTO.COMで複製されています。侵害がある場合は、admin@php.cn までご連絡ください。

あなたは無知のベールの後ろに職場AIを構築する必要がありますApr 29, 2025 am 11:15 AM

ジョン・ロールズの独創的な1971年の著書「正義の理論」で、彼は私たちが今日のAIデザインの核となり、意思決定を使用するべきであるという思考実験を提案しました：無知のベール。この哲学は、公平性を理解するための簡単なツールを提供し、リーダーがこの理解を使用してAIを公平に設計および実装するための青写真を提供します。あなたが新しい社会のルールを作っていると想像してください。しかし、前提があります。この社会でどのような役割を果たすかは事前にわかりません。過半数または限界少数派に属している、金持ちまたは貧弱、健康、または障害者になることがあります。この「無知のベール」の下で活動することで、ルールメーカーが自分自身に利益をもたらす決定を下すことができません。それどころか、人々はより公衆を策定する意欲があります

決定、決定…実用的な応用AIの次のステップApr 29, 2025 am 11:14 AM

ロボットプロセスオートメーション（RPA）を専門とする多くの企業は、繰り返しタスクを自動化するためのボットを提供しています。一方、プロセスマイニング、オーケストレーション、インテリジェントドキュメント処理スペシャル

エージェントが来ています - 私たちがAIパートナーの隣ですることについてもっとApr 29, 2025 am 11:13 AM

AIの未来は、単純な単語の予測と会話シミュレーションを超えて動いています。 AIエージェントは出現しており、独立したアクションとタスクの完了が可能です。このシフトは、AnthropicのClaudeのようなツールですでに明らかです。 AIエージェント：研究a

共感がAI主導の未来におけるリーダーのコントロールよりも重要である理由Apr 29, 2025 am 11:12 AM

急速な技術の進歩は、仕事の未来に関する将来の見通しの視点を必要とします。 AIが単なる生産性向上を超えて、私たちの社会構造の形成を開始するとどうなりますか？ Topher McDougalの今後の本、Gaia Wakes：

製品分類のためのAI：マシンは税法を習得できますか？Apr 29, 2025 am 11:11 AM

多くの場合、Harmonized System（HS）などのシステムからの「HS 8471.30」などの複雑なコードを含む製品分類は、国際貿易と国内販売に不可欠です。これらのコードは、すべてのINVに影響を与える正しい税申請を保証します

データセンターの要求は、気候技術のリバウンドを引き起こす可能性がありますか？Apr 29, 2025 am 11:10 AM

データセンターと気候技術投資におけるエネルギー消費の将来この記事では、AIが推進するデータセンターのエネルギー消費の急増と気候変動への影響を調査し、この課題に対処するための革新的なソリューションと政策の推奨事項を分析します。エネルギー需要の課題：大規模で超大規模なデータセンターは、数十万の普通の北米の家族の合計に匹敵する巨大な力を消費し、新たなAIの超大規模なセンターは、これよりも数十倍の力を消費します。 2024年の最初の8か月で、Microsoft、Meta、Google、Amazonは、AIデータセンターの建設と運用に約1,250億米ドルを投資しました（JP Morgan、2024）（表1）。エネルギー需要の成長は、挑戦と機会の両方です。カナリアメディアによると、迫り来る電気

AIとハリウッドの次の黄金時代Apr 29, 2025 am 11:09 AM

生成AIは、映画とテレビの制作に革命をもたらしています。 LumaのRay 2モデル、滑走路のGen-4、OpenaiのSora、GoogleのVEO、その他の新しいモデルは、前例のない速度で生成されたビデオの品質を向上させています。これらのモデルは、複雑な特殊効果と現実的なシーンを簡単に作成できます。短いビデオクリップやカメラ認知モーション効果も達成されています。これらのツールの操作と一貫性を改善する必要がありますが、進歩の速度は驚くべきものです。生成ビデオは独立した媒体になりつつあります。アニメーション制作が得意なモデルもあれば、実写画像が得意なモデルもあります。 AdobeのFireflyとMoonvalleyのMAであることは注目に値します

ChatGptはゆっくりとAIの最大のYES-MANになりますか？Apr 29, 2025 am 11:08 AM

ChatGptユーザーエクスペリエンスは低下します：それはモデルの劣化ですか、それともユーザーの期待ですか？最近、多数のCHATGPT有料ユーザーがパフォーマンスの劣化について不満を述べています。ユーザーは、モデルへの応答が遅く、答えが短い、助けの欠如、さらに多くの幻覚を報告しました。一部のユーザーは、ソーシャルメディアに不満を表明し、ChatGptは「お世辞になりすぎて」、重要なフィードバックを提供するのではなく、ユーザービューを検証する傾向があることを指摘しています。これは、ユーザーエクスペリエンスに影響を与えるだけでなく、生産性の低下やコンピューティングリソースの無駄など、企業の顧客に実際の損失をもたらします。パフォーマンスの劣化の証拠多くのユーザーは、特にGPT-4などの古いモデル（今月末にサービスから廃止される）で、ChatGPTパフォーマンスの大幅な分解を報告しています。これ

See all articles

ホットAIツール

Undresser.AI Undress

リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover

写真から衣服を削除するオンライン AI ツール。

Undress AI Tool

脱衣画像を無料で

Clothoff.io

AI衣類リムーバー

Video Face Swap

完全無料の AI 顔交換ツールを使用して、あらゆるビデオの顔を簡単に交換できます。

ホットツール

MinGW - Minimalist GNU for Windows

このプロジェクトは osdn.net/projects/mingw に移行中です。引き続きそこでフォローしていただけます。 MinGW: GNU Compiler Collection (GCC) のネイティブ Windows ポートであり、ネイティブ Windows アプリケーションを構築するための自由に配布可能なインポートライブラリとヘッダーファイルであり、C99 機能をサポートする MSVC ランタイムの拡張機能が含まれています。すべての MinGW ソフトウェアは 64 ビット Windows プラットフォームで実行できます。