Ma Yi 教授の 5 年間の傑作、完全に数学的に解釈可能なホワイトボックス Transformer であり、その性能は ViT に劣りません。
過去 10 年ほどで、AI が急速に発展したのは、主にエンジニアリングの実践の進歩によるものです。AI 理論は、アルゴリズム開発の指針としての役割を果たしていません。経験的に設計されたニューラル ネットワークは、依然として未解決です。箱。
ChatGPT の人気により、AI の機能は常に誇張され、誇大宣伝され、社会を脅かし誘拐するまでになっています。Transformer アーキテクチャの設計を透明にすることが急務です。
最近、Ma Yi 教授のチームは最新の研究結果を発表し、次の方法で完全に説明できる ホワイトボックス変圧器モデル CRATE を設計しました。 そして、実世界のデータセット ImageNet-1K で ViT に近いパフォーマンスを達成しました。
コードリンク: https://github.com/Ma-Lab-Berkeley/CRATE
#論文リンク: https://arxiv.org/abs/2306.01129
この論文では、研究者らは、表現学習の目標はデータの圧縮と変換であると考えています (たとえば、トークン セットの分布) を使用して、インコヒーレントな部分空間上の低次元ガウス分布の混合をサポートし、最終表現の品質は、スパース レート削減の統一目的関数によって測定できます。
この観点から、Transformer などの一般的なディープ ネットワーク モデルは、この目標を段階的に最適化するための反復スキームを実現すると自然に考えることができます。
特に、結果は、標準の Transformer ブロックが、この目的の補完的な部分の交互の最適化から導出できることを示しています。マルチヘッドのセルフアテンション オペレーターは、最小化すると見なすことができます。勾配降下ステップでは、コーディング レートを下げてトークン セットを圧縮します。その後の多層パーセプトロンは、トークン表現をスパース化しようとしていると考えることができます。
この発見は、数学的に完全に解釈可能な一連のホワイト ボックス トランスフォーマーのようなディープ ネットワーク アーキテクチャの設計も促しました。設計は単純ですが、実験結果は、これらのネットワークが実際に設計目標を最適化する方法を学びました。ImageNet などの大規模な実世界のビジュアル データセットの表現を圧縮およびスパース化し、高度に設計された Transformer モデル (ViT) に近いパフォーマンスを達成します。
Turing Award 受賞者の Yann LeCun 氏も Ma Yi 教授の研究に同意し、Transformer は LISTA (Learned Iterative Shrinkage and Thresholding Algorithm) と同様の手法を使用してスパース圧縮を段階的に最適化していると考えています。
Ma Yi 教授は、1995 年に清華大学でオートメーションと応用数学の二重学士号を取得し、中国大学で EECS の修士号を取得しました。 1997 年にカリフォルニア州バークレーで数学の修士号を取得し、2000 年に EECS で博士号を取得しました。
#Ma Yi 教授は、2018 年にカリフォルニア大学バークレー校の電気工学およびコンピューター サイエンス学部に加わりました。彼は香港大学のデータサイエンス研究所所長として入社し、最近では香港大学のコンピューティング学部長に就任しました。
主な研究方向は、3D コンピュータ ビジョン、高次元データの低次元モデル、スケーラビリティの最適化、機械学習です。最近の研究トピックには、大規模な 3D 幾何学的再構成と相互作用、および低次元モデルとディープネットワークの関係。
Transformer をホワイト ボックスにしましょう
このペーパーの主な目的は、より統合されたフレームワークを使用して、Transformer と同様のネットワーク構造を設計し、次のことを実現することです。数学的信頼性 解釈可能で優れた実用的なパフォーマンス。
この目的を達成するために、研究者らは、入力データ (トークン セット) の最小限の圧縮と最もまばらな表現を取得し、統合された目的関数を最適化するために、一連の増分マッピングを学習することを提案しました。スパース率を下げるため。
このフレームワークは、「トランスモデルとセルフアテンション」、「拡散モデルとノイズリダクション」、「構造化探索とレートリダクション」を統合します(構造探索モデルとレートリダクション) ) および、Transformer のようなディープ ネットワーク層が、スパース レート削減目標を段階的に最適化するための反復最適化スキームの展開から自然に導出できることを示します。
#マップされたターゲット
複数の部分空間に向けたトークンのノイズ除去によるセルフアテンション
研究者らは、理想化されたトークン分布モデルを使用して、低次元の部分空間系列ノイズに向けて反復すると、関連するスコアリング関数は、Transformer のセルフアテンション演算子と同様の明示的な形式になります。
レート削減の最適化によるトークン セットの圧縮によるセルフ アテンション
研究者らは、マルチヘッド セルフ アテンションを導き出しました。層は、レート削減の非可逆符号化レート部分を最小限に抑えるための展開された勾配降下ステップであり、セルフアテンション層を圧縮されたトークン表現として解釈する代替方法を示しています。
スパースコーディングのための反復圧縮閾値アルゴリズム (ISTA) による MLP
研究者らは、Transformer でそれを実証しました。ブロック マルチヘッド セルフ アテンション層の直後に続く多層パーセプトロンは、トークン表現スパース エンコーディングを構築することによってスパース レート削減ターゲットの残りを徐々に最適化する層として解釈できます (また、置き換えることもできます)。
CRATE上記の理解に基づいて、研究者らは目的関数と深層学習を学習するための新しいホワイトボックス Transformer アーキテクチャ CRATE (Coding RAteduction TransformEr) を作成しました。アーキテクチャと最終的に学習された表現は完全に数学的に解釈可能であり、各層が交互の最小化アルゴリズムのステップを実行して、スパース性低減の目標を最適化します。
CRATE は、新しくビルドされたパーツが同じである限り、ビルドのすべての段階で可能な限り単純なビルド方法を選択することがわかります。概念的な役割を直接置き換えて、新しいホワイト ボックス アーキテクチャを取得できます。
実験セクション研究者の実験目標は、基本設計を使用して他の優れた設計のトランスフォーマーと競合することだけでなく、次のことも行うことでした。
1. 通常、エンドツーエンドのパフォーマンスのみで評価される経験的に設計されたブラックボックス ネットワークとは異なり、ホワイトボックス設計のネットワークは、ディープ アーキテクチャの内部を調べて、学習したレイヤーの層を 検証できます。 network ターゲット上で増分最適化を実行するという設計目標 を実際に実行するかどうか。
2. CRATE アーキテクチャはシンプルですが、実験結果は、このアーキテクチャの大きな可能性を検証する必要があります、つまり、大規模な環境で使用できるということです。現実世界のデータセットとタスク 高度に設計された Transformer モデルに匹敵するパフォーマンス を達成します。
モデル アーキテクチャ
トークンの次元、ヘッドの数、およびトークンの数を変更することで、レイヤー、調査 CRATE-Tiny、CRATE-Small、CRATE-Base、および CRATE-Large として示される、異なるサイズの 4 つの CRATE モデルを作成しました。最適化
この記事では主に ImageNet-1K をテスト プラットフォームとして考慮し、Lion オプティマイザーを使用してさまざまなモデル サイズの CRATE モデルをトレーニングします。
CRATE の転移学習パフォーマンスも評価されました。ImageNet-1K でトレーニングされたモデルが事前トレーニング モデルとして使用され、その後、そのモデルが一般的に使用されるいくつかのダウンストリーム データでトレーニングされました。 CRATE を微調整するためのセット (CIFAR10/100、Oxford Flowers、Oxford-IIT-Pets)。
#CRATE のレイヤーは設計目標を達成していますか?
層インデックスが増加するにつれて、ほとんどの場合、CRATE-Small モデルには圧縮項とスパース化項の両方があることがわかります。 、最後の層のスパース度の増加は、分類に使用される追加の線形層によるものです。
結果は、CRATE が元の設計目標と非常に一致していることを示しています。CRATE は、一度学習すると、基本的に、レイヤーを通して表現を徐々に圧縮し、スパースすることを学習します。
他のサイズの CRATE モデルと中間モデル チェックポイントで圧縮とスパース化の項を測定した後、実験結果は依然として非常に優れていることがわかります。一貫性があり、層が多いモデルは目標をより効果的に最適化する傾向があり、各層の役割についての以前の理解を検証します。
パフォーマンスの比較
ImageNet-1K と提案されたネットワークの経験的パフォーマンスは、広く使用されているいくつかの下流データセットに対する転移学習パフォーマンスを通じて研究されます。
設計されたアーキテクチャではアテンション ブロック (MSSA) と MLP ブロック (ISTA) の両方でパラメーター共有を利用しているため、CRATE-Base モデル ( 2,208 万) には、ViT-Small (2,205 万) と同様の数のパラメータがあります。
モデルパラメータの数が同様の場合、記事で提案されているネットワークは、ViT と同様の ImageNet-1K と転移学習パフォーマンスを達成していることがわかりますが、CRATE の設計は次のとおりです。よりシンプルで強力な解釈可能性。
さらに、同じトレーニング ハイパーパラメータの下で、CRATE は拡張を続けることができます。つまり、ImageNet 上の ViT の規模を直接拡張しながら、モデルの規模を拡張することでパフォーマンスを継続的に向上させることができます。 -1K であり、常に一貫したパフォーマンスの向上につながるとは限りません。
つまり、CRATE ネットワークは、その単純さにもかかわらず、大規模な実世界のデータセットで必要な圧縮とスパース表現をすでに学習し、次のようなさまざまなタスクで適切に実行できます。分類と転移学習) を使用して、より高度に設計された Transformer ネットワーク (ViT など) と同等のパフォーマンスを実現します。
以上がMa Yi 教授の 5 年間の傑作、完全に数学的に解釈可能なホワイトボックス Transformer であり、その性能は ViT に劣りません。の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

ジョン・ロールズの独創的な1971年の著書「正義の理論」で、彼は私たちが今日のAIデザインの核となり、意思決定を使用するべきであるという思考実験を提案しました:無知のベール。この哲学は、公平性を理解するための簡単なツールを提供し、リーダーがこの理解を使用してAIを公平に設計および実装するための青写真を提供します。 あなたが新しい社会のルールを作っていると想像してください。しかし、前提があります。この社会でどのような役割を果たすかは事前にわかりません。過半数または限界少数派に属している、金持ちまたは貧弱、健康、または障害者になることがあります。この「無知のベール」の下で活動することで、ルールメーカーが自分自身に利益をもたらす決定を下すことができません。それどころか、人々はより公衆を策定する意欲があります

ロボットプロセスオートメーション(RPA)を専門とする多くの企業は、繰り返しタスクを自動化するためのボットを提供しています。 一方、プロセスマイニング、オーケストレーション、インテリジェントドキュメント処理スペシャル

AIの未来は、単純な単語の予測と会話シミュレーションを超えて動いています。 AIエージェントは出現しており、独立したアクションとタスクの完了が可能です。 このシフトは、AnthropicのClaudeのようなツールですでに明らかです。 AIエージェント:研究a

急速な技術の進歩は、仕事の未来に関する将来の見通しの視点を必要とします。 AIが単なる生産性向上を超えて、私たちの社会構造の形成を開始するとどうなりますか? Topher McDougalの今後の本、Gaia Wakes:

多くの場合、Harmonized System(HS)などのシステムからの「HS 8471.30」などの複雑なコードを含む製品分類は、国際貿易と国内販売に不可欠です。 これらのコードは、すべてのINVに影響を与える正しい税申請を保証します

データセンターと気候技術投資におけるエネルギー消費の将来 この記事では、AIが推進するデータセンターのエネルギー消費の急増と気候変動への影響を調査し、この課題に対処するための革新的なソリューションと政策の推奨事項を分析します。 エネルギー需要の課題:大規模で超大規模なデータセンターは、数十万の普通の北米の家族の合計に匹敵する巨大な力を消費し、新たなAIの超大規模なセンターは、これよりも数十倍の力を消費します。 2024年の最初の8か月で、Microsoft、Meta、Google、Amazonは、AIデータセンターの建設と運用に約1,250億米ドルを投資しました(JP Morgan、2024)(表1)。 エネルギー需要の成長は、挑戦と機会の両方です。カナリアメディアによると、迫り来る電気

生成AIは、映画とテレビの制作に革命をもたらしています。 LumaのRay 2モデル、滑走路のGen-4、OpenaiのSora、GoogleのVEO、その他の新しいモデルは、前例のない速度で生成されたビデオの品質を向上させています。これらのモデルは、複雑な特殊効果と現実的なシーンを簡単に作成できます。短いビデオクリップやカメラ認知モーション効果も達成されています。これらのツールの操作と一貫性を改善する必要がありますが、進歩の速度は驚くべきものです。 生成ビデオは独立した媒体になりつつあります。アニメーション制作が得意なモデルもあれば、実写画像が得意なモデルもあります。 AdobeのFireflyとMoonvalleyのMAであることは注目に値します

ChatGptユーザーエクスペリエンスは低下します:それはモデルの劣化ですか、それともユーザーの期待ですか? 最近、多数のCHATGPT有料ユーザーがパフォーマンスの劣化について不満を述べています。 ユーザーは、モデルへの応答が遅く、答えが短い、助けの欠如、さらに多くの幻覚を報告しました。一部のユーザーは、ソーシャルメディアに不満を表明し、ChatGptは「お世辞になりすぎて」、重要なフィードバックを提供するのではなく、ユーザービューを検証する傾向があることを指摘しています。 これは、ユーザーエクスペリエンスに影響を与えるだけでなく、生産性の低下やコンピューティングリソースの無駄など、企業の顧客に実際の損失をもたらします。 パフォーマンスの劣化の証拠 多くのユーザーは、特にGPT-4などの古いモデル(今月末にサービスから廃止される)で、ChatGPTパフォーマンスの大幅な分解を報告しています。 これ


ホットAIツール

Undresser.AI Undress
リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover
写真から衣服を削除するオンライン AI ツール。

Undress AI Tool
脱衣画像を無料で

Clothoff.io
AI衣類リムーバー

Video Face Swap
完全無料の AI 顔交換ツールを使用して、あらゆるビデオの顔を簡単に交換できます。

人気の記事

ホットツール

MinGW - Minimalist GNU for Windows
このプロジェクトは osdn.net/projects/mingw に移行中です。引き続きそこでフォローしていただけます。 MinGW: GNU Compiler Collection (GCC) のネイティブ Windows ポートであり、ネイティブ Windows アプリケーションを構築するための自由に配布可能なインポート ライブラリとヘッダー ファイルであり、C99 機能をサポートする MSVC ランタイムの拡張機能が含まれています。すべての MinGW ソフトウェアは 64 ビット Windows プラットフォームで実行できます。

SublimeText3 英語版
推奨: Win バージョン、コードプロンプトをサポート!

SublimeText3 Linux 新バージョン
SublimeText3 Linux 最新バージョン

SublimeText3 Mac版
神レベルのコード編集ソフト(SublimeText3)

AtomエディタMac版ダウンロード
最も人気のあるオープンソースエディター

ホットトピック









