検索
ホームページテクノロジー周辺機器AIマルチモダリティが再び統合されました! Meta が自己教師ありアルゴリズム data2vec 2.0 をリリース: トレーニング効率が最大 16 倍向上!

近年の人工知能分野における進歩のほとんどは、BERT で提案された MLM (マスク言語モデル) などの自己教師あり学習によって推進されています。テキスト内の単語をマスキングすることで、ラベルのない大量のテキスト データをモデルのトレーニングに使用できるようになり、それ以来、大規模な事前トレーニング モデルの新時代が開かれました。ただし、自己教師あり学習アルゴリズムには明らかな制限もあり、通常、単一モダリティ (画像、テキスト、音声など) のデータにのみ適しており、大量のデータから学習するには大量の計算能力が必要です。対照的に、人間は現在の AI モデルよりもはるかに効率的に学習し、さまざまな種類のデータから学習できます。

2022 年 1 月、Meta AI は自己教師あり学習フレームワーク data2vec # をリリースしました。 ## では、3 つのモーダル データ (音声、ビジュアル、テキスト) をフレームワークを通じて統合し、マルチモダリティを統合する傾向があります。 最近 Meta AI がリリースされました data2cec 2.0 バージョン 、主にパフォーマンスの点で前世代が向上しています。同じ精度で、トレーニング速度は他のアルゴリズムよりも最大 16 倍速くなります。 ################################################ #紙リンク:

https://ai.facebook.com/research/publications/e

マルチモダリティが再び統合されました! Meta が自己教師ありアルゴリズム data2vec 2.0 をリリース: トレーニング効率が最大 16 倍向上!ビジョンスピーチと言語のためのコンテキスト化されたターゲット表現による効率的な自己教師あり学習

コードリンク: https://github.com/faceboo kresearch/fairseq/tree/main/examples/data2vec

data2vec 1.0現時点で最も多くのことが言われています機械学習モデルは依然として教師あり学習モデルに基づいており、ターゲット データにラベルを付けるには専門のアノテーターが必要ですが、一部のタスク (地球上の何千もの人間の言語など) では、ラベル付きデータを収集するのは現実的ではありません。 対照的に、自己教師あり学習では、何が正しくて何が間違っているかをモデルに伝える必要はありませんが、機械が学習できるようになります。世界、音声とテキストの構造を観察することによるイメージ。

関連する研究結果は、音声 (wave2vec 2.0 など)、コンピュータ ビジョン (マスクされたオートエンコーダなど)、自然言語処理 (BERT など) を促進してきました。他の分野。

data2vec の主なアイデアは、まず教師ネットワークを構築し、最初に画像、テキスト、または音声からターゲット表現を計算することです。 。次に、データがマスクされて入力の一部がわかりにくくなり、このプロセスが生徒ネットワークで繰り返され、教師モデルによって取得された表現が予測されます。

言い換えると、スチューデント モデルは、「不完全な入力情報」を受け入れながら、「完全な入力データ」の表現のみを予測できます。 2 つのモデルの一貫性を確保するために、2 つのモデルのパラメーターは共有されますが、教師モデルのパラメーターはトレーニングの初期段階でより速く更新されます。 実験結果に関しては、data2vec は音声、視覚、テキスト、その他のタスクにおいてベースライン モデルと比較してパフォーマンスが大幅に向上しました。

data2vec 2.0

data2vec は、一般的な自己教師あり学習フレームワークは、音声、視覚、言語という 3 つのモーダル データの学習を統合します。data2vec2.0 によって解決される主な問題点は、自己教師ありモデルの構築にはトレーニングを完了するために大量の GPU コンピューティング パワーが必要であることです。元の data2vec アルゴリズムと同様に、data2vec 2.0 は、画像内のピクセル、テキスト セグメント内の単語、または音声を予測するのではなく、データのコンテキスト化された表現、またはニューラル ネットワークのレイヤーを予測します。

マルチモダリティが再び統合されました! Meta が自己教師ありアルゴリズム data2vec 2.0 をリリース: トレーニング効率が最大 16 倍向上!

他の一般的なアルゴリズムとは異なり、これらのいわゆるターゲット表現はコンテキストに依存します。つまり、アルゴリズムは全体をトレーニング例が考慮されます。

たとえば、モデルは、bank を含む文全体に基づいて単語 Bank の表現を学習し、その推定を容易にします。言葉の正しい意味。具体的に「金融機関」を指すのか「川沿いの土地」を指すのかを区別するなど。研究者らは、コンテキスト化された目標により、より充実した学習タスクが促進され、data2vec 2.0 が他のアルゴリズムよりも速く学習できるようになると考えています。

data2vec 2.0 は、次の 3 つの方法で元の data2vec アルゴリズムの効率を向上させます。 #1. 特定のトレーニング例のターゲット表現を構築し、その表現をマスクされたバージョンで再利用します。マスクされたバージョンでは、トレーニング例のさまざまな部分がランダムに非表示になります。両方のバージョンで学習した表現はスチューデント モデルに入力され、異なるマスク バージョンに対して同じコンテキスト化されたターゲット表現を予測し、ターゲット表現の作成に必要な計算量を効果的に償却します。

2. マスクされたオートエンコーダー (MAE) と同様に、学生モデルのエンコーダー ネットワークは機能しません。トレーニングの例 (空白)。画像実験では、セクションの約 80% が空白であったため、計算サイクルが大幅に節約されました。

3. Transformer ネットワークに依存せず、多層畳み込みネットワークに依存する、より効果的なデコーダー モデルを使用します。 。

実験セクションdata2vec 2.0 が data2vec や他の同様のアルゴリズムに比べてどれほど効率的であるかをより直観的に理解するために、コンピューター ビジョンの研究者は、 、音声、テキストタスクに関連するベンチマークについて広範な実験が行われています。実験では、最終的な精度とモデルの事前トレーニングに必要な時間を主に考慮し、実験環境は同じハードウェア (GPU モデル、番号など) 上でアルゴリズムの実行速度を測定しました。

コンピュータ ビジョン タスクについて、研究者らは、モデルが画像を学習できるデータセットである標準 ImageNet-1K 画像分類ベンチマークで data2vec 2.0 を評価しました。表現。実験結果では、data2vec 2.0 はマスクされたオートエンコーダー (MAE) の精度と同等でありながら、16 倍高速であることが示されています。

マルチモダリティが再び統合されました! Meta が自己教師ありアルゴリズム data2vec 2.0 をリリース: トレーニング効率が最大 16 倍向上!

data2vec 2.0 アルゴリズムの実行時間を長くし続けると、より高い精度を達成でき、それでも MAE よりも高速になります。

音声タスクに関して、研究者はLibriLanguage音声認識ベンチマークでテストしたところ、wave2vec 2.0よりも11倍以上正確でした。

マルチモダリティが再び統合されました! Meta が自己教師ありアルゴリズム data2vec 2.0 をリリース: トレーニング効率が最大 16 倍向上!

自然言語処理タスクについて、研究者は一般言語理解評価 (GLUE) ベンチマークで data2vec 2.0 を評価し、トレーニング時間の半分しか必要としませんでした。 BERT を再実装した RoBERTa と同じ精度を達成できます。

マルチモダリティが再び統合されました! Meta が自己教師ありアルゴリズム data2vec 2.0 をリリース: トレーニング効率が最大 16 倍向上!


以上がマルチモダリティが再び統合されました! Meta が自己教師ありアルゴリズム data2vec 2.0 をリリース: トレーニング効率が最大 16 倍向上!の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

声明
この記事は51CTO.COMで複製されています。侵害がある場合は、admin@php.cn までご連絡ください。
Gemma Scope:AI'の思考プロセスを覗くためのGoogle'の顕微鏡Gemma Scope:AI'の思考プロセスを覗くためのGoogle'の顕微鏡Apr 17, 2025 am 11:55 AM

ジェマの範囲で言語モデルの内部の仕組みを探る AI言語モデルの複雑さを理解することは、重要な課題です。 包括的なツールキットであるGemma ScopeのGoogleのリリースは、研究者に掘り下げる強力な方法を提供します

ビジネスインテリジェンスアナリストは誰で、どのようになるか?ビジネスインテリジェンスアナリストは誰で、どのようになるか?Apr 17, 2025 am 11:44 AM

ビジネスの成功のロック解除:ビジネスインテリジェンスアナリストになるためのガイド 生データを組織の成長を促進する実用的な洞察に変換することを想像してください。 これはビジネスインテリジェンス(BI)アナリストの力です - GUにおける重要な役割

SQLに列を追加する方法は? - 分析VidhyaSQLに列を追加する方法は? - 分析VidhyaApr 17, 2025 am 11:43 AM

SQLの変更テーブルステートメント:データベースに列を動的に追加する データ管理では、SQLの適応性が重要です。 その場でデータベース構造を調整する必要がありますか? Alter Tableステートメントはあなたの解決策です。このガイドの詳細は、コルを追加します

ビジネスアナリストとデータアナリストビジネスアナリストとデータアナリストApr 17, 2025 am 11:38 AM

導入 2人の専門家が重要なプロジェクトで協力している賑やかなオフィスを想像してください。 ビジネスアナリストは、会社の目標に焦点を当て、改善の分野を特定し、市場動向との戦略的整合を確保しています。 シム

ExcelのCountとCountaとは何ですか? - 分析VidhyaExcelのCountとCountaとは何ですか? - 分析VidhyaApr 17, 2025 am 11:34 AM

Excelデータカウントと分析:カウントとカウントの機能の詳細な説明 特に大規模なデータセットを使用する場合、Excelでは、正確なデータカウントと分析が重要です。 Excelは、これを達成するためにさまざまな機能を提供し、CountおよびCounta関数は、さまざまな条件下でセルの数をカウントするための重要なツールです。両方の機能はセルをカウントするために使用されますが、設計ターゲットは異なるデータ型をターゲットにしています。 CountおよびCounta機能の特定の詳細を掘り下げ、独自の機能と違いを強調し、データ分析に適用する方法を学びましょう。 キーポイントの概要 カウントとcouを理解します

ChromeはAIと一緒にここにいます:毎日何か新しいことを体験してください!!ChromeはAIと一緒にここにいます:毎日何か新しいことを体験してください!!Apr 17, 2025 am 11:29 AM

Google Chrome'sAI Revolution:パーソナライズされた効率的なブラウジングエクスペリエンス 人工知能(AI)は私たちの日常生活を急速に変換しており、Google ChromeはWebブラウジングアリーナで料金をリードしています。 この記事では、興奮を探ります

ai' s Human Side:Wellbeing and the Quadruple bottuntai' s Human Side:Wellbeing and the Quadruple bottuntApr 17, 2025 am 11:28 AM

インパクトの再考:四重材のボトムライン 長い間、会話はAIの影響の狭い見方に支配されており、主に利益の最終ラインに焦点を当てています。ただし、より全体的なアプローチは、BUの相互接続性を認識しています

5ゲームを変える量子コンピューティングの使用ケースあなたが知っておくべきである5ゲームを変える量子コンピューティングの使用ケースあなたが知っておくべきであるApr 17, 2025 am 11:24 AM

物事はその点に向かって着実に動いています。量子サービスプロバイダーとスタートアップに投資する投資は、業界がその重要性を理解していることを示しています。そして、その価値を示すために、現実世界のユースケースの数が増えています

See all articles

ホットAIツール

Undresser.AI Undress

Undresser.AI Undress

リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover

AI Clothes Remover

写真から衣服を削除するオンライン AI ツール。

Undress AI Tool

Undress AI Tool

脱衣画像を無料で

Clothoff.io

Clothoff.io

AI衣類リムーバー

AI Hentai Generator

AI Hentai Generator

AIヘンタイを無料で生成します。

ホットツール

MinGW - Minimalist GNU for Windows

MinGW - Minimalist GNU for Windows

このプロジェクトは osdn.net/projects/mingw に移行中です。引き続きそこでフォローしていただけます。 MinGW: GNU Compiler Collection (GCC) のネイティブ Windows ポートであり、ネイティブ Windows アプリケーションを構築するための自由に配布可能なインポート ライブラリとヘッダー ファイルであり、C99 機能をサポートする MSVC ランタイムの拡張機能が含まれています。すべての MinGW ソフトウェアは 64 ビット Windows プラットフォームで実行できます。

EditPlus 中国語クラック版

EditPlus 中国語クラック版

サイズが小さく、構文の強調表示、コード プロンプト機能はサポートされていません

SublimeText3 中国語版

SublimeText3 中国語版

中国語版、とても使いやすい

SublimeText3 Linux 新バージョン

SublimeText3 Linux 新バージョン

SublimeText3 Linux 最新バージョン

ゼンドスタジオ 13.0.1

ゼンドスタジオ 13.0.1

強力な PHP 統合開発環境