検索
ホームページテクノロジー周辺機器AI史上最大の ViT を便利にトレーニングしましたか? Google、ビジュアル言語モデルPaLIをアップグレード:100以上の言語をサポート

近年の自然言語処理の進歩は、主に 大規模言語モデルによるものです。新しいモデルがリリースされるたびに、パラメーターとトレーニング データの量が新たな最高値に達し、また、既存のベンチマークランキングを大虐殺!

たとえば、今年 4 月 、Google は 5,400 億パラメータ言語モデル PaLM (Pathways Language Model) を言語モデルでリリースしました。 PaLM は一連の評価において人間を超えることに成功しており、特に 少数ショットの小規模サンプル学習シナリオ で優れたパフォーマンスを示しており、PaLM は次世代言語モデルの開発方向と考えられています。

史上最大の ViT を便利にトレーニングしましたか? Google、ビジュアル言語モデルPaLIをアップグレード:100以上の言語をサポート

同様に、視覚言語モデル実は強い努力は奇跡を生み出すことができます 、モデルのサイズを 大きくすることでパフォーマンスを向上させることができます。

もちろん、 がマルチタスク のための単なる視覚言語モデルである場合、それは明らかにあまり汎用的ではなく、 複数の入力をサポートする必要があります。言語 出力するだけです。

最近、Google は、PaLM 拡張機能を、多言語と画像理解の両方を備えた PALI (Pathways Language and Image model) にアップグレードしました。機能、および は 100 の言語をサポート し、視覚的な質問応答、画像キャプション (画像キャプション)、物体検出、画像分類、OCR など、視覚、言語、マルチモーダルにわたるさまざまな画像および言語アプリケーションを実行します。 、文章推論など。

史上最大の ViT を便利にトレーニングしましたか? Google、ビジュアル言語モデルPaLIをアップグレード:100以上の言語をサポート

紙のリンク: https://arxiv.org/abs/2209.06794 モデルは公開画像コレクションを使用してトレーニングされます。これには、

109 言語で自動的にクロールされる注釈が含まれます

。この記事では WebLI データ セットとも呼ばれます。 WebLI で事前トレーニングされた PaLI モデルは、COCO-Captions、TextCaps、VQAv2、OK-VQA、TextVQA などの複数の画像および言語ベンチマークで最先端のパフォーマンスを実現します。 、などなど、前モデルの多言語ビジュアルキャプションおよびビジュアル質問応答のベンチマークも上回りました。

モデル アーキテクチャ

PALI の目標の 1 つは、

言語

および ビジュアル モデルを のパフォーマンスで研究することです。 の接続、特に言語イメージ モデルのスケーラビリティは同じですか? したがって、モデルのアーキテクチャ設計は、主に実験の利便性、特に再利用性と拡張性を考慮して非常にシンプルです。

史上最大の ViT を便利にトレーニングしましたか? Google、ビジュアル言語モデルPaLIをアップグレード:100以上の言語をサポートモデルは、入力テキストを処理する Transformer エンコーダーと、出力テキストを生成する自己回帰 Transformer デコーダーで構成されます。

画像を処理する場合、Transformer エンコーダーへの入力には、ViT によって処理された画像を表すビジュアル ワードも含まれます。

PaLI モデルの重要な設計は再利用であり、研究者らは、以前にトレーニングされた単一モーダル視覚および言語モデル (mT5-XXL や大きな ViT など) の重みをシードとして使用しました。この再利用により、シングルモーダル トレーニングの機能が引き継がれるだけでなく、計算コストも節約されます。

モデルのビジュアル コンポーネントは、

これまでで最大の ViT アーキテクチャである ViT-e

を使用しています。これは 18 億パラメータの ViT-G モデルと同じ構造を持ち、同じトレーニング パラメーターを使用する場合の違いは、40 億パラメーター に拡張されることです。 スケーリング規則は視覚分野と言語分野の両方で研究されていますが、視覚と言語の結合モデルにおけるスケーリング動作についてはあまり議論されていません。視覚的なバックボーン モデルは、分類タスクのゲインの飽和につながる可能性があります。

研究者らはこれをさらに確認しており、ViT-e は ImageNet 上で ViT-G よりわずかに優れているだけであることが観察できますが、ViT-e は PaLI の視覚言語タスクにおいて大幅な改善を示しています。たとえば、ViT-e は、COCO 字幕タスクにおいて ViT-G を CIDEr ポイント 3 ポイント近く上回っています。タスクではViT-Gより3ポイント多い。これは、将来的に視覚言語タスクでより大きな ViT スケルトン モデルを使用できる余地も示唆しています。

史上最大の ViT を便利にトレーニングしましたか? Google、ビジュアル言語モデルPaLIをアップグレード:100以上の言語をサポート

研究者らは、事前トレーニングされた mT5-Large (10 億パラメータ) を使用して、言語モデリング コンポーネント として mT5 バックボーンを採用しました。および mT5-XXL (130 億パラメータ) を使用して、PaLI の言語エンコーダ/デコーダを初期化し、純粋な言語理解タスクを含む多くの言語タスクのハイブリッド トレーニングを継続します。これは、mT5 の言語理解と生成能力の壊滅的な忘れを避けるのにも役立ちます。

ついに、サイズの異なる 3 つの PALI モデルが完成しました。

史上最大の ViT を便利にトレーニングしましたか? Google、ビジュアル言語モデルPaLIをアップグレード:100以上の言語をサポート

109 言語のデータセット

深層学習に関連する拡張研究では、モデルが大きくなるほど、より多くのトレーニング データが必要になることが示されています。セットも大きくなりました。

そこで、言語と画像の事前トレーニング モデルの可能性を包括的に研究して公開するために、研究者はインターネットから大量の画像データとテキスト データをクロールし、新しいデータセットを構築しました。 WebLI には、109 言語の 120 億の代替テキストと 100 億の画像が含まれています。

史上最大の ViT を便利にトレーニングしましたか? Google、ビジュアル言語モデルPaLIをアップグレード:100以上の言語をサポート

研究者らは、注釈にネットワーク テキストを使用することに加えて、クラウド ビジョン API を使用して画像の OCR 認識を実行し、290 億枚の画像を取得しました。 -データペアのOCR。

史上最大の ViT を便利にトレーニングしましたか? Google、ビジュアル言語モデルPaLIをアップグレード:100以上の言語をサポート

ニア重複を使用して、68 の一般的なビジュアルおよびビジュアル言語データセットのトレーニング、検証、テスト部分から画像の重複を排除し、ダウンストリームでのデータ漏洩を回避します。評価タスク。

史上最大の ViT を便利にトレーニングしましたか? Google、ビジュアル言語モデルPaLIをアップグレード:100以上の言語をサポート

データ品質をさらに向上させるために、研究者は「画像と代替テキスト」のクロスモーダル類似性に基づいてスコアリングし、調整することもあります。しきい値を設定し、最終的に画像の 10% のみを保持します。PaLI

大規模モデルのトレーニング

視覚言語タスク以来、合計 10 億枚の画像がトレーニングに使用されますはマルチモーダルであるため、モデルには複数のセマンティック処理機能があり、さまざまな目標を持つ必要があります。たとえば、一部のタスクではタスクを正確に解決するためにオブジェクトのローカルな位置特定が必要ですが、他のタスクではよりグローバルな意味情報が必要になる場合があります。

同様に、言語タスクによっては長い回答が必要な場合もあれば、簡潔な回答が必要な場合もあります。

これらの一貫性のない目標をすべて解決するために、研究者は WebLI の豊富な事前トレーニング データを活用し、さまざまな下流アプリケーション用のモデルを準備するための事前トレーニング タスク ミックスチャを導入しました。

モデルをより多用途にしてさまざまなタスクを解決できるようにするために、作成者はすべてのタスクを単一の共通 A​​PI (入力: 画像テキスト、出力: テキスト) に分類し、複数の API を作成しました。画像 言語タスク間で知識の共有が可能であり、事前トレーニング設定でも共有されます。

事前トレーニングに使用されるターゲットは、重み付けされたミックスとして同じ API に投影されます。その目的は、新しいタスクを実行するようにモデルをトレーニングしながら、モデル コンポーネントを再利用する機能を維持することです。 。

モデルはオープン ソースの T5X および Flaxformer フレームワークを使用し、JAX の Flax でトレーニングされています。ViT-e のビジュアル部分は、オープン ソースの BigVision フレームワークを使用して言語のワード ベクトルを生成しますパートとビジュアル パート。パッチ ベクトルはカスケードされ、マルチモーダル エンコーダ/デコーダの入力として共同使用されます。エンコーダは mT5-XXL 事前トレーニングを使用して初期化されます。 PaLI のトレーニング プロセス中、視覚コンポーネントの重みは凍結され、マルチモーダル エンコーダ/デコーダの重みのみが更新されます。

実験部分では、研究者らは共通の視覚言語ベンチマークでPaLIを比較し、PaLIモデルはこれらのタスクに関して最先端の結果を達成し、以前の文献で提案された非常に大規模な結果をも上回りました。モデル。

史上最大の ViT を便利にトレーニングしましたか? Google、ビジュアル言語モデルPaLIをアップグレード:100以上の言語をサポート

たとえば、一部の VQA タスクや画像キャプション タスクでは、170 億パラメータの PALI は、800 億パラメータの Flamingo モデルよりも優れたパフォーマンスを発揮します。

また、PALI は単一言語または単一視覚タスクでも優れたパフォーマンスを維持しますが、これは PALI の主なトレーニング目標ではありません。

画像モデルと言語モデルのコンポーネントがモデル拡張に関してどのように相互作用するのか、またモデルがどこで最大の利益をもたらすのかについても調査します。

最終的な結論は、これら 2 つのコンポーネントのジョイント スケーリング (スケーリング) が、特に比較的少数のパラメーターを必要とするビジュアル コンポーネントの場合に最高のパフォーマンスをもたらすということです。スケーリングは重要ですが、スケーリングも重要です。多言語タスクのパフォーマンスを向上させます。

史上最大の ViT を便利にトレーニングしましたか? Google、ビジュアル言語モデルPaLIをアップグレード:100以上の言語をサポート

PaLI をベンチマーク Crossmodal-3600 で 35 言語で評価した結果、多言語タイトル タスクでは拡張機能の恩恵がさらに大きいことがわかりました。 PaLIモデルのものが多数あります。

史上最大の ViT を便利にトレーニングしましたか? Google、ビジュアル言語モデルPaLIをアップグレード:100以上の言語をサポート

#大規模な言語および画像モデルにおける不当なバイアスの作成または強化を回避するには、使用されるデータと、モデルがそのデータをどのように使用するかを理解する必要があります。透明性を維持し、モデルの公平性をテストし、責任あるデータ分析を実施します。この記事では、データ カードとモデル カードも提供します

史上最大の ViT を便利にトレーニングしましたか? Google、ビジュアル言語モデルPaLIをアップグレード:100以上の言語をサポート

以上が史上最大の ViT を便利にトレーニングしましたか? Google、ビジュアル言語モデルPaLIをアップグレード:100以上の言語をサポートの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

声明
この記事は51CTO.COMで複製されています。侵害がある場合は、admin@php.cn までご連絡ください。
迅速なエンジニアリングにおける思考のグラフは何ですか迅速なエンジニアリングにおける思考のグラフは何ですかApr 13, 2025 am 11:53 AM

導入 迅速なエンジニアリングでは、「思考のグラフ」とは、グラフ理論を使用してAIの推論プロセスを構造化および導く新しいアプローチを指します。しばしば線形sを含む従来の方法とは異なります

Genaiエージェントとの電子メールマーケティングを組織に最適化しますGenaiエージェントとの電子メールマーケティングを組織に最適化しますApr 13, 2025 am 11:44 AM

導入 おめでとう!あなたは成功したビジネスを運営しています。ウェブページ、ソーシャルメディアキャンペーン、ウェビナー、会議、無料リソース、その他のソースを通じて、毎日5000の電子メールIDを収集します。次の明白なステップはです

Apache Pinotによるリアルタイムアプリのパフォーマンス監視Apache Pinotによるリアルタイムアプリのパフォーマンス監視Apr 13, 2025 am 11:40 AM

導入 今日のペースの速いソフトウェア開発環境では、最適なアプリケーションパフォーマンスが重要です。応答時間、エラーレート、リソース利用などのリアルタイムメトリックを監視することで、メインに役立ちます

ChatGptは10億人のユーザーにヒットしますか? 「わずか数週間で2倍になりました」とOpenai CEOは言いますChatGptは10億人のユーザーにヒットしますか? 「わずか数週間で2倍になりました」とOpenai CEOは言いますApr 13, 2025 am 11:23 AM

「ユーザーは何人いますか?」彼は突き出した。 「私たちが最後に言ったのは毎週5億人のアクティブであり、非常に急速に成長していると思います」とアルトマンは答えました。 「わずか数週間で2倍になったと言った」とアンダーソンは続けた。 「私はそのprivと言いました

PIXTRAL -12B:Mistral AI'の最初のマルチモーダルモデル-Analytics VidhyaPIXTRAL -12B:Mistral AI'の最初のマルチモーダルモデル-Analytics VidhyaApr 13, 2025 am 11:20 AM

導入 Mistralは、最初のマルチモーダルモデル、つまりPixtral-12B-2409をリリースしました。このモデルは、Mistralの120億個のパラメーターであるNemo 12bに基づいて構築されています。このモデルを際立たせるものは何ですか?これで、画像とTexの両方を採用できます

生成AIアプリケーションのエージェントフレームワーク - 分析Vidhya生成AIアプリケーションのエージェントフレームワーク - 分析VidhyaApr 13, 2025 am 11:13 AM

クエリに応答するだけでなく、情報を自律的に収集し、タスクを実行し、テキスト、画像、コードなどの複数のタイプのデータを処理するAIを搭載したアシスタントがいることを想像してください。未来的に聞こえますか?これでa

金融セクターにおける生成AIの応用金融セクターにおける生成AIの応用Apr 13, 2025 am 11:12 AM

導入 金融業界は、効率的な取引と信用の可用性を促進することにより経済成長を促進するため、あらゆる国の発展の基礎となっています。取引の容易さとクレジット

オンライン学習とパッシブアグレッシブアルゴリズムのガイドオンライン学習とパッシブアグレッシブアルゴリズムのガイドApr 13, 2025 am 11:09 AM

導入 データは、ソーシャルメディア、金融取引、eコマースプラットフォームなどのソースから前例のないレートで生成されています。この連続的な情報ストリームを処理することは課題ですが、

See all articles

ホットAIツール

Undresser.AI Undress

Undresser.AI Undress

リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover

AI Clothes Remover

写真から衣服を削除するオンライン AI ツール。

Undress AI Tool

Undress AI Tool

脱衣画像を無料で

Clothoff.io

Clothoff.io

AI衣類リムーバー

AI Hentai Generator

AI Hentai Generator

AIヘンタイを無料で生成します。

ホットツール

VSCode Windows 64 ビットのダウンロード

VSCode Windows 64 ビットのダウンロード

Microsoft によって発売された無料で強力な IDE エディター

SublimeText3 Linux 新バージョン

SublimeText3 Linux 新バージョン

SublimeText3 Linux 最新バージョン

ZendStudio 13.5.1 Mac

ZendStudio 13.5.1 Mac

強力な PHP 統合開発環境

SublimeText3 英語版

SublimeText3 英語版

推奨: Win バージョン、コードプロンプトをサポート!

AtomエディタMac版ダウンロード

AtomエディタMac版ダウンロード

最も人気のあるオープンソースエディター