パラメータ数は1/50、Metaが110億パラメータモデルをリリース、Google PaLMを破る-AI-php.cn

ホームページ

テクノロジー周辺機器

パラメータ数は1/50、Metaが110億パラメータモデルをリリース、Google PaLMを破る

王林

Apr 12, 2023 pm 06:10 PM

パラメータモデル

大規模言語モデル (LLM) は、少数の例で新しいタスクを学習したり、単純な命令だけで学習したりできる小規模なサンプル学習器として理解できます。モデルパラメーターの数は、言語モデルのサイズに応じてスケーリングされます。トレーニングデータは、モデルの一般化能力の鍵となります。 LLM のこの向上は、コンピューティング能力とストレージ機能の向上によるものです。直感的には、推論機能が向上すると一般化が向上し、サンプル学習が少なくなりますが、効果的な小規模サンプル学習にモデルパラメーターに関する広範な知識がどの程度必要かは不明です。

これまでのところ、検索強化モデルは、説得力のある小サンプル学習機能を実証していません。論文の中で、Meta AI Researchやその他の機関の研究者らは、小規模サンプル学習ではモデルがパラメータに大量の情報を保存する必要があるのか、またストレージを一般化から切り離すことができるのかどうかを尋ねている。彼らは、現在の他の強力な小サンプル学習モデルよりもパラメーターの数が少ないにもかかわらず、強力な小サンプル学習機能を備えた検索強化言語モデルの一種である Atlas を提案しました。

モデルはノンパラメトリックストレージを使用します。つまり、大規模な外部の非静的知識ソースに基づくニューラルリトリーバーを使用して、パラメトリック言語モデルを強化します。このようなアーキテクチャは、ストレージ機能に加えて、適応性、解釈可能性、効率性の面でも優れているため魅力的です。

パラメータ数は1/50、Metaが110億パラメータモデルをリリース、Google PaLMを破る

論文アドレス: https://arxiv.org/pdf/2208.03299.pdf

Atlas 関連ドキュメントの取得は、Contriever デュアルエンコーダアーキテクチャに基づいたユニバーサル密度取得ツールです。ファイルを取得する際、現在のコンテキストに基づいて関連ファイルを取得します。取得されたドキュメントと現在のコンテキストは、Fusion-in-Decoder アーキテクチャを使用するシーケンスツーシーケンスモデルによって処理され、対応する出力が生成されます。

著者らは、質問応答やファクトチェックなど、さまざまな下流タスクにおける小規模データセットでの Atlas トレーニングのパフォーマンスに対するさまざまな手法の影響を研究しています。研究では、共同事前トレーニングコンポーネントが小規模サンプルのパフォーマンスにとって重要であることが判明し、著者らは多くの既存および新規の事前トレーニングタスクとスキームを評価しました。Atlas は、小規模サンプル環境とリソースが豊富な環境の両方で強力なダウンストリームパフォーマンスを発揮します。

Atlas は、わずか 110 億のパラメータで、64 のトレーニングサンプルを使用した NaturalQuestions (NQ) で 42.4% の精度を達成しました。これは、5400 億のパラメータモデル PaLM (39.6%) よりも 3 パーセント近く高い精度です。、フルデータセット設定 (フル) では 64.0% の精度に達します。

パラメータ数は1/50、Metaが110億パラメータモデルをリリース、Google PaLMを破る

Yann LeCun 氏は次のように述べています。Q&A と Facts Beats で、Atlas は大きすぎない言語モデル (11B パラメータ)検証における「偉い人」。 Atlas の主な違いは、コーパスからファクトを取得できることです。

パラメータ数は1/50、Metaが110億パラメータモデルをリリース、Google PaLMを破る

メソッドの概要

Atlas はテキスト間フレームワークに従います。これは、すべてのタスクの一般的なフレームワークが次のとおりであることを意味します。システムはテキストクエリを入力として受け取り、テキスト出力を生成します。たとえば、質問と回答のタスクの場合、クエリは質問に対応し、モデルは回答を生成する必要があります。分類タスクの場合、クエリはテキスト入力に対応し、モデルはクラスラベル、つまりラベルに対応する単語を生成します。図 2 の KILT ベンチマークは、ダウンストリームタスクの例をさらに示しています。多くの自然言語処理タスクには知識が必要です。Atlas は、小規模なサンプルシナリオで学習するモデルの能力にとって検索が重要である可能性があるため、標準的なテキスト間モデルを検索で強化することを目指しています。

パラメータ数は1/50、Metaが110億パラメータモデルをリリース、Google PaLMを破る

アーキテクチャ

Atlas モデルは、レトリバーと言語という 2 つのサブモデルに基づいています。モデル。質問応答から Wikipedia 記事の生成までのタスクを実行するとき、モデルはまず検索ツールを介して大規模なテキストコーパスから上位 k 個の関連文書を取得します。これらのドキュメントはクエリとともに言語モデルへの入力として与えられ、出力が生成されます。レトリーバーと言語モデルは両方とも、事前にトレーニングされたトランスフォーマーネットワークに基づいています。これについては、以下で詳しく説明します。

取得: Atlas の取得モジュールは、連続密度埋め込みに基づく情報取得テクノロジである Contriever に基づいています。 Contriever は、クエリとドキュメントがトランスフォーマーエンコーダーによって独立して埋め込まれるデュアルエンコーダーアーキテクチャを使用しています。平均プーリングは最後の層の出力に適用され、各クエリまたはドキュメントのベクトル表現が取得されます。次に、クエリと各ドキュメント間の相互埋め込みの内積を計算することにより、それらの類似性スコアが取得されます。 Contriever モデルは MoCo 対比損失を使用して事前トレーニングされており、教師なしデータのみを使用します。密度レトリーバーの利点の 1 つは、勾配降下法や蒸留などの標準的な手法を使用して、ドキュメントの注釈なしでクエリエンコーダーとドキュメントエンコーダーの両方をトレーニングできることです。

言語モデル: 言語モデルに関して、Atlas は T5 シーケンスツーシーケンスアーキテクチャに依存しています。このモデルは、シーケンスツーシーケンスモデルの Fusion-in-Decoder 修正にも依存しており、エンコーダー内で各ドキュメントを個別に処理します。次にモデルは、さまざまなドキュメントに対応するエンコーダーの出力を連結し、デコーダー内の単一シーケンスに対してクロスアテンションを実行します。モデルは、クエリをエンコーダー内の各ドキュメントに接続します。言語モデルで取得したドキュメントを処理するもう 1 つの方法は、クエリとすべてのドキュメントを連結し、この長いシーケンスをモデルへの入力として使用することです。しかし、この方法は拡張性が低く、つまり、エンコーダーのセルフアテンションメカニズムにより時間計算量が O(n^2) になるため、ドキュメントの数が増加しても拡張できなくなります (n はドキュメントの数です)。書類）。

実験結果

著者らは、NaturalQuestions と TriviaQA という 2 つのオープンドメインの質問回答ベンチマークで Atlas を評価しています。また、64 個のサンプルからなる小規模なサンプルデータセットと完全なトレーニングセットを使用して、以前の研究と比較しました。詳細な比較を以下の表に示します。

パラメータ数は1/50、Metaが110億パラメータモデルをリリース、Google PaLMを破る

NaturalQuestions と TriviaQA を使用した 64 ショットの質問応答で最高のパフォーマンスを発揮します。特に、より大きなモデル (PaLM) や、より多くのトレーニング計算を必要とするモデル (Chinchilla) よりも優れたパフォーマンスを発揮します。また、Atlas は、NaturalQuestions の精度を 55.9% から 60.4% に向上させるなど、トレーニングセット全体を使用したときに最適な結果を達成することもできます。この結果は、CCNet と 2021 年 12 月の Wikipedia コーパスから構成されるインデックスを使用して、Atlas のデフォルト設定の下で取得されました。以下の表は、ファクトチェックデータセット FEVER のテスト結果を示しています。

パラメータ数は1/50、Metaが110億パラメータモデルをリリース、Google PaLMを破る

Atlas 64 ショットの場合、トレーニングサンプルは完全なトレーニングセットからサンプリングされます。 Atlas は 64.3% の精度を達成しました。 15 ショットの場合、各クラスから 5 つのサンプルが均一にサンプリングされており、Gopher の結果と比較すると、Atlas の精度は 56.2% で、Gopher よりも 5.1 ポイント高くなります。 Atlas モデルは完全なトレーニングセットで微調整され、ProoFVer よりも 1.5% 低い 78% の精度を達成しました。 ProoFVer は、特殊なアーキテクチャを使用して文レベルの注釈を付けて取得者をトレーニングし、FEVER で公開されている Wikipedia コーパスによって提供されますが、Atlas は CCNet と 2021 年 12 月の Wikipedia ダンプから取得します。 FEVER Wikipedia コーパスからなるインデックスを与えると、Atlas は 80.1% という最適レベルを達成しました。

Atlas のパフォーマンスを検証するために、Atlas は、いくつかの異なる知識集約型タスクで構成されるベンチマークである KILT で評価されました。以下の表は、テストセットの結果を示しています。

パラメータ数は1/50、Metaが110億パラメータモデルをリリース、Google PaLMを破る

Atlas 64 ショットは、実験においてランダムアルゴリズムをはるかに上回り、リーダーボードのいくつかの微調整されたアルゴリズムにも匹敵しました。モデルは同等です。たとえば、FEVER では、Atlas 64 ショットは Sphere、SEAL、Re2G に 2 ～ 2.5 ポイントの差しかありませんが、ゼロショット RE では、Sphere と SEAL を上回ります。データセット全体では、Atlas のパフォーマンスは 3 つのデータセットで最高のモデルの 3% 以内ですが、残りの 5 つのデータセットでは最高です。

以上がパラメータ数は1/50、Metaが110億パラメータモデルをリリース、Google PaLMを破るの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

声明

この記事は51CTO.COMで複製されています。侵害がある場合は、admin@php.cn までご連絡ください。

Gemma Scope：AI＆＃039;の思考プロセスを覗くためのGoogle＆＃039;の顕微鏡Apr 17, 2025 am 11:55 AM

ジェマの範囲で言語モデルの内部の仕組みを探る AI言語モデルの複雑さを理解することは、重要な課題です。包括的なツールキットであるGemma ScopeのGoogleのリリースは、研究者に掘り下げる強力な方法を提供します

ビジネスインテリジェンスアナリストは誰で、どのようになるか？Apr 17, 2025 am 11:44 AM

ビジネスの成功のロック解除：ビジネスインテリジェンスアナリストになるためのガイド生データを組織の成長を促進する実用的な洞察に変換することを想像してください。これはビジネスインテリジェンス（BI）アナリストの力です - GUにおける重要な役割

SQLに列を追加する方法は？ - 分析VidhyaApr 17, 2025 am 11:43 AM

SQLの変更テーブルステートメント：データベースに列を動的に追加するデータ管理では、SQLの適応性が重要です。その場でデータベース構造を調整する必要がありますか？ Alter Tableステートメントはあなたの解決策です。このガイドの詳細は、コルを追加します

ビジネスアナリストとデータアナリストApr 17, 2025 am 11:38 AM

導入 2人の専門家が重要なプロジェクトで協力している賑やかなオフィスを想像してください。ビジネスアナリストは、会社の目標に焦点を当て、改善の分野を特定し、市場動向との戦略的整合を確保しています。シム

ExcelのCountとCountaとは何ですか？ - 分析VidhyaApr 17, 2025 am 11:34 AM

Excelデータカウントと分析：カウントとカウントの機能の詳細な説明特に大規模なデータセットを使用する場合、Excelでは、正確なデータカウントと分析が重要です。 Excelは、これを達成するためにさまざまな機能を提供し、CountおよびCounta関数は、さまざまな条件下でセルの数をカウントするための重要なツールです。両方の機能はセルをカウントするために使用されますが、設計ターゲットは異なるデータ型をターゲットにしています。 CountおよびCounta機能の特定の詳細を掘り下げ、独自の機能と違いを強調し、データ分析に適用する方法を学びましょう。キーポイントの概要カウントとcouを理解します

ChromeはAIと一緒にここにいます：毎日何か新しいことを体験してください!!Apr 17, 2025 am 11:29 AM

Google Chrome'sAI Revolution：パーソナライズされた効率的なブラウジングエクスペリエンス人工知能（AI）は私たちの日常生活を急速に変換しており、Google ChromeはWebブラウジングアリーナで料金をリードしています。この記事では、興奮を探ります

ai＆＃x27; s Human Side：Wellbeing and the Quadruple bottuntApr 17, 2025 am 11:28 AM

インパクトの再考：四重材のボトムライン長い間、会話はAIの影響の狭い見方に支配されており、主に利益の最終ラインに焦点を当てています。ただし、より全体的なアプローチは、BUの相互接続性を認識しています

5ゲームを変える量子コンピューティングの使用ケースあなたが知っておくべきであるApr 17, 2025 am 11:24 AM

物事はその点に向かって着実に動いています。量子サービスプロバイダーとスタートアップに投資する投資は、業界がその重要性を理解していることを示しています。そして、その価値を示すために、現実世界のユースケースの数が増えています

See all articles

ホットAIツール

Undresser.AI Undress

リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover

写真から衣服を削除するオンライン AI ツール。

Undress AI Tool

脱衣画像を無料で

Clothoff.io

AI衣類リムーバー

AI Hentai Generator

AIヘンタイを無料で生成します。

ホットツール

MinGW - Minimalist GNU for Windows

このプロジェクトは osdn.net/projects/mingw に移行中です。引き続きそこでフォローしていただけます。 MinGW: GNU Compiler Collection (GCC) のネイティブ Windows ポートであり、ネイティブ Windows アプリケーションを構築するための自由に配布可能なインポートライブラリとヘッダーファイルであり、C99 機能をサポートする MSVC ランタイムの拡張機能が含まれています。すべての MinGW ソフトウェアは 64 ビット Windows プラットフォームで実行できます。