メタ無制限の長文大規模モデルが登場: パラメータは 7B のみ、オープンソース-AI-php.cn

ホームページ

テクノロジー周辺機器

メタ無制限の長文大規模モデルが登場: パラメータは 7B のみ、オープンソース

WBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWB

Apr 18, 2024 pm 03:40 PM

gitmetaプロジェクト配置

Google に続いて、Meta も無限に長いコンテキストをロールするようになりました。

トランスフォーマーの二次複雑さと弱い長さの外挿により、長いシーケンスにスケールする能力が制限されます。ただし、二次解などの線形注意力や状態空間モデルはありますが、過去の経験から、トレーニング前の効率と下流のタスクの精度の点でパフォーマンスが低くなります。

最近、Google が提案した Infini-Transformer は、ストレージやコンピューティング要件を増加させることなく、Transformer ベースの大規模言語モデル (LLM) を無限に長い入力に拡張する効果的な方法を導入し、注目を集めています。

ほぼ同時に、Meta は無限長テキスト技術も提案しました。

メタ無制限の長文大規模モデルが登場: パラメータは 7B のみ、オープンソース

論文のアドレス: https://arxiv.org/pdf/2404.08801.pdf
論文タイトル: MEGALODON: 無制限のコンテキスト長による効率的な LLM の事前トレーニングと推論
コード: https://github.com/XuezheMax/megalodon

4 月 12 日に提出された論文では、メタ、南カリフォルニア大学、CMU、UCSD などの機関が、無制限のコンテキスト長で効率的なシーケンスモデリングのためのニューラルアーキテクチャである MEGALODON を紹介しました。

MEGALODON は、MEGA (ゲート付き注意付き指数移動平均) の構造をさらに開発し、その機能と安定性を向上させるために、複雑な指数移動平均 (CEMA)、タイムステップ正規化レイヤー、正規化された注意メカニズムと、2 つの特徴を持つ事前正規化された残留接続。

メタ無制限の長文大規模モデルが登場: パラメータは 7B のみ、オープンソース

LLAMA2 と直接比較すると、70 億のパラメーターと 2 兆のトレーニングトークンの規模で、MEGALODON は Transformer よりも優れた効率を達成しています。 MEGALODON のトレーニング損失は 1.70 に達します。これは、LLAMA2-7B (1.75) と 13B (1.67) の間です。 Transformers に対する MEGALODON の改良により、さまざまなタスクやモダリティにわたるさまざまなベンチマークにわたって強力なパフォーマンスが示されています。

MEGALODON は本質的に改良された MEGA アーキテクチャ (Ma et al., 2023) であり、ゲートアテンションメカニズムと古典的な指数移動平均 (EMA) 法を利用しています。大規模で長いコンテキストの事前トレーニングにおける MEGALODON の機能と効率をさらに向上させるために、著者らはさまざまな技術コンポーネントを提案しました。まず、MEGALODON は、MEGA の多次元減衰 EMA を複素領域に拡張する複素指数移動平均 (CEMA) コンポーネントを導入します。第 2 に、MEGALODON はタイムステップ正規化層を提案します。これは、グループ正規化層を自己回帰シーケンスモデリングタスクに一般化して、逐次次元に沿った正規化を可能にします。

大規模な事前トレーニングの安定性を向上させるために、MEGALODON はさらに、広く採用されている事前正規化方法と事後正規化方法を変更することにより、正規化されたアテンションと 2 ホップの残差構成を提案します。 -正規化。 MEGA チャンクで行われるように、入力シーケンスを固定チャンクに分割するだけで、MEGALODON はモデルのトレーニングと推論において線形の計算とメモリの複雑さを実現します。

LLAMA2 と直接比較すると、データと計算を制御しながら、MEGALODON-7B は、トレーニングの複雑さの点で、LLAMA2-7B のトレーニングに使用された最先端の Transformer バリアントよりも大幅に優れています。最大 2M までのさまざまなコンテキスト長での混乱やスクロールでの長いコンテキストの QA タスクを含む、長いコンテキストのモデリングに関する評価は、無限長のシーケンスをモデル化する MEGALODON の能力を実証します。 LRA、ImageNet、音声コマンド、WikiText-103、PG19 などの中小規模のベンチマークに関する追加の実験結果は、ボリュームとマルチモダリティにおける MEGALODON の機能を実証しています。

方法の紹介

まず、この記事では、MEGA (Moving Average Equipment Gated tention) アーキテクチャの主要コンポーネントを簡単にレビューし、MEGA に存在する問題について説明します。

MEGA は、EMA (指数移動平均) コンポーネントをアテンションマトリックスの計算に埋め込んで、タイムステップ次元全体にわたる誘導バイアスを組み込みます。具体的には、多次元減衰EMAは、まず行列メタ無制限の長文大規模モデルが登場: パラメータは 7B のみ、オープンソースを拡張することによって入力シーケンスXの各次元を個別にh次元に拡張し、次に減衰EMAをh次元の隠れ空間に適用します。形式は次のとおりです。

メタ無制限の長文大規模モデルが登場: パラメータは 7B のみ、オープンソース

#フルアテンションメカニズムの 2 次の複雑さを軽減するために、MEGA はクエリ、キー、および値のシーケンスを (14-16) に単純に分割します。 ) は長さ c のブロックです。 (17) の注意は各ブロックに個別に適用され、線形複雑度 O (kc^2 ) = O (nc) が得られます。

技術的に言えば、MEGA の EMA サブレイヤーは、各トークン付近のローカルコンテキスト情報をキャプチャするのに役立ち、それによってブロック境界を越えてコンテキスト内の情報が失われる問題を軽減します。 MEGA は目覚ましい結果を達成しましたが、次の問題に直面しています:

i) MEGA の EMA サブレイヤーの表現力が限られているため、ブロックレベルの注意を伴う MEGA のパフォーマンスは、完全な MEGA のパフォーマンスに依然として及ばない-注目のメガ。

ii) タスクやデータ型が異なると、正規化層、正規化モード、アテンション関数 f (・) など、最終的な MEGA アーキテクチャにアーキテクチャ上の違いが生じる可能性があります。

iii) MEGA が大規模な事前トレーニングに対応するという経験的証拠はありません。

メタ無制限の長文大規模モデルが登場: パラメータは 7B のみ、オープンソース

#CEMA: 多次元減衰 EMA を複雑な領域に拡張

解決するにはMEGA が直面する問題この研究で提起された問題は MEGALODON でした。

具体的には、彼らは CEMA (複素指数移動平均) を創造的に提案し、上記の式 (1) を次の形式に書き換えました。

メタ無制限の長文大規模モデルが登場: パラメータは 7B のみ、オープンソース

そして θ_j をパラメータ化します。 (2) として:

メタ無制限の長文大規模モデルが登場: パラメータは 7B のみ、オープンソース

#タイムステップ正規化

Transformer と組み合わせたレイヤー正規化のパフォーマンスは印象的ですが、明らかです。その層の正規化は、空間次元 (タイムステップまたはシーケンス次元とも呼ばれます) に沿った内部共変量シフトを直接減らすことはできません。

MEGALODON では、この研究では、累積平均と分散を計算することにより、グループ正規化を自己回帰ケースに拡張しました。

メタ無制限の長文大規模モデルが登場: パラメータは 7B のみ、オープンソース図 2 は、層の正規化とタイムステップの正規化を示しています。

メタ無制限の長文大規模モデルが登場: パラメータは 7B のみ、オープンソース

MEGALODON における注意の正規化

さらに、この研究では、安定性を向上させるために、MEGA 注意メカニズムに特化してカスタマイズされた正規化も提案しています。形式は次のとおりです。

メタ無制限の長文大規模モデルが登場: パラメータは 7B のみ、オープンソース次に、上記の式 (17) のアテンション演算は次のように変更されます。

メタ無制限の長文大規模モデルが登場: パラメータは 7B のみ、オープンソース

2 ホップ残差による事前正規化

#調査を通じて、モデルサイズを拡大すると正規化前の不安定性が生じることが判明しました。 Transformer ブロックに基づく事前正規化は、次のように表現できます (図 3 (b) を参照): 元の文では

メタ無制限の長文大規模モデルが登場: パラメータは 7B のみ、オープンソース

メタ無制限の長文大規模モデルが登場: パラメータは 7B のみ、オープンソース MEGA アーキテクチャでは、この問題を軽減するために、ゲートされた残留接続 (21) で φ (19) が使用されます。ただし、更新ゲート φ によってさらに多くのモデルパラメーターが導入されるため、モデルサイズが 70 億に拡張された場合でも不安定性の問題が依然として存在します。 MEGALODON は、図 3(c) に示すように、各ブロック内の残差接続を単純に再配置する、2 ホップ残差を備えたプレノルムと呼ばれる新しい構成を導入しています。

##実験

メタ無制限の長文大規模モデルが登場: パラメータは 7B のみ、オープンソース

ロングコンテキストシーケンスモデリングにおける MEGALODON のスケーラビリティと効率を評価するために、この記事では MEGALODON を 70 億スケールにスケールします。

メタ無制限の長文大規模モデルが登場: パラメータは 7B のみ、オープンソース

LLM 事前トレーニング

データ効率を向上させるために、研究者らは、MEGALODON-7B、LLAMA2-7B、および LLAMA2-13B の負の対数類似性をトレーニング中に示しました。ただし、図 1 に示すように、トレーニングプロセス (NLL)。

同じ数のトレーニングトークンの下で、MEGALODON-7B は LLAMA2-7B よりも大幅に優れた (低い) NLL を取得し、より優れたデータ効率を示しました。

図 4 は、それぞれ 4K と 32K のコンテキスト長を使用した LLAMA2-7B と MEGALODON-7B のデバイスあたりの平均 WPS (1 秒あたりのワード/トークン) を示しています。 LLAMA2 モデルの場合、この研究では Flash-Attendance V2 を使用して完全な注意の計算を高速化しています。 4K コンテキスト長では、CEMA とタイムステップ正規化の導入により、MEGALODON-7B は LLAMA2-7B よりわずかに遅くなります (約 6%)。コンテキスト長を 32K に拡張すると、MEGALODON-7B は LLAMA2-7B よりも大幅に高速になり (約 32%)、これは長いコンテキストの事前トレーニングに対する MEGALODON の計算効率を示しています。

メタ無制限の長文大規模モデルが登場: パラメータは 7B のみ、オープンソース

短いコンテキスト評価

表 1 は、学術ベンチマークおよび他のオープンソースベースにおける MEGALODON と LLAMA2 の結果をまとめたものです。モデル、MPT、RWKV、Mamba、Mistral、Gemma の比較結果が含まれます。同じ 2T トークンで事前トレーニングした後、MEGALODON-7B はすべてのベンチマークで LLAMA2-7B を上回りました。一部のタスクでは、MEGALODON-7B のパフォーマンスは LLAMA2-13B と同等かそれ以上です。

メタ無制限の長文大規模モデルが登場: パラメータは 7B のみ、オープンソース

#長いコンテキストの評価

図 5 は、4K から 2M までのさまざまなコンテキスト長 (PPL) の下での検証データセットの複雑さを示しています。）。 PPL がコンテキストの長さとともに単調に減少することが観察でき、非常に長いシーケンスのモデリングにおける MEGALODON の有効性と堅牢性が検証されます。

メタ無制限の長文大規模モデルが登場: パラメータは 7B のみ、オープンソース

#命令の微調整

表 3 は、MT-Bench での 7B モデルのパフォーマンスをまとめたものです。 MEGALODON は、Vicuna と比較して MT-Bench で優れたパフォーマンスを示し、RLHF を利用してアライメントをさらに微調整する LLAMA2-Chat に匹敵します。

メタ無制限の長文大規模モデルが登場: パラメータは 7B のみ、オープンソース

中規模ベンチマーク評価

画像分類タスクにおける MEGALODON のパフォーマンスを評価するために、この調査は Imagenet で実行されました。 -1K データセットで実験が行われました。表 4 は、検証セットのトップ 1 精度を報告します。 MEGALODON の精度は DeiT-B より 1.3%、MEGA より 0.8% 高くなります。

メタ無制限の長文大規模モデルが登場: パラメータは 7B のみ、オープンソース表 5 は、PG-19 上の MEGALODON のワードレベルの複雑さ (PPL) と、Compressive Transformer を含む以前の最先端のモデルとの比較を示しています。、パーシーバー AR、AR のパーシーバー比較、ブロックループ Transformer と MEGABYTE など。 MEGALODONのパフォーマンスは明らかに上を行っています。

メタ無制限の長文大規模モデルが登場: パラメータは 7B のみ、オープンソース詳細については、論文の原文を参照してください。

以上がメタ無制限の長文大規模モデルが登場: パラメータは 7B のみ、オープンソースの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

声明

この記事は机器之心で複製されています。侵害がある場合は、admin@php.cn までご連絡ください。

ChatGPTで2段階認証を設定する方法をわかりやすく解説！May 12, 2025 pm 05:37 PM

ChatGPTのセキュリティ強化：2段階認証（2FA）設定ガイドオンラインプラットフォームのセキュリティ対策として、2段階認証（2FA）は必須です。本記事では、ChatGPTにおける2FA設定手順と重要性を分かりやすく解説します。安全なChatGPT利用を目指す方のためのガイドです。 OpenAIの最新AIエージェント「OpenAI Deep Research」についてはこちら⬇️ 【ChatGPT】OpenAI Deep Researchとは？使い方、料金体系を徹底解説！目次 ChatG

【企業向け】ChatGPT研修｜無料研修8選、助成金・補助金・事例を徹底紹介！May 12, 2025 pm 05:35 PM

生成AIの活用が、業務効率化や新規事業創出の鍵として注目を集めています。特に、OpenAIのChatGPTは、その汎用性と精度から多くの企業で導入が進んでいます。しかし、ChatGPTを効果的に活用できる人材不足が、導入における大きな課題となっています。本記事では、企業におけるChatGPT活用を成功させるための「ChatGPT研修」の必要性と効果を解説します。ChatGPTの基本からビジネス活用、具体的な研修プログラム、選び方まで、幅広くご紹介します。ChatGPT研修は、従業員のスキル向上

ChatGPTを使ってTwitterを運用を効率化する方法を徹底解説！May 12, 2025 pm 05:34 PM

SNS運用における効率化とクオリティ向上は不可欠です。特にTwitterのようなリアルタイム性が重要なプラットフォームでは、タイムリーで魅力的なコンテンツの継続的な提供が求められます。そこで本記事では、高度な自然言語処理能力を持つAI、OpenAIのChatGPTを活用したTwitter運用方法を解説します。ChatGPTを用いることで、リアルタイムな対応能力の向上やコンテンツ作成の効率化を実現できるだけでなく、トレンドに沿ったマーケティング戦略の立案も可能になります。さらに、使用上の注意点

【Mac向け】ChatGPTデスクトップアプリの始め方と使い方を解説！May 12, 2025 pm 05:33 PM

ChatGPT Mac版デスクトップアプリ徹底ガイド：インストールから音声機能までついにChatGPTのMac用デスクトップアプリが登場！本記事では、インストール方法から便利な機能、そして今後のアップデート情報まで、徹底的に解説します。ショートカットキー、画像認識、音声モードなど、デスクトップアプリならではの機能を活用して、業務効率を劇的に向上させましょう！ ChatGPT Mac版デスクトップアプリのインストールブラウザからアクセス: まずはブラウザでChatGPTにアクセスします。

ChatGPTの文字数制限は？回避方法やモデル別の上限について解説May 12, 2025 pm 05:32 PM

ChatGPTを利用している際に、「出力が途中で止まってしまった」「文字数を指定したのにうまく出力してくれない」といった経験をお持ちではないでしょうか？このモデルは非常に画期的で、自然な会話ができるだけでなく、メールの作成や論文の要約、更には小説などの創作的な文章も生成も可能です。しかし、ChatGPTの弱点として、文章があまりにも長すぎると入出力がうまくいかなくなってしまう事が挙げられます。 OpenAIが発表した最新のAIエージェント、「OpenAI Deep Research」については

ChatGPTの音声入力・音声会話機能とは？設定方法や使い方を解説May 12, 2025 pm 05:27 PM

ChatGPTは、OpenAIが開発した革新的なAIチャットボットです。テキスト入力だけでなく、音声入力・音声会話機能も搭載されており、より自然なコミュニケーションを実現できます。この記事では、ChatGPTの音声入力・音声会話機能についての設定方法や使い方を解説します。手が離せない時でも、話しかけるだけでChatGPTが反応し音声で応答してくれるため、多忙なビジネスシーンや英会話練習など、様々なシーンで大きな利点をもたらします。スマホアプリとPCでの設定手順、それぞれの使い方を丁寧に説明す

ChatGPTを就活・転職活動に活用する方法をわかりやすく解説！May 12, 2025 pm 05:26 PM

成功への近道！ChatGPTを活用した効果的な転職活動戦略激化する現代の転職市場において、効果的な情報収集と万全の準備は成功の鍵です。 ChatGPTのような高度な言語モデルは、求職者にとって強力な武器となります。本記事では、自己分析から応募書類、面接対策まで、ChatGPTを効果的に活用し、転職活動を効率化する方法を解説します。時間を節約し、強みを最大限にアピールするテクニックを習得し、転職活動を成功に導きましょう。目次 ChatGPTを活用した転職活動事例自己分析の効率化：Chat

ChatGPTでマインドマップを作成・出力する方法をわかりやすく解説！May 12, 2025 pm 05:22 PM

マインドマップは情報整理やアイデア発想に役立つツールですが、その作成には時間がかかることがあります。ChatGPTを活用すれば、このプロセスを大幅に効率化できます。本記事では、ChatGPTを使用してマインドマップを簡単に作成する方法を詳しく解説します。さらに、実際の作成例を通じて、様々なテーマでのマインドマップ活用法を紹介します。 ChatGPTを使って、あなたのアイデアや情報を効果的に整理し、視覚化する方法を学んでいきましょう。 OpenAIが発表した最新のAIエージェント、「OpenA

See all articles

ホットAIツール

Undresser.AI Undress

リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover

写真から衣服を削除するオンライン AI ツール。

Undress AI Tool

脱衣画像を無料で

Clothoff.io

AI衣類リムーバー

Video Face Swap

完全無料の AI 顔交換ツールを使用して、あらゆるビデオの顔を簡単に交換できます。

ホットツール

WebStorm Mac版

便利なJavaScript開発ツール

SublimeText3 中国語版

中国語版、とても使いやすい

mPDF

mPDF は、UTF-8 でエンコードされた HTML から PDF ファイルを生成できる PHP ライブラリです。オリジナルの作者である Ian Back は、Web サイトから「オンザフライ」で PDF ファイルを出力し、さまざまな言語を処理するために mPDF を作成しました。 HTML2FPDF などのオリジナルのスクリプトよりも遅く、Unicode フォントを使用すると生成されるファイルが大きくなりますが、CSS スタイルなどをサポートし、多くの機能強化が施されています。 RTL (アラビア語とヘブライ語) や CJK (中国語、日本語、韓国語) を含むほぼすべての言語をサポートします。ネストされたブロックレベル要素 (P、DIV など) をサポートします。