Google に続いて、Meta も無限に長いコンテキストをロールするようになりました。
トランスフォーマーの二次複雑さと弱い長さの外挿により、長いシーケンスにスケールする能力が制限されます。ただし、二次解などの線形注意力や状態空間モデルはありますが、過去の経験から、トレーニング前の効率と下流のタスクの精度の点でパフォーマンスが低くなります。
最近、Google が提案した Infini-Transformer は、ストレージやコンピューティング要件を増加させることなく、Transformer ベースの大規模言語モデル (LLM) を無限に長い入力に拡張する効果的な方法を導入し、注目を集めています。
ほぼ同時に、Meta は無限長テキスト技術も提案しました。
論文のアドレス: https://arxiv.org/pdf/2404.08801.pdf
論文タイトル: MEGALODON: 無制限のコンテキスト長による効率的な LLM の事前トレーニングと推論
コード: https://github.com/XuezheMax/megalodon
4 月 12 日に提出された論文では、メタ、南カリフォルニア大学、CMU、UCSD などの機関が、無制限のコンテキスト長で効率的なシーケンス モデリングのためのニューラル アーキテクチャである MEGALODON を紹介しました。
MEGALODON は、MEGA (ゲート付き注意付き指数移動平均) の構造をさらに開発し、その機能と安定性を向上させるために、複雑な指数移動平均 (CEMA)、タイムステップ正規化レイヤー、正規化された注意メカニズムと、2 つの特徴を持つ事前正規化された残留接続。
LLAMA2 と直接比較すると、70 億のパラメーターと 2 兆のトレーニング トークンの規模で、MEGALODON は Transformer よりも優れた効率を達成しています。 MEGALODON のトレーニング損失は 1.70 に達します。これは、LLAMA2-7B (1.75) と 13B (1.67) の間です。 Transformers に対する MEGALODON の改良により、さまざまなタスクやモダリティにわたるさまざまなベンチマークにわたって強力なパフォーマンスが示されています。
MEGALODON は本質的に改良された MEGA アーキテクチャ (Ma et al., 2023) であり、ゲート アテンション メカニズムと古典的な指数移動平均 (EMA) 法を利用しています。大規模で長いコンテキストの事前トレーニングにおける MEGALODON の機能と効率をさらに向上させるために、著者らはさまざまな技術コンポーネントを提案しました。まず、MEGALODON は、MEGA の多次元減衰 EMA を複素領域に拡張する複素指数移動平均 (CEMA) コンポーネントを導入します。第 2 に、MEGALODON はタイムステップ正規化層を提案します。これは、グループ正規化層を自己回帰シーケンス モデリング タスクに一般化して、逐次次元に沿った正規化を可能にします。
大規模な事前トレーニングの安定性を向上させるために、MEGALODON はさらに、広く採用されている事前正規化方法と事後正規化方法を変更することにより、正規化されたアテンションと 2 ホップの残差構成を提案します。 -正規化。 MEGA チャンクで行われるように、入力シーケンスを固定チャンクに分割するだけで、MEGALODON はモデルのトレーニングと推論において線形の計算とメモリの複雑さを実現します。
LLAMA2 と直接比較すると、データと計算を制御しながら、MEGALODON-7B は、トレーニングの複雑さの点で、LLAMA2-7B のトレーニングに使用された最先端の Transformer バリアントよりも大幅に優れています。最大 2M までのさまざまなコンテキスト長での混乱やスクロールでの長いコンテキストの QA タスクを含む、長いコンテキストのモデリングに関する評価は、無限長のシーケンスをモデル化する MEGALODON の能力を実証します。 LRA、ImageNet、音声コマンド、WikiText-103、PG19 などの中小規模のベンチマークに関する追加の実験結果は、ボリュームとマルチモダリティにおける MEGALODON の機能を実証しています。
方法の紹介
まず、この記事では、MEGA (Moving Average Equipment Gated tention) アーキテクチャの主要コンポーネントを簡単にレビューし、MEGA に存在する問題について説明します。
MEGA は、EMA (指数移動平均) コンポーネントをアテンション マトリックスの計算に埋め込んで、タイム ステップ次元全体にわたる誘導バイアスを組み込みます。具体的には、多次元減衰EMAは、まず行列を拡張することによって入力シーケンスXの各次元を個別にh次元に拡張し、次に減衰EMAをh次元の隠れ空間に適用します。形式は次のとおりです。
#フル アテンション メカニズムの 2 次の複雑さを軽減するために、MEGA はクエリ、キー、および値のシーケンスを (14-16) に単純に分割します。 ) は長さ c のブロックです。 (17) の注意は各ブロックに個別に適用され、線形複雑度 O (kc^2 ) = O (nc) が得られます。
技術的に言えば、MEGA の EMA サブレイヤーは、各トークン付近のローカル コンテキスト情報をキャプチャするのに役立ち、それによってブロック境界を越えてコンテキスト内の情報が失われる問題を軽減します。 MEGA は目覚ましい結果を達成しましたが、次の問題に直面しています:
i) MEGA の EMA サブレイヤーの表現力が限られているため、ブロックレベルの注意を伴う MEGA のパフォーマンスは、完全な MEGA のパフォーマンスに依然として及ばない-注目のメガ。
ii) タスクやデータ型が異なると、正規化層、正規化モード、アテンション関数 f (・) など、最終的な MEGA アーキテクチャにアーキテクチャ上の違いが生じる可能性があります。
iii) MEGA が大規模な事前トレーニングに対応するという経験的証拠はありません。
#CEMA: 多次元減衰 EMA を複雑な領域に拡張
解決するにはMEGA が直面する問題 この研究で提起された問題は MEGALODON でした。 具体的には、彼らは CEMA (複素指数移動平均) を創造的に提案し、上記の式 (1) を次の形式に書き換えました。
Transformer と組み合わせたレイヤー正規化のパフォーマンスは印象的ですが、明らかです。その層の正規化は、空間次元 (タイム ステップまたはシーケンス次元とも呼ばれます) に沿った内部共変量シフトを直接減らすことはできません。
MEGALODON では、この研究では、累積平均と分散を計算することにより、グループ正規化を自己回帰ケースに拡張しました。
図 2 は、層の正規化とタイム ステップの正規化を示しています。
さらに、この研究では、安定性を向上させるために、MEGA 注意メカニズムに特化してカスタマイズされた正規化も提案しています。形式は次のとおりです。
次に、上記の式 (17) のアテンション演算は次のように変更されます。
#調査を通じて、モデル サイズを拡大すると正規化前の不安定性が生じることが判明しました。 Transformer ブロックに基づく事前正規化は、次のように表現できます (図 3 (b) を参照): 元の文では
MEGA アーキテクチャでは、この問題を軽減するために、ゲートされた残留接続 (21) で φ (19) が使用されます。ただし、更新ゲート φ によってさらに多くのモデル パラメーターが導入されるため、モデル サイズが 70 億に拡張された場合でも不安定性の問題が依然として存在します。 MEGALODON は、図 3(c) に示すように、各ブロック内の残差接続を単純に再配置する、2 ホップ残差を備えたプレノルムと呼ばれる新しい構成を導入しています。
データ効率を向上させるために、研究者らは、MEGALODON-7B、LLAMA2-7B、および LLAMA2-13B の負の対数類似性をトレーニング中に示しました。ただし、図 1 に示すように、トレーニング プロセス (NLL)。
同じ数のトレーニング トークンの下で、MEGALODON-7B は LLAMA2-7B よりも大幅に優れた (低い) NLL を取得し、より優れたデータ効率を示しました。
図 4 は、それぞれ 4K と 32K のコンテキスト長を使用した LLAMA2-7B と MEGALODON-7B のデバイスあたりの平均 WPS (1 秒あたりのワード/トークン) を示しています。 LLAMA2 モデルの場合、この研究では Flash-Attendance V2 を使用して完全な注意の計算を高速化しています。 4K コンテキスト長では、CEMA とタイム ステップ正規化の導入により、MEGALODON-7B は LLAMA2-7B よりわずかに遅くなります (約 6%)。コンテキスト長を 32K に拡張すると、MEGALODON-7B は LLAMA2-7B よりも大幅に高速になり (約 32%)、これは長いコンテキストの事前トレーニングに対する MEGALODON の計算効率を示しています。
短いコンテキスト評価
表 1 は、学術ベンチマークおよび他のオープンソース ベースにおける MEGALODON と LLAMA2 の結果をまとめたものです。モデル、MPT、RWKV、Mamba、Mistral、Gemma の比較結果が含まれます。同じ 2T トークンで事前トレーニングした後、MEGALODON-7B はすべてのベンチマークで LLAMA2-7B を上回りました。一部のタスクでは、MEGALODON-7B のパフォーマンスは LLAMA2-13B と同等かそれ以上です。
#長いコンテキストの評価
図 5 は、4K から 2M までのさまざまなコンテキスト長 (PPL) の下での検証データ セットの複雑さを示しています。 )。 PPL がコンテキストの長さとともに単調に減少することが観察でき、非常に長いシーケンスのモデリングにおける MEGALODON の有効性と堅牢性が検証されます。表 3 は、MT-Bench での 7B モデルのパフォーマンスをまとめたものです。 MEGALODON は、Vicuna と比較して MT-Bench で優れたパフォーマンスを示し、RLHF を利用してアライメントをさらに微調整する LLAMA2-Chat に匹敵します。
画像分類タスクにおける MEGALODON のパフォーマンスを評価するために、この調査は Imagenet で実行されました。 -1K データセットで実験が行われました。表 4 は、検証セットのトップ 1 精度を報告します。 MEGALODON の精度は DeiT-B より 1.3%、MEGA より 0.8% 高くなります。
表 5 は、PG-19 上の MEGALODON のワードレベルの複雑さ (PPL) と、Compressive Transformer を含む以前の最先端のモデルとの比較を示しています。 、パーシーバー AR、AR のパーシーバー比較、ブロック ループ Transformer と MEGABYTE など。 MEGALODONのパフォーマンスは明らかに上を行っています。
詳細については、論文の原文を参照してください。
以上がメタ無制限の長文大規模モデルが登場: パラメータは 7B のみ、オープンソースの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

微软宣布进一步扩展和 Meta 的 AI 合作伙伴关系,Meta 已选择 Azure 作为战略性云供应商,以帮助加速 AI 研发。在 2017 年,微软和 Meta(彼时还被称为 Facebook)共同发起了 ONNX(即 Open Neural Network Exchange),一个开放的深度学习开发工具生态系统,旨在让开发者能够在不同的 AI 框架之间移动深度学习模型。2018 年,微软宣布开源了 ONNX Runtime —— ONNX 格式模型的推理引擎。作为此次深化合作的一部分,Me

2月25日消息,Meta在当地时间周五宣布,它将推出一种针对研究社区的基于人工智能(AI)的新型大型语言模型,与微软、谷歌等一众受到ChatGPT刺激的公司一同加入人工智能竞赛。Meta的LLaMA是“大型语言模型MetaAI”(LargeLanguageModelMetaAI)的缩写,它可以在非商业许可下提供给政府、社区和学术界的研究人员和实体工作者。该公司将提供底层代码供用户使用,因此用户可以自行调整模型,并将其用于与研究相关的用例。Meta表示,该模型对算力的要

今年 7 月初,Meta AI 发布了一个新的翻译模型,名为 No Language Left behind (NLLB),我们可以将其直译为「一个语言都不能少」。顾名思义,NLLB 可以支持 200 + 语言之间任意互译,Meta AI 还把它开源了。平时你都没见到的语言如卢干达语、乌尔都语等它都能翻译。论文地址:https://research.facebook.com/publications/no-language-left-behind/开源地址:https://github.com/

8月31日消息,近日有关虚拟现实领域的令人振奋消息传出,据可靠渠道透露,meta公司即将在9月27日正式发布其全新虚拟现实头显——metaQuest3。这款头显据称拥有颠覆性的深度测绘技术,将为用户带来更加逼真的混合现实体验。这项名为深度测绘的技术被认为是metaQuest3的一项重大创新。该技术使得虚拟数字物体与真实物体能够在同一空间内进行互动,大大提升了混合现实的沉浸感和真实感。一段在Reddit上流传的视频展示了深度测绘功能的惊人表现,不禁让人惊叹不已。从视频中可以看出,metaQuest

美国东部时间8月2日,Meta发布了一款名为AudioCraft的生成式AI工具,用户可以利用文本提示来创作音乐和音频AudioCraft由三个主要组件构成:MusicGen:使用Meta拥有/特别授权的音乐进行训练,根据文本提示生成音乐。AudioGen:使用公共音效进行训练生成音频或扩展现有音频,后续还可生成环境音效(如狗叫、汽车鸣笛、木地板上的脚步声)。EnCodec(改进版):基于神经网络的音频压缩解码器,可生成更高质量的音乐并减少人工痕迹,或对音频文件进行无损压缩。官方声称,Audio

在游戏、元宇宙等领域的推动下,XR(扩展现实,VR/AR/MR统称)赛道的热度明显获得提升,头显设备也成了“香饽饽”,获得了许多企业的青睐,其中就有Meta(META.US)和苹果(AAPL.US)、字节跳动、索尼等巨头。而这些巨头之间的“故事”还引来了大批“吃瓜群众”。打压竞争对手?Meta赶在苹果之前发布最新版头显众所周知,在全球的大型科技企业中,Meta对元宇宙是最上心的,不惜投入巨资早早进行了布局,而VR头显被视为是元宇宙的入口之一,因此该公司在这一领域也下了大功夫,是VR头显领域的龙头

现在,谁还提元宇宙?2022年,Meta实验室RealityLabs在AR/VR的研发投入已经亏损了137亿美元。比去年(近102亿美元)还要多,简直让人瞠目结舌。也看,生成式AI大爆发,一波ChatGPT狂热潮,让Meta内部重心也有所倾斜。就在前段时间,在公司的季度财报电话会议上,提及「元宇宙」的次数只有7次,而「AI」有23次。做着几乎赔本的买卖,元宇宙就这样凉凉了吗?NoNoNo!Meta近日公布了未来四年VR/AR硬件技术路线图。2025年,发布首款带有显示屏的智能眼镜,以及控制眼镜的

ChatGTP走红以来,围绕ChatGTP开发出来的AI应用层出不穷;让人们感受到了人工智能的强大!近日,Facebook母公司Meta发布了人工智能大型语言模型(LargeLanguageModelMetaAI)简称LLaMA。扎克伯格在社交媒体上称:”由FAIR团队研发的LLaMA模型是目前世界上水平最高的大型语言模型,目标是帮助研究人员推进他们在人工智能领域的工作!“。与其他大型模型一样,MetaLLaMA的工作原理是将一系列单词作为“输入”并预测下一个单词以递归生成文本。据介


ホットAIツール

Undresser.AI Undress
リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover
写真から衣服を削除するオンライン AI ツール。

Undress AI Tool
脱衣画像を無料で

Clothoff.io
AI衣類リムーバー

AI Hentai Generator
AIヘンタイを無料で生成します。

人気の記事

ホットツール

MantisBT
Mantis は、製品の欠陥追跡を支援するために設計された、導入が簡単な Web ベースの欠陥追跡ツールです。 PHP、MySQL、Web サーバーが必要です。デモおよびホスティング サービスをチェックしてください。

SecLists
SecLists は、セキュリティ テスターの究極の相棒です。これは、セキュリティ評価中に頻繁に使用されるさまざまな種類のリストを 1 か所にまとめたものです。 SecLists は、セキュリティ テスターが必要とする可能性のあるすべてのリストを便利に提供することで、セキュリティ テストをより効率的かつ生産的にするのに役立ちます。リストの種類には、ユーザー名、パスワード、URL、ファジング ペイロード、機密データ パターン、Web シェルなどが含まれます。テスターはこのリポジトリを新しいテスト マシンにプルするだけで、必要なあらゆる種類のリストにアクセスできるようになります。

PhpStorm Mac バージョン
最新(2018.2.1)のプロフェッショナル向けPHP統合開発ツール

ドリームウィーバー CS6
ビジュアル Web 開発ツール

ゼンドスタジオ 13.0.1
強力な PHP 統合開発環境

ホットトピック



