Transformer は、間違いなく過去数年間で機械学習の分野で最も人気のあるモデルです。
2017 年に論文「Attending is All You Need」で提案されて以来、この新しいネットワーク構造はすべての主要な翻訳タスクを超え、多くの新しい記録を生み出しました。
しかし、Transformer には長いバイト シーケンスを処理するときに欠陥があります。つまり、計算能力が大幅に失われ、Meta の研究者の最新の結果は、この欠点をうまく解決することができます。
彼らは、複数の形式にわたって 100 万を超えるトークンを生成でき、GPT-4 などのモデルの背後にある既存の Transformer アーキテクチャの機能を超える新しいモデル アーキテクチャを立ち上げました。
このモデルは「メガバイト」と呼ばれ、100 万バイト以上を処理できるマルチスケール デコーダ アーキテクチャであり、シーケンスはエンドツーエンドの微分可能なモデリングです。
紙のリンク: https://arxiv.org/abs/2305.07185
Megabyte が Transformer よりも優れている理由については、まず Transformer の欠点を確認する必要があります。
Transformer の欠点これまでのところ、OpenAI の GPT-4 や Google の Bard など、数種類の高性能生成 AI モデルはすべて Transformer に基づいています。アーキテクチャ、モデル。
しかし、Meta の研究チームは、主に Transformer 設計に内在する 2 つの重要な欠陥が原因で、人気の Transformer アーキテクチャが限界に達しつつあるのではないかと考えています。 ##- 入力バイト長と出力バイト長が増加するにつれて、セルフアテンションのコストも急速に増加します。たとえば、入力音楽、画像、またはビデオ ファイルには、通常、数メガバイトが含まれます。ただし、ラージ デコーダ (LLM) は、多くの場合、数千メガバイトしか使用しません。コンテキスト トークン
- フィードフォワード ネットワークは、言語モデルが一連の数学的演算と変換を通じて単語を理解して処理するのに役立ちますが、位置ごとに拡張するのは性質上困難です。文字グループまたは位置を個別に操作するため、大量の計算オーバーヘッドが発生します。
メガバイトの強みは何ですか。Transformer と比較して、メガバイト モデルは独特の A を示します。入力シーケンスと出力シーケンスを個々のトークンではなくパッチに分割する異なるアーキテクチャ。
以下に示すように、各パッチでは、ローカル AI モデルが結果を生成し、グローバル モデルがすべてのパッチの最終出力を管理および調整します。
まず、バイト シーケンスはトークンとほぼ同様の固定サイズのパッチに分割されます。このモデルは 3 つの要素で構成されます。パーツの構成:
##(1) パッチエンベッダー: 各バイトのエンベディングをロスレスで連結することにより、単純にパッチ
## をエンコードします #(2 ) グローバル モデル: 入力および出力パッチで表される大規模な自己回帰トランスフォーマー(3) ローカル モデル: パッチ内のバイトを予測する小規模な自己回帰モデル
研究者らは、ほとんどのタスク (最初の数文字が与えられた単語を完成させるなど) ではバイト予測が比較的簡単であることを観察しました。つまり、各単語は、大きな結び目のネットワークは不要で、より小さいモデルになります。内部予測に使用できます。
このアプローチは、今日の AI モデルに蔓延するスケーラビリティの課題を解決します。メガバイト モデルのパッチ システムにより、単一のフィードフォワード ネットワークが複数のトークンを含むパッチ上で実行できるようになり、セルフ アテンションの問題が効果的に解決されます。スケーリングの問題。
その中で、メガバイト アーキテクチャでは、長いシーケンス モデリングのための Transformer に 3 つの大きな改善が加えられました。
- 二次自己注意 (サブ) -二次自己注意)
長いシーケンス モデルに関するほとんどの研究は、自己注意の二次コストを軽減することに重点を置いていますが、Megabyte は長いシーケンスを 2 つの短いシーケンスに分割しますが、それでも簡単です長いシーケンスでも処理できます。
- パッチ フィードフォワード レイヤー (パッチごとのフィードフォワード レイヤー)
GPT-3 サイズのモデルで 98% 以上の FLOPS 位置フィードフォワード レイヤーの計算用, Megabyte は、パッチごとに大規模なフィードフォワード レイヤーを使用して、同じコストでより大規模でよりパフォーマンスの高いモデルを実現します。パッチ サイズが P の場合、ベースライン コンバーターは m パラメーターを持つ同じフィードフォワード レイヤーを P 回使用し、Megabyte は同じコストで mP パラメーターを持つレイヤーを 1 回使用できます。
-デコードの並列処理
トランスフォーマーは、ステップへの入力が前のステップの出力になるため、生成中にすべての計算を逐次的に実行する必要があります。 Megabyte では、タイム ステップを調整し、パッチ表現を並行して生成することにより、生成プロセスの並列性を高めることができます。
たとえば、1.5B パラメーターを持つメガバイト モデルは、標準の 350MTransformer よりも 40% 高速にシーケンスを生成すると同時に、トレーニングに同じ量の計算を使用した場合の複雑さも改善します。
#メガバイトは他のモデルをはるかに上回り、サブワードでトレーニングされた sota モデルと競合する結果を提供します
In比較すると、OpenAI の GPT-4 には 32,000 トークンの制限があり、Anthropic の Claude には 100,000 トークンの制限があります。
さらに、計算効率の観点から、固定モデル サイズとシーケンス長の範囲内で、メガバイトは同じサイズのトランスフォーマーや線形トランスフォーマーよりも使用するトークンの数が少なく、同じ計算コストが可能です。 . より大きなモデルを使用してください。
これらの改善により、同じ計算予算の下でトレーニングできるようになります。 、非常に長いシーケンスに拡張し、デプロイメント中のビルド速度を向上させる、よりパフォーマンスの高いモデル。
未来はどのようなものになるでしょうかAIの軍拡競争が本格化する中、モデルのパフォーマンスはますます強化され、パラメータはますます高くなっています。
GPT-3.5 は 175B のパラメーターでトレーニングされましたが、より強力な GPT-4 は 1 兆のパラメーターでトレーニングされたと推測する人もいます。
OpenAI CEO のサム アルトマン氏も最近、戦略の変更を示唆しており、同社は大規模なモデルのトレーニングを放棄し、他のパフォーマンスの最適化に注力することを検討していると述べました。
彼は AI モデルの将来を iPhone チップに例えますが、ほとんどの消費者は元の技術仕様について何も知りません。
メタ研究者は、革新的なアーキテクチャが適切なタイミングで登場すると信じていますが、他の最適化方法があることも認めています。
たとえば、パッチ技術を使用したより効率的なエンコーダ モデル、シーケンスをより小さなブロックに分解し、シーケンスを圧縮トークンに前処理するデコード モデルなど、拡張することができます。既存の Transformer Architectural 機能を利用して次世代モデルを構築します。
元 Tesla AI ディレクターの Andrej Karpathy 氏もこの論文について意見を表明し、Twitter で次のように書いています。
これは非常に有望であり、大規模モデルでのトークン化を廃止し、長いバイト シーケンスの必要性を排除できることを誰もが期待しているはずです。
以上がトランスフォーマーよりも 40% 高速です。 Meta、計算能力損失の問題を解決する新しいメガバイトモデルをリリースの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

ねえ、忍者をコーディング!その日はどのようなコーディング関連のタスクを計画していますか?このブログにさらに飛び込む前に、コーディング関連のすべての問題について考えてほしいです。 終わり? - &#8217を見てみましょう

食品の準備を強化するAI まだ初期の使用中ですが、AIシステムは食品の準備にますます使用されています。 AI駆動型のロボットは、ハンバーガーの製造、SAの組み立てなど、食品の準備タスクを自動化するためにキッチンで使用されています

導入 Python関数における変数の名前空間、スコープ、および動作を理解することは、効率的に記述し、ランタイムエラーや例外を回避するために重要です。この記事では、さまざまなASPを掘り下げます

導入 鮮やかな絵画や彫刻に囲まれたアートギャラリーを歩くことを想像してください。さて、各ピースに質問をして意味のある答えを得ることができたらどうでしょうか?あなたは尋ねるかもしれません、「あなたはどんな話を言っていますか?

製品のケイデンスを継続して、今月MediaTekは、新しいKompanio UltraやDimenity 9400を含む一連の発表を行いました。これらの製品は、スマートフォン用のチップを含むMediaTekのビジネスのより伝統的な部分を埋めます

#1 GoogleはAgent2Agentを起動しました 物語:月曜日の朝です。 AI駆動のリクルーターとして、あなたはより賢く、難しくありません。携帯電話の会社のダッシュボードにログインします。それはあなたに3つの重要な役割が調達され、吟味され、予定されていることを伝えます

私はあなたがそうであるに違いないと思います。 私たちは皆、精神障害がさまざまな心理学の用語を混ぜ合わせ、しばしば理解できないか完全に無意味であることが多い、さまざまなおしゃべりで構成されていることを知っているようです。 FOを吐き出すために必要なことはすべてです

今週公開された新しい研究によると、2022年に製造されたプラスチックの9.5%のみがリサイクル材料から作られていました。一方、プラスチックは埋め立て地や生態系に積み上げられ続けています。 しかし、助けが近づいています。エンジンのチーム


ホットAIツール

Undresser.AI Undress
リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover
写真から衣服を削除するオンライン AI ツール。

Undress AI Tool
脱衣画像を無料で

Clothoff.io
AI衣類リムーバー

AI Hentai Generator
AIヘンタイを無料で生成します。

人気の記事

ホットツール

ゼンドスタジオ 13.0.1
強力な PHP 統合開発環境

Dreamweaver Mac版
ビジュアル Web 開発ツール

WebStorm Mac版
便利なJavaScript開発ツール

SublimeText3 Mac版
神レベルのコード編集ソフト(SublimeText3)

mPDF
mPDF は、UTF-8 でエンコードされた HTML から PDF ファイルを生成できる PHP ライブラリです。オリジナルの作者である Ian Back は、Web サイトから「オンザフライ」で PDF ファイルを出力し、さまざまな言語を処理するために mPDF を作成しました。 HTML2FPDF などのオリジナルのスクリプトよりも遅く、Unicode フォントを使用すると生成されるファイルが大きくなりますが、CSS スタイルなどをサポートし、多くの機能強化が施されています。 RTL (アラビア語とヘブライ語) や CJK (中国語、日本語、韓国語) を含むほぼすべての言語をサポートします。ネストされたブロックレベル要素 (P、DIV など) をサポートします。
