検索
ホームページテクノロジー周辺機器AIトランスフォーマーよりも 40% 高速です。 Meta、計算能力損失の問題を解決する新しいメガバイトモデルをリリース

Transformer は、間違いなく過去数年間で機械学習の分野で最も人気のあるモデルです。

2017 年に論文「Attending is All You Need」で提案されて以来、この新しいネットワーク構造はすべての主要な翻訳タスクを超え、多くの新しい記録を生み出しました。

トランスフォーマーよりも 40% 高速です。 Meta、計算能力損失の問題を解決する新しいメガバイトモデルをリリース

しかし、Transformer には長いバイト シーケンスを処理するときに欠陥があります。つまり、計算能力が大幅に失われ、Meta の研究者の最新の結果は、この欠点をうまく解決することができます。

彼らは、複数の形式にわたって 100 万を超えるトークンを生成でき、GPT-4 などのモデルの背後にある既存の Transformer アーキテクチャの機能を超える新しいモデル アーキテクチャを立ち上げました。

このモデルは「メガバイト」と呼ばれ、100 万バイト以上を処理できるマルチスケール デコーダ アーキテクチャであり、シーケンスはエンドツーエンドの微分可能なモデリングです。

トランスフォーマーよりも 40% 高速です。 Meta、計算能力損失の問題を解決する新しいメガバイトモデルをリリース

紙のリンク: https://arxiv.org/abs/2305.07185

Megabyte が Transformer よりも優れている理由については、まず Transformer の欠点を確認する必要があります。

Transformer の欠点

これまでのところ、OpenAI の GPT-4 や Google の Bard など、数種類の高性能生成 AI モデルはすべて Transformer に基づいています。アーキテクチャ、モデル。

しかし、Meta の研究チームは、主に Transformer 設計に内在する 2 つの重要な欠陥が原因で、人気の Transformer アーキテクチャが限界に達しつつあるのではないかと考えています。 ##- 入力バイト長と出力バイト長が増加するにつれて、セルフアテンションのコストも急速に増加します。たとえば、入力音楽、画像、またはビデオ ファイルには、通常、数メガバイトが含まれます。ただし、ラージ デコーダ (LLM) は、多くの場合、数千メガバイトしか使用しません。コンテキスト トークン

- フィードフォワード ネットワークは、言語モデルが一連の数学的演算と変換を通じて単語を理解して処理するのに役立ちますが、位置ごとに拡張するのは性質上困難です。文字グループまたは位置を個別に操作するため、大量の計算オーバーヘッドが発生します。

メガバイトの強みは何ですか。

Transformer と比較して、メガバイト モデルは独特の A を示します。入力シーケンスと出力シーケンスを個々のトークンではなくパッチに分割する異なるアーキテクチャ。

以下に示すように、各パッチでは、ローカル AI モデルが結果を生成し、グローバル モデルがすべてのパッチの最終出力を管理および調整します。

まず、バイト シーケンスはトークンとほぼ同様の固定サイズのパッチに分割されます。このモデルは 3 つの要素で構成されます。パーツの構成: トランスフォーマーよりも 40% 高速です。 Meta、計算能力損失の問題を解決する新しいメガバイトモデルをリリース

##(1) パッチエンベッダー: 各バイトのエンベディングをロスレスで連結することにより、単純にパッチ

## をエンコードします #(2 ) グローバル モデル: 入力および出力パッチで表される大規模な自己回帰トランスフォーマー

(3) ローカル モデル: パッチ内のバイトを予測する小規模な自己回帰モデル

研究者らは、ほとんどのタスク (最初の数文字が与えられた単語を完成させるなど) ではバイト予測が比較的簡単であることを観察しました。つまり、各単語は、大きな結び目のネットワークは不要で、より小さいモデルになります。内部予測に使用できます。

このアプローチは、今日の AI モデルに蔓延するスケーラビリティの課題を解決します。メガバイト モデルのパッチ システムにより、単一のフィードフォワード ネットワークが複数のトークンを含むパッチ上で実行できるようになり、セルフ アテンションの問題が効果的に解決されます。スケーリングの問題。

その中で、メガバイト アーキテクチャでは、長いシーケンス モデリングのための Transformer に 3 つの大きな改善が加えられました。

- 二次自己注意 (サブ) -二次自己注意)

長いシーケンス モデルに関するほとんどの研究は、自己注意の二次コストを軽減することに重点を置いていますが、Megabyte は長いシーケンスを 2 つの短いシーケンスに分割しますが、それでも簡単です長いシーケンスでも処理できます。

- パッチ フィードフォワード レイヤー (パッチごとのフィードフォワード レイヤー)

GPT-3 サイズのモデルで 98% 以上の FLOPS 位置フィードフォワード レイヤーの計算用, Megabyte は、パッチごとに大規模なフィードフォワード レイヤーを使用して、同じコストでより大規模でよりパフォーマンスの高いモデルを実現します。パッチ サイズが P の場合、ベースライン コンバーターは m パラメーターを持つ同じフィードフォワード レイヤーを P 回使用し、Megabyte は同じコストで mP パラメーターを持つレイヤーを 1 回使用できます。

-デコードの並列処理

トランスフォーマーは、ステップへの入力が前のステップの出力になるため、生成中にすべての計算を逐次的に実行する必要があります。 Megabyte では、タイム ステップを調整し、パッチ表現を並行して生成することにより、生成プロセスの並列性を高めることができます。

たとえば、1.5B パラメーターを持つメガバイト モデルは、標準の 350MTransformer よりも 40% 高速にシーケンスを生成すると同時に、トレーニングに同じ量の計算を使用した場合の複雑さも改善します。

トランスフォーマーよりも 40% 高速です。 Meta、計算能力損失の問題を解決する新しいメガバイトモデルをリリース

#メガバイトは他のモデルをはるかに上回り、サブワードでトレーニングされた sota モデルと競合する結果を提供します

In比較すると、OpenAI の GPT-4 には 32,000 トークンの制限があり、Anthropic の Claude には 100,000 トークンの制限があります。

さらに、計算効率の観点から、固定モデル サイズとシーケンス長の範囲内で、メガバイトは同じサイズのトランスフォーマーや線形トランスフォーマーよりも使用するトークンの数が少なく、同じ計算コストが可能です。 . より大きなモデルを使用してください。

トランスフォーマーよりも 40% 高速です。 Meta、計算能力損失の問題を解決する新しいメガバイトモデルをリリース


これらの改善により、同じ計算予算の下でトレーニングできるようになります。 、非常に長いシーケンスに拡張し、デプロイメント中のビルド速度を向上させる、よりパフォーマンスの高いモデル。

未来はどのようなものになるでしょうか

AIの軍拡競争が本格化する中、モデルのパフォーマンスはますます強化され、パラメータはますます高くなっています。

GPT-3.5 は 175B のパラメーターでトレーニングされましたが、より強力な GPT-4 は 1 兆のパラメーターでトレーニングされたと推測する人もいます。

OpenAI CEO のサム アルトマン氏も最近、戦略の変更を示唆しており、同社は大規模なモデルのトレーニングを放棄し、他のパフォーマンスの最適化に注力することを検討していると述べました。

彼は AI モデルの将来を iPhone チップに例えますが、ほとんどの消費者は元の技術仕様について何も知りません。

メタ研究者は、革新的なアーキテクチャが適切なタイミングで登場すると信じていますが、他の最適化方法があることも認めています。

たとえば、パッチ技術を使用したより効率的なエンコーダ モデル、シーケンスをより小さなブロックに分解し、シーケンスを圧縮トークンに前処理するデコード モデルなど、拡張することができます。既存の Transformer Architectural 機能を利用して次世代モデルを構築します。

元 Tesla AI ディレクターの Andrej Karpathy 氏もこの論文について意見を表明し、Twitter で次のように書いています。

これは非常に有望であり、大規模モデルでのトークン化を廃止し、長いバイト シーケンスの必要性を排除できることを誰もが期待しているはずです。

トランスフォーマーよりも 40% 高速です。 Meta、計算能力損失の問題を解決する新しいメガバイトモデルをリリース

以上がトランスフォーマーよりも 40% 高速です。 Meta、計算能力損失の問題を解決する新しいメガバイトモデルをリリースの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

声明
この記事は51CTO.COMで複製されています。侵害がある場合は、admin@php.cn までご連絡ください。
AI内部展開の隠された危険:ガバナンスのギャップと壊滅的なリスクAI内部展開の隠された危険:ガバナンスのギャップと壊滅的なリスクApr 28, 2025 am 11:12 AM

Apollo Researchの新しいレポートによると、高度なAIシステムの未確認の内部展開は、重大なリスクをもたらします。 主要なAI企業の間で一般的なこの監視の欠如は、Uncontに及ぶ潜在的な壊滅的な結果を可能にします

AIポリグラフの構築AIポリグラフの構築Apr 28, 2025 am 11:11 AM

従来の嘘検出器は時代遅れです。リストバンドで接続されたポインターに依存すると、被験者のバイタルサインと身体的反応を印刷する嘘発見器は、嘘を識別するのに正確ではありません。これが、嘘の検出結果が通常裁判所で採用されない理由ですが、多くの罪のない人々が投獄されています。 対照的に、人工知能は強力なデータエンジンであり、その実用的な原則はすべての側面を観察することです。これは、科学者がさまざまな方法で真実を求めるアプリケーションに人工知能を適用できることを意味します。 1つのアプローチは、嘘発見器のように尋問されている人の重要な符号応答を分析することですが、より詳細かつ正確な比較分析を行います。 別のアプローチは、言語マークアップを使用して、人々が実際に言うことを分析し、論理と推論を使用することです。 ことわざにあるように、ある嘘は別の嘘を繁殖させ、最終的に

AIは航空宇宙産業の離陸のためにクリアされていますか?AIは航空宇宙産業の離陸のためにクリアされていますか?Apr 28, 2025 am 11:10 AM

イノベーションの先駆者である航空宇宙産業は、AIを活用して、最も複雑な課題に取り組んでいます。 近代的な航空の複雑さの増加は、AIの自動化とリアルタイムのインテリジェンス機能を必要とします。

北京の春のロボットレースを見ています北京の春のロボットレースを見ていますApr 28, 2025 am 11:09 AM

ロボット工学の急速な発展により、私たちは魅力的なケーススタディをもたらしました。 NoetixのN2ロボットの重量は40ポンドを超えており、高さは3フィートで、逆流できると言われています。 UnitreeのG1ロボットの重量は、N2のサイズの約2倍で、高さは約4フィートです。また、競争に参加している多くの小さなヒューマノイドロボットがあり、ファンによって前進するロボットさえあります。 データ解釈 ハーフマラソンは12,000人以上の観客を惹きつけましたが、21人のヒューマノイドロボットのみが参加しました。政府は、参加しているロボットが競争前に「集中トレーニング」を実施したと指摘したが、すべてのロボットが競争全体を完了したわけではない。 チャンピオン - 北京ヒューマノイドロボットイノベーションセンターによって開発されたティアンゴニ

ミラートラップ:AI倫理と人間の想像力の崩壊ミラートラップ:AI倫理と人間の想像力の崩壊Apr 28, 2025 am 11:08 AM

人工知能は、現在の形式では、真にインテリジェントではありません。既存のデータを模倣して洗練するのに熟達しています。 私たちは人工知能を作成するのではなく、人工的な推論を作成しています。情報を処理するマシン、人間は

新しいGoogleリークは、便利なGoogle写真機能の更新を明らかにします新しいGoogleリークは、便利なGoogle写真機能の更新を明らかにしますApr 28, 2025 am 11:07 AM

レポートでは、更新されたインターフェイスがGoogle Photos Androidバージョン7.26のコードに隠されていることがわかり、写真を見るたびに、新しく検出された顔のサムネイルの行が画面の下部に表示されます。 新しいフェイシャルサムネイルには名前タグが欠落しているため、検出された各人に関する詳細情報を見るには、個別にクリックする必要があると思います。今のところ、この機能は、Googleフォトが画像で見つけた人々以外の情報を提供しません。 この機能はまだ利用できないため、Googleが正確にどのように使用するかはわかりません。 Googleはサムネイルを使用して、選択した人のより多くの写真を見つけるためにスピードアップしたり、編集して個人を選択するなど、他の目的に使用することもできます。待って見てみましょう。 今のところ

補強能力のガイド - 分析Vidhya補強能力のガイド - 分析VidhyaApr 28, 2025 am 09:30 AM

補強能力は、人間のフィードバックに基づいて調整するためにモデルを教えることにより、AI開発を揺さぶりました。それは、監督された学習基盤と報酬ベースの更新をブレンドして、より安全で、より正確に、そして本当に助けます

踊りましょう:私たちの人間のニューラルネットを微調整するための構造化された動き踊りましょう:私たちの人間のニューラルネットを微調整するための構造化された動きApr 27, 2025 am 11:09 AM

科学者は、彼らの機能を理解するために、人間とより単純なニューラルネットワーク(C. elegansのものと同様)を広く研究してきました。 ただし、重要な疑問が生じます。新しいAIと一緒に効果的に作業するために独自のニューラルネットワークをどのように適応させるのか

See all articles

ホットAIツール

Undresser.AI Undress

Undresser.AI Undress

リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover

AI Clothes Remover

写真から衣服を削除するオンライン AI ツール。

Undress AI Tool

Undress AI Tool

脱衣画像を無料で

Clothoff.io

Clothoff.io

AI衣類リムーバー

Video Face Swap

Video Face Swap

完全無料の AI 顔交換ツールを使用して、あらゆるビデオの顔を簡単に交換できます。

ホットツール

EditPlus 中国語クラック版

EditPlus 中国語クラック版

サイズが小さく、構文の強調表示、コード プロンプト機能はサポートされていません

メモ帳++7.3.1

メモ帳++7.3.1

使いやすく無料のコードエディター

ゼンドスタジオ 13.0.1

ゼンドスタジオ 13.0.1

強力な PHP 統合開発環境

SublimeText3 Mac版

SublimeText3 Mac版

神レベルのコード編集ソフト(SublimeText3)

AtomエディタMac版ダウンロード

AtomエディタMac版ダウンロード

最も人気のあるオープンソースエディター