ホームページ > 記事 > テクノロジー周辺機器 > LLM の将来のアーキテクチャ: Transformer の優位性を揺るがす可能性があるのは誰ですか?
大型モデルの分野では、常にCポジションを堅持してきたトランスが最近は抜かれる傾向にあるようです。
この挑戦者は、言語、音声、ゲノミクスなどの複数のモダリティで SOTA パフォーマンスを達成した「Mamba」と呼ばれる研究です。言語モデリングの点では、Mamba-3B モデルは、事前トレーニングとダウンストリーム評価の両方において、同じサイズの Transformer モデルよりも優れており、2 倍のサイズの Transformer モデルに匹敵します。
この論文が発表されると、かなりの反響を呼びました。誰もが驚いた後、この論文の著者は 2 人だけであることに気づきました。1 人はカーネギーメロン大学機械学習学部の助教授である Albert Gu 氏で、もう 1 人は Together.AI の主任科学者であり、同大学の助教授である Tri 氏です。プリンストン大学コンピューターサイエンス (次期ポスト) Dao。
この研究の重要な革新は、Transformer の自己注意メカニズムと比較される「選択的 SSM (選択的状態空間モデル)」と呼ばれるアーキテクチャの導入です。コンテキスト長が増加すると計算量は二乗的に増加します. たとえばコンテキストが 32 倍に増加すると, 計算量は 1000 倍に増加する可能性があります. Mamba はコンテキスト長の増加に応じて線形拡張を実現でき, パフォーマンスを向上させることができます.実際のデータでは数百回、10,000 トークン長のシーケンスにより、推論スループットが 5 倍向上します。そして、これらは選択的 SSM と切り離すことができません。
Mamba の優れたパフォーマンスを見て、多くの研究者が SSM (状態空間モデル) 関連の研究に興味を持つようになりました。
最近のインタビューで、アレン人工知能研究所 (AI2) の機械学習研究者であるネイサン ランバート氏は、Mamba 論文の著者の 1 人である Tri Dao 氏と対談しました。 Together.AI 科学者の Michael Poli 氏とも詳細な意見交換を行いました。
彼らは主に LLM アーキテクチャの将来について議論し、さらに、新興 LLM 市場における状態空間モデル (SSM) の応用の見通しについても議論しました。会話に含まれる知識ポイントも比較的集中的です。たとえば、Transformer のアテンション メカニズムが効果的である理由、拡張の限界は何か、Mamba とそのハードウェアの最適化の紹介、将来のアーキテクチャの予測についての議論などです。
会話の内容は以下の通りです。
Nathan Lambert: まず、注意メカニズムがなぜ効果的であるかを説明しましょう。注意メカニズムの限界は何ですか。 Transformer のどの程度がアテンション メカニズムに基づいて構築されていますか? 他に機能しているメカニズムはありますか? この点でどのような課題が発生する可能性がありますか?
Tri Dao: はい、いわゆる Transformer は、現在私たちが目にするエキサイティングなアプリケーションのほとんどを駆動するアーキテクチャです。おっしゃるとおり、アテンションメカニズムはコア層です。実際、アテンション メカニズムは 2014 年から 2015 年にかけて注目を集め、その後、アテンション メカニズムを統合し、多層パーセプトロン (MLP) とアテンション メカニズムの絡み合った使用に焦点を当てた Transformer の概念が登場しました。
その成功の多くは、これらのモデルが適切にスケールできるようであり、より多くのパラメーターとデータを追加することでモデルを大きくできることだと思います。これが成功の秘訣です。今では当然のことのように思えますが、5 年前にはこれが明確な概念ではなかったと思います。
Transformer が成功する理由は次のとおりです。 まず、Transformer は汎用性が高く、大量のデータから多くのことを学ぶことができます。第二に、非常にハードウェアに優しいということです。以前のリカレント ニューラル ネットワーク (RNN) とは異なり、順序依存性がありません。
つまり、GPU、TPU 上で非常にうまく動作し、拡張性があり、ハードウェアを非常に効率的に利用します。私自身もハードウェアの活用効率化に取り組んでいます。つまり、それが成功の秘訣です。汎用性があり、適切に拡張できるアーキテクチャを作成することです。 NLP に興味がある場合は、モデルを強化するために帰納的バイアスを追加することを検討するとよいでしょう。個人的には、Transformer は非常に一般的なアーキテクチャであり、拡張性が高く、ハードウェアに非常に適していると思います。
ネイサン・ランバート: はい、はい。振り返ってみると、それはすべて明らかなことのように思えます。さて、その代替手段を検討するとき、興味深いのはコンテキストの長さです。マイケル、どう思いますか?
マイケル・ポーリ: はい、言いたいことがいくつかあります。まず第一に、トランスを第一原理から説明しようとする優れた研究はまだたくさんありますが、なぜトランスはこのような興味深い回路を学習できるのでしょうか?人々は、さまざまなトランスのヘッドの組み合わせなど、計算プロセスを細分化します。
Transformer をコード化されたプログラミング言語として理解するための作業がいくつかあります。しかし、Trey 氏が述べたように、『Transformer』には非常に興味深いデザインの選択肢がいくつかあると思います。注意と MLP を組み合わせて使用することは非常に重要です。さらに、Transformer が当初成功したのは、モデルが吸収する情報を制御するゲート メカニズムの使用や、この並列形式で特定のコンテンツを使用するかどうかの決定など、RNN やその他の従来の NLP モデル用に開発されたいくつかの技術を採用していたためです。 . 忘れられる速度。 GPU 上で最適化できる宝石がいくつかあるようなもので、簡単ではありませんが、最適化することは可能です。
Nathan Lambert: ああ、これは素晴らしいですね。私が申し上げたいより具体的な点は、アテンション メカニズムは最終的に、入力シーケンスの長さに応じて二次関数的に増加する計算コストを示すということです。長さ L の入力シーケンスがあり、同じく長さ L のシーケンスを出力するとします。数学的な詳細を掘り下げて、ほとんどのライブラリが推論を行うときに何が起こるかを調べてみると、テキストの過去の部分のみを考慮できる、この上三角の注意行列があることがわかります。処理が進むにつれて、L 二乗関係が形成されていることがわかります。最初のトークンは 1 つの要素のみを考慮し、後続の各トークンは徐々に過去のトークンを考慮します。 RNN と、いくつかの非注意メソッドがシーケンス内のすべてのテキスト履歴を調べずにこれを行う方法について説明しました。チャットボット GPT に長いプロンプトを書き込むとき、その中にすべての情報をエンコードしたいでしょうか?この高密度の注意マトリックスのほかに、他にどのような選択肢があるでしょうか?
Tri Dao: リカレント ニューラル ネットワークの歴史は 1980 年代にまで遡ります。おそらく、より有名なのは長短期記憶ネットワーク (LSTM)、ゲート型リカレント ユニットです。 (GRU)。 NLP における SOTA テクノロジーだった 2012 年から 2016 年頃に、翻訳や音声認識などで非常に人気がありました。
これらはテキストを逐次的に処理します。つまり、トークンを 1 つずつ観察し、次に非表示の状態を変更し、新しいトークンが表示されるたびに非表示の状態を更新します。これはある意味、人間の脳が文章や段落を読んだり、脳内に情報を保存したりして情報を処理する方法を模倣していると思います。文書を読み終えると、その文書を再び参照することなく、その文書に関する質問に答えることができる場合があります。これが RNN の仕組みです。これらはテキストを処理してから、新しいトークンの生成やドキュメントの分類に使用できる表現である非表示状態を変更します。
これらの方法は、2016 年頃に非常に人気がありました。しかし、実験結果が出るにつれて、その性能がトランスフォーマーほど良くないことが徐々にわかってきました。前述したように、Transformer には、各トークンが以前のすべてのトークンと比較されるような 2 次展開プロパティがあり、情報を拡散するための非常に簡単な方法が提供されます。これが、トランスフォーマーと注意メカニズムが非常にうまく機能する理由の 1 つであると私は信じています。
最近、いくつかの新しい RNN アーキテクチャが良好なパフォーマンスを発揮することが判明しました。その中には、RWKV が初期のものの 1 つがあります。研究者のボー・ペン氏が開発したこのプロジェクトを私はとても尊敬しています。独自の方法で Transformer と競合するようで、RNN の強力な可能性を示しています。
ネイサン・ランバート: はい。私もこの論文を以前に読みました。技術レベルでは、基本的に特定のアテンションの拡張などの潜在的な問題を排除するために、2 つの線形 RNN を介してアテンション メカニズムでクエリのキーと値のルックアップに似たものを複製しようとしました。これら 2 つの RNN は、ロングコンテキストでの動作が向上し、実装ルールが異なります。また、最大 140 億のパラメーターを使用してモデルをトレーニングしました。これは、マンバやシマハイエナなど、次に尋ねたいいくつかの質問にもつながります。一人ずつ話せます。
Nathan Lambert: Together API を使用して、ミストラルとシマハイエナの比較テストを行いました。結果は、シマハイエナが優れた言語モデルであることを示しています。明らかな障害モードもなく、ほとんどの質問に答えます。マイケル、このモデルについてどう思いますか?
Michael Poli: まず、これらの新しい手法の間には興味深い関係があると言いたいと思います。中心点を持つ凸集合があり、線形アテンション (つまり、ソフトマックスなしのアテンション)、線形 RNN、状態ベース モデル (SSM) の間の相関関係はすべてこの凸集合に含まれます。この基礎となるモデルの数学的定式化はある程度まで同じです。ここで言うのはインフラストラクチャのことではなく、基礎となるモデルのことです。
その後、さまざまな方向で開発できます。各方向には、機能マッピングの方向やカーネルの方向など、独自のトレードオフがあります。したがって、ソフトマックスを分割または削除すると、クエリとキーを処理するときに別のアプローチを取ることができます。これらのクエリとキーは、注意マトリックスを構成する基本的なエンティティです。ソフトマックスを削除した後、他のカーネルに似た関数、またはアテンション メカニズムの関数に近似できる他の関数を構築できます。
テイラー近似やテイラー展開などを行うことができます。わずかに異なる視点が得られますが、非常に似たものが得られます。時間差異に切り替えることができます。これは、計算が入力シーケンスにより多く依存するように RNN を変更することを意味します。つまり、線形 RNN の計算は入力シーケンスによって決まります。ゲートなどを使用できます。たとえば、固定状態の寸法をより有効に活用できるように追加のゲートで内部張力を更新するなど、多くの作業が行われてきました。 3 番目の方向性は、少なくとも私の意見では、畳み込み形式を使用し、組み合わせ可能で並列トレーニングが可能な他のタイプの線形演算子をさらに使用することです。
したがって、ここでの内容には時間不変システムが含まれます。これらの点については詳しく説明できますが、コンボリューションとループを切り替えることができるモデルもあり、追加のゲート機構も備えています。私が参加したプロジェクトは、先ほど述べた 3 番目のタイプのアーキテクチャから生まれました。私たちが実際にやろうとしているのは、浮動小数点演算ごとに最高のパフォーマンスを備えたアーキテクチャを作成することです。私たちが繰り返し検証してきた原則の 1 つは、さまざまなレイヤー、さまざまなカテゴリのモジュール、さらにはフル アテンション レイヤーを組み合わせることで、個々のコンポーネントよりも優れたものが得られるようだということです。
そこで、私たちはこれらのモデルの組み合わせの側面をより深く理解しようとしています。この理解は、浮動小数点演算ごとのパフォーマンスが向上した事前トレーニング済みモデルを作成するのに役立ちます。このモデルを使用して、一連のスケーリング ルールを実行しました。ハイブリッド化により、すぐに使用できるものが必要になり、プロセスが大幅に簡素化されたため、いくつかの利点も得られました。
より長いコンテキストに合わせて微調整する場合、Transformers 用に開発された技術の一部を採用できます。驚くべきことに、これらのテクニックはハイブリッドでも同様に機能します。たとえば、線形スケーリングは回転埋め込みなどに使用されます。詳細に興味がある場合は、さらに詳しく学ぶことができます。したがって、このプロジェクトは主に、現在の環境でどこまでできるかを把握するための実験的な試みです。
##Nathan Lambert: スジハイエナは、新しいモデル接木技術のセットを使用しています) を可能にするように最適化されました。トレーニング中にモデルのアーキテクチャを変更することもできますが、私にとっては、データのように、おそらくあまり話せないようなことがたくさん起こっているように感じます。
データの解釈に関しては、特に長いコンテキスト データの一部で、まだ十分に説明されていない部分があると思います。モデルの観点からこれらのデータが何を意味するのか説明していただけますか?簡単に要約するだけでも、私たちにとって素晴らしい経験になったことでしょう。 この分野にはすばらしい仕事がたくさんあるので、AI 分野ではたくさんの新しいプロジェクトが進行中です。たとえば、ラマ僧の資格を取ろうとしている人もいます。モデルを分離してトレーニングを続けます。実際、人々は強力なモデルを利用して、より大きなモデルと同じパフォーマンス上のメリットを享受しながら、より小さなモデルにしようと試みているという、少々乱暴な状況です。 これはちょっと話題から外れましたが、私が予想していなかったのは、ソーシャルメディアをフォローしていると、人々がこう言うのを見ることになるということです。最終的に注目モデルが優勝しました。私の意見では、この声明は多くの興味深い詳細を曖昧にしています。 さて、マンバに戻りましょう。私の記憶が正しければ、Mamba スイートの最大のモデルは 2 億 8,000 万のパラメーターであり、GPT J や Pythia モデル スイートを含む NLP ベンチマークによって与えられるベンチマーク スコアは非常に強力です。Tri Dao: Mamba は、私と、当時スタンフォード大学の博士課程の学生だった Albert Gu とのコラボレーションでした。そこで私たちはそこで出会いました。彼は現在 CMU の助教授です。素晴らしいコラボレーションでしたし、マンバの成功は彼のおかげだと思います。アルバートは状態空間モデルの研究に力を入れており、ある意味、先ほども述べたように、線形テンソル、線形RNN、畳み込み、ニューラルネットワークなどの分野に携わってきました。
私は過去に参加したいくつかのプロジェクトで、空間と状態空間の研究にも専念してきました。私の研究の視点は、状態空間をハードウェアでより効率的にする方法です。そしてそのパフォーマンスを向上させます。ですから、アルバート・グーと仕事をするのは素晴らしいことでした。 Mamba に関する研究プロセスは、状態空間が実際に NLP の変換と同じくらい優れているという概念の実証に近いものだったと思います。したがって、Mamba 氏は、状態空間がオーディオに適している可能性があることを示唆する研究を行っています。ただし、状態空間モデルの場合、言語は常に入手が最も困難であり、うまく機能します。さらに、言語は現在人々が最も関心を持っているものでもあります。そのため、私がやっているのは概念実証のようなものです。つまり、状態空間モデルにも競争力があり、競合することさえできることを示したいのです。トランス付き。実験で検証されたトークンの数は 3B から 300B の範囲です。
したがって、絶対的な意味で、これらはあまり強力なモデルではなく、私たちが本当に望むモデルでもありません。私たちがやっているのは学術的な比較だと思います。たとえば、同じ数のトークンをトレーニングする場合、状態空間モデルはトランスフォーマーよりわずかに優れている可能性があります。
これは私たちにとって特にエキサイティングなことであり、アルバートはしばらくの間これを推し進めてきたと思います。
その結果、私たちの研究は推論が速くなり、おそらく文脈学習がどのように発生するかを別の方法で理解できるようになるでしょう。今後の仕事が楽しみです。
Nathan Lambert: これらを実装するために実際に何が必要かについて少し話していただけますか新しい CUDA カーネルは何をするのでしょうか?
Tri Dao: 状態空間の研究に関しては、ある意味リカレント ニューラル ネットワークです。状態サイズは、シーケンスの走査または処理中に情報を格納するために使用するバッファーです。
Transformer はある意味、このように理解することもできます。Transformer が保存する履歴全体を KV キャッシュと呼びます。Transformer は履歴を保持し、継続的に参照します。 RNN の場合、状態のサイズは固定されていますが、トランスフォーマーの場合、状態のサイズは増加すると考えることができます。さらに、私たちの直観では、状態サイズが大きいほど、モデルのパフォーマンスが向上します。
したがって、覚えておく必要がある情報を保存するには、より多くのスペースが必要です。以前のモデル (S4 など) は、隠れ状態のサイズがかなり大きく、状態の具体化を避けるために畳み込みビューを使用していました。
ループに入力依存関係をさらに追加したいと考えていますが、そうすると効率を向上させる畳み込みビューを使用できなくなります。
そこで、効率を向上させる別の方法を見つける必要があったため、GPU の効率を向上させることに重点を置きました。アイデアとしては、大きな状態サイズが必要ですが、HBM などの実際の GPU メモリを使用する必要はなく、SRAM と呼ばれるより高速なメモリに大きな状態を保存できます。キャッシュ。 CPU に詳しい場合は、通常、これはキャッシュと RAM です。
したがって、より大きな状態がある場合は、それをキャッシュに保存して、あまり苦しまないようにすることができます。
Nathan Lambert: 現時点での GPU と TPU に関する私の最も強力な洞察は、MoE It です。ベースレイヤーに MoE を追加する必要があるため、TPU ではうまく機能しません。
分散トレーニングでは、フィードフォワード層が異なる TPU ノードに分散される可能性があり、TPU は隣接するノードを介して通信します。したがって、TPU は GPU に比べてこの点でより大きな影響を受けます。 2024 年にこの空間で何が起こるでしょうか?
Tri Dao: Transform は依然として非常に強力なアーキテクチャであり、現在では 1 兆レベルのパラメータまで拡張でき、人々は最高のパフォーマンスのモデルを求めることが多いと思います。ハードウェアで最も効率的に実行され、ソフトウェアで最も多くのサポートが提供されます。
私は最近、状態空間などの新しいアイデアをいくつか考えています。 Michael が述べたように、これらのコンポーネントを混合するとパフォーマンスが向上することがわかりました。それは 7B サイズのモデルで実証されていると思います。おそらく、状態空間モデルはより大規模なモデルでも機能する可能性があります。
現在、ほとんどの人が Lime アーキテクチャに基づくデータとインフラストラクチャの構築に注目しています。既存の Transformer アーキテクチャは依然として非常に強力で、運用環境で広くサポートされていますが、ロングコンテキスト、オーディオ、ゲノミクスなどの一部の周辺領域は、これらの領域の代替アーキテクチャを研究するのに非常に興味深いでしょう。これらの領域は、モデルが人間と同じように指示や直観を理解するかどうか、定量的手法を使用できるかどうかなど、有意義な科学的疑問を引き起こします。
さらに、現在はまだ Transformer アーキテクチャが使用されているとしても、将来的には、より多くのレイヤーやアテンション メカニズムの追加など、より多くの新しいアイデアやコンポーネントが組み込まれる可能性があります。まだトランスフォーマーと呼ばれているかもしれませんが。
つまり、現在の人工知能の分野は保守的で現代的なアーキテクチャに焦点を当てている傾向がありますが、新しいアーキテクチャやアイデアが徐々に出現しており、これらの斬新な視点や手法が新たな刺激をもたらす可能性があります。そして人工知能の発展の方向性。
Michael Poli: はい、私は Tri Dao の意見に 100% 同意します。アテンション メカニズムはコンピューティングのプリミティブとして依然として重要です。効率的かつ便利な方法として、アテンション メカニズムはシーケンス プロセッサの状態容量を効果的に増加させることができます。
状態の次元とシーケンスの長さの間にはトレードオフがあります。モデルのサイズが大きくなると、つまりモデルの幅が広くなると、より多くの状態とシーケンスの長さが効果的に導入されます。その結果、特に 14B、30B などの非常に大きなモデルの場合、一部の限界効果がなくなり、一部のトレードオフが変化する可能性があります。
将来、建築設計はより興味深く複雑になり、さらなるイノベーションが起こるでしょう。ハイブリッド モデルであれ、新しいモジュールの導入であれ、さらにエキサイティングなイノベーションが見られるでしょう。
ネイサン ランバート氏によると、専門家混合 (MoE) と状態空間モデルが最近人気のトレンドとして浮上しています.
しかし、オープンソースや学術界では、ハイブリッド エキスパート モデルに関して初期の試みや改善を実際に試みようとした人は誰もいません。モデルグラフティングは現在、より実用的になってきています。
これらの動向を追跡することは非常に興味深いものであり、特に業界が規模拡大に重点を置いている現在、これらの展開が学者や科学者に業界の会話に影響を与えるより多くの方法を提供することを願っています。の場合のモデル。私は、オープンソース企業が商業的な利点を得るために、言語モデルを具体的に改善する必要があることを提案します。
機械学習において他に力を入れていることは何ですか?それは必ずしも状態空間モデルに関するものではありません。来年一番楽しみなことは何ですか?
Tri Dao: 個人的には、やはりデータが最も重要な要素だと考えています。私たちは、たとえばモデルのパフォーマンスと高度に相関するいくつかの合成タスクを通じて、データがモデルのパフォーマンスにどのように影響するかをさらに詳しく調べています。このアプローチは、私たちの論文や研究活動における主な動機と例となっています。今後はデータに注力していきます。
アーキテクチャの作業はすべて楽しいものであり、それをハードウェア上で効率的に実行することも楽しいものですが、最終的に重要なのはやはりデータです。スケーリングの法則を理解している場合は、異なるモデル アーキテクチャでは、オフセットが異なるだけで、同じ傾きを持つことがよくあることがわかります。傾きを変えるように見える唯一のことは、データの品質です。
Michael Poli: はい、データを追加しました。データは非常に興味深いもので、アーキテクチャ設計の小型化、言語モデリングなどのタスクに含まれるさまざまな側面の把握と細分化などで、私たちはそれらを反復処理に使用できるものにパッケージ化しようとしています。これは非常にエキサイティングです。
私は個人的に、新しいアプリケーション、特にゲノミクス研究に非常に興奮していますが、よりエンジニアリングの観点から見ると変化が見られます。現在、言語は依然として最もクリックされ、最も関心を集めている領域ですが、時間の経過とともに変化すると思います。
ネイサン ランバート: はい、誰もが言語について話していますが、画像やビデオは大きな価値を生み出すものになると思います。言語の上限がどこにあるのかわかりません。興奮しています。これを試し始めました。ブログからテキストを取得し、モデルにそれを画像に変換させてから、音声付きのビデオに変換させるなど、すべて Python スクリプトで実行できます。とても簡単です。それ。ですから、言語を超えたものは面白いということに私も同意します。
Tri Dao: あなたの経験では、これらすべてを組み合わせたとき、実際にかなりうまく機能しますか?
Nathan Lambert: まだ完璧ではありません。DALL・E によって生成された画像は比較的似ていますが、私のアプローチは非常にシンプルで、テキストを直接取得するだけです。 , 次に、システム プロンプトを使用してモデルにさまざまな画像を生成させると、もっとうまくできると思います。私の知る限り、おそらく 1 年以内にテキストからビデオへの API が登場し、その後その API に切り替えることになるでしょう。そして、それは素晴らしい経験となるでしょう。
Tri Dao: はい、これらの進歩は確かに多くの経済的価値を生み出すと思います。そして私たちはそれを目の当たりにしました。現在、多くの企業がこれらのテクノロジーに注目しています。それは私たちの働き方、そしてあなたが言ったように、私たちの働き方と遊び方を変えることになると思います。ですから、それは非常にエキサイティングな未来です。
元のリンク: https://www.interconnects.ai/p/interviewing-tri-dao-and-michael?cnotallow=5d10d34c97637bebcfeba6470c0f0d9b
以上がLLM の将来のアーキテクチャ: Transformer の優位性を揺るがす可能性があるのは誰ですか?の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。