ホームページ  >  記事  >  テクノロジー周辺機器  >  数百億、数千億のパラメータを持つ基本モデルの後は、データ中心の時代に突入するのでしょうか?

数百億、数千億のパラメータを持つ基本モデルの後は、データ中心の時代に突入するのでしょうか?

王林
王林転載
2023-05-08 08:46:361157ブラウズ

近年、GPT-3、CLIP、DALL-E、Imagen、Stabile Diffusionなどのベーシックモデルの登場には目を見張るものがあります。これらのモデルによって実証された強力な生成機能と文脈学習機能は、ほんの数年前には想像もできなかったものでした。この記事では、これらの大規模テクノロジーの商用化について検討します。これらのモデルは現在、業界大手だけの領域ではなく、その価値は分野や重要な問題の説明にますます反映されており、その中心となるのはデータです。基礎となるモデルの急速な開発の影響はまだ特定されていないため、多くは推測に基づいています。

数百億、数千億のパラメータを持つ基本モデルの後は、データ中心の時代に突入するのでしょうか?

プロンプト: 「タコ キャット」 (あまり真剣に考えないでください)

機械学習の観点から見ると、タスクの概念は非常に基本的なものです。タスクを指定するトレーニング データを作成し、トレーニングを通じて一般化します。したがって、業界では何十年もの間、次の 2 つの主要な見解がありました。

  • #「無駄な入力、無駄な出力」、つまり、システムに入力されるデータ/機能情報です。モデルによって、モデルの成功か失敗が決まります。
  • 「パラメータが多すぎると過学習につながります。」 過去 20 年間、一般モデルと疎モデルの開発が一般的になってきました。一般に、スパース モデルにはパラメータが少ないため、過剰適合が軽減され、より適切に一般化できると考えられています。

これらの見解は一般に合理的ですが、いくぶん誤解を招きやすいものでもあります。

基本モデルは、広範囲のデータでトレーニングでき、さまざまなタスクに使用できるため、タスクに対する私たちの理解を変えています。一部のユーザーが対象のタスクを明確に理解していない場合でも、特別なトレーニングを必要とせずにこれらのモデルを簡単に適用できます。これらのモデルは自然言語またはインターフェイスを使用して制御できるため、分野の専門家がモデルの使用を推進し、新しい環境ですぐに魔法を体験できるようになります。この探索プロセスにおいて、ユーザーの最初のステップは、特定のトレーニング データ セットを厳選することではなく、遊んでアイデアを出し、アイデアを素早く反復することです。基本モデルを手に入れたので、それがまだ想像していなかったタスクを含むさまざまなタスクにどのように適用されるのかをさらに知りたいと思いました。

人工知能開発の次の波から利益を得るには、これまでの主流の見解の限界 (および知恵) を再検討する必要があるかもしれません。この記事では、そこから始めて、基本モデルにどのような変更が見られるかを調査し、最後に基本モデルが従来のアプローチにどのように適合するかを説明します。

無駄な入力、無駄な出力、それだけですか?

タスクレスの基本モデルは爆発的に増加しています。これまでのところ、その多くはモデルのアーキテクチャとエンジニアリングに関するものでしたが、これらのモデルがどのように統合されるかの兆しが見え始めています。データが基盤となり、差別化の根本的なポイントになった前例はありますか?私たちは、教師あり機械学習におけるモデル中心のアプローチとデータ中心のアプローチの間を行ったり来たりするのを見てきました。

2010 年代後半の一連のプロジェクトでは、機能の品質が鍵でした。古いモデルでは、機能はドメインの知識をエンコードするツールでした。これらの特徴は安定性が低く、処理担当者は、より安定した信頼性の高い予測を得るために、この情報を特徴付ける方法について低レベルの詳細を習得する必要があります。

ディープラーニングが成功するのは、人々がこれらのことが苦手であるためです。ディープラーニング革命が本格化しており、arXivでは新しいモデルが次々と登場しており、本当に衝撃的です。これらのモデルは、特徴量エンジニアリングなど、以前は手動で行っていた操作を完全に自動化します。このモデルは優れており、深層学習を通じてテキストや画像などの生データを適切に特徴付けることができます。これは生産性の大幅な向上です。ただし、これらのモデルは完璧ではなく、この分野を継続的に理解することが依然として重要です。では、これをモデルにどのように組み込むのでしょうか?

ユーザーは、効率的に情報を入力し、アプリケーションを解釈し、モデルと対話するためのキャリアとしてトレーニング データを使用していることがわかります。これはすべて、ツール、理論、抽象化なしに「暗闇」で起こります。私たちは、ユーザーが自分のデータに対して基本的なプログラミングの抽象化を行うことができるべきだと考え、Snorkel プロジェクト (そして会社) が誕生しました。したがって、知識レベルでは、データ中心の AI と弱い監視の時代に入っています。ここから 2 つの重要な教訓を学ぶことができます:

  • ある技術が安定すると、その価値はデータに戻ります。この場合、TensorFlow、PyTorch、MXNet、Theano などのテクノロジーの登場により、ディープラーニング技術が商用化され始めましたが、具体的な問題の説明では、データの分布、タスクの仕様、等したがって、成功は関連情報をモデルにどのように導入するかにかかっています。
  • ノイズに対処できる (そして対処する必要がある) のです。基本的な数学と工学は原理的にノイズ処理に役立ちます。ユーザーが自分の知識をトレーニング データで完全に表現することは困難であり、データ ソースによって品質が異なる場合があります。弱い監視の基本理論を研究したところ、モデルはノイズの多いデータから多くのことを学習できることがわかりました (すべての役に立たないデータが悪いわけではありません)。とはいえ、無駄な情報を入力することは避けてください。ただし、データにこだわりすぎないように注意してください。

プロンプト: "ノイズのある画像" ノイズのある画像から何か興味深いものは見つかりましたか?

# 簡単に言えば、データは質問や分析をコード化します。たとえテクノロジーがコモディティ化したとしても、データの価値は残ります。したがって、役に立たない情報が良いというわけではありませんが、この区別を絶対化しすぎないでください。データが役に立つか役に立たないかは、最も効果的な方法で活用されるかどうかによって決まります。

基本モデルは大量のデータに基づいてトレーニングされ、さまざまなタスクで広く使用されており、データ管理に新たな課題をもたらしています。モデル/アーキテクチャのコモディティ化が進むにつれて、モデルの汎用性を確保するために大量のデータを効率的に管理する方法を理解する必要があります。

パラメータが多すぎると過学習が発生しますか?

魔法のようなコンテキスト上の特徴が見られるのはなぜでしょうか?モデリングの選択 (アーキテクチャとアルゴリズム) はこれにどのように貢献しますか?大規模な言語モデルの魔法の特性は、神秘的なモデル構成から来ているのでしょうか?

約 10 年前、大まかな機械学習の一般化理論では、モデルが倹約的すぎる (つまり、あまりにも多くの偽の特徴を当てはめることができない) 場合、モデルは一般化されると考えられていました。これについては、VC 次元や Rademacher の複雑さなどの理論分野における主要な成果として、より正確に説明できるかもしれません。その過程で、一般化には少数のパラメータも必要であるらしいことがわかりました。しかし、そうではありません。過剰なパラメータ化は大きな問題ですが、現在は反例として大規模なモデルがあります。これらの大規模なモデル (データ ポイントよりもパラメータが多い) は、気が遠くなるような複雑なあらゆる種類の関数に適合しますが、それでも一般的です。 (ランダムなラベルが付いている場合でも) 化されます。

過剰なパラメータ化の考え方は私たちに誤解を招きますが、最近の洞察により新しい方向性が開かれました。これらの大規模なモデルには魔法のような機能がいくつか出現していますが、これらの機能は、ほとんどの人がアクセスできない、機械でトレーニングされた特定のアーキテクチャによってのみ有効になるというのが一般的な考えです。私たちや他の研究活動の 1 つの方向性は、これらの魔法の機能をシンプルで古典的なモデルに実装しようとすることです。私たちの最近の状態空間モデルは、数十年にわたる信号処理作業に基づいており (したがって、古典的なモデルに適合します)、いくつかの状況に応じた機能を示します。

さらに驚くべきことは、古典的な BERT 双方向モデルにもコンテキスト機能があることです。関連する論文を書いている人はまだたくさんいると思いますので、私たちに送っていただければ、注意深く読んで引用させていただきます。私たちは、文脈学習の魔法のような機能が私たちの周りにあふれており、宇宙は私たちが理解している以上に魔法的であると信じています。あるいは、もっと冷静に考えてみると、人間は条件付き確率を理解するのがそれほど得意ではないのかもしれません。

大規模なモデル フレームワーク内ではすべてが正常に動作しているようです。基礎となるモデルの魔法の機能は安定していて商業化可能であるように見え、データはその中での差別化ポイントとみなされます。

今はデータ中心の基本モデルの時代なのかもしれませんね。

私たちはデータ中心の教師あり学習への移行を繰り返しているのでしょうか?言い換えれば、モデルやエンジニアリングはコモディティ化しているのでしょうか?

コモディティ化されたモデルとオープンソース情報の台頭。私たちは、基本的なモデルがコモディティ化され、使用されているのを目にしています。そうですね、それは非常に「ディープラーニング」であると感じます。私たちにとって、モデルのコモディティ化の最大の証拠は、その入手可能性です。影響力には主に 2 つのタイプがあります。1 つは人々のニーズ (安定性など) であり、もう 1 つは大企業がそれを利用できることです。オープンソースは趣味的な関心から生まれたのではなく、大企業や政府外の人々がこのようなものが必要だと判断したために生まれました (「Python の台頭」を参照)。

最新のスーパー企業が新しいスーパーモデルを発売するのを待っていますか?

最大の違いはどこから来るのでしょうか?データ!これらのツールはますます利用可能になってきていますが、基礎となるモデルは必ずしもすぐに利用できるわけではありません。デプロイメントはどのように処理されるのでしょうか?新しいスーパー会社が新しいスーパーモデルを発売するのを待っていますか?これも一つの方法と言えるでしょう!しかし、私たちはそれをニヒリズムと呼びます。このモデルがオープンソースになるかどうかを言うのは難しいですが、API に送信できないプライベート データを基盤とするモデル アプリケーションはどうなるでしょうか?モデルには 100 兆個のパラメータがあり、何人のユーザーがそれにアクセスして使用できるのでしょうか?モデルのトレーニング内容は何ですか?モデルは主に公開データに基づいてトレーニングされます...

つまり、関心のあることをモデルが認識できるという保証はほとんどないということですか?基本モデルが機能するように、その魔法の特性を維持するにはどうすればよいでしょうか?基礎となるモデル データを効果的に管理し (データは重要です!)、テスト時に優れたオープン ソース モデルを最大限に活用する必要があります (テスト中に入力データとコンテキスト データを適応させることが重要です!):

データ管理とデータ中心のスケーリング?予測: データセットを収集する賢い方法により、小さくて美しいモデルが得られます。私たちの目を開かせたスケーリング法の論文は注目に値します。たとえば、最初にスケーリング法を研究した OpenAI や DeepMind の Chinchilla などです。デフォルトの参照アーキテクチャ (変換) がありますが、トークンの数はデータの情報内容をある程度表します。経験上、データは主題と品質において大きく異なります。私たちは、本当に重要なのは、重複と秩序のある実際の情報ビットであるという予感を持っています。エントロピーのような情報理論の概念が、大規模および小規模ベースのモデルの進化を促進する可能性があります。

#テスト中の情報の入力と計算。基本モデルは必ずしもすぐに利用できるわけではありませんが、新しい方法でテストすると、計算に大きな違いが生じる可能性があります。クローズド ソース モデル API の使用に伴うコストとプライバシーの欠如を考慮して、私たちは最近、テスト時に小さなモデルを効率的に使用することで仕様ベンチマーク レベルで上回ることができる 30 分の 1 小さいパラメーターを備えたオープンソースのベース モデルを立ち上げました。 OpenAI のクローズド ソース モデル - これこのアプローチは、Ask Me Anything (AMA) プロンプトと呼ばれます。テスト時、ユーザーは関心のあるタスクのプロンプトまたは自然言語説明を通じて基礎となるモデルを制御します。プロンプトの設計はパフォーマンスに大きな影響を与える可能性があります。プロンプトを正確に取得することは複雑で困難であるため、AMA は、さまざまな品質の一連のノイズの多いプロンプトを使用し、統計理論を使用してノイズ問題に対処することを推奨しています。 AMA には、Maeutic Prompting、リフレーミング GPT-k、AI チェーンなど、多くのインスピレーションの源があります。重要なのは、テスト時に新しい方法で計算を実行できることです。モデルに一度だけプロンプトを表示する必要はありません。これはトレーニング時のデータ管理だけでなく、テスト時の入力データとコンテキスト データの調整にも当てはまります。

数百億、数千億のパラメータを持つ基本モデルの後は、データ中心の時代に突入するのでしょうか?

プロンプト: 「本当に小さな AI モデル」

AMA より小規模なモデルはさまざまなタスクに適合する優れた推論能力をすでに備えていることがわかりますが、大規模なモデルの重要な価値は事実のデータを記憶することにあるようです。小さなモデルは事実に基づくパフォーマンスが低いため、この問題を解決するにはデータや情報をどのように導入すればよいでしょうか?奇妙なことに、SGD を使用してファクトをニューラルネットワークに保存し、それらをファジー浮動小数点値に変換します。この抽象化は、DRAM を使用したキーと値のストアよりもはるかに効率が悪いように見えます。ただし、AMA の結果を見ると、時間変動またはドメインに特化したファクトの点では、小規模モデルと大規模モデルの差ははるかに小さいことがわかります。私たち Apple は、自己構築時に返すファクトを編集できる必要があります。 - 監視対象モデル (ビジネス上の理由から)、サービスを実行するために他のソフトウェア ツールを組み込む必要もあります。したがって、モデル呼び出しインデックスを持つことが非常に重要です。上記がこのタイプのモデルを使用する十分な理由であるかどうかは時間が経てばわかります。

これは私たちをどこへ導くのでしょうか?基本モデルは従来の手法と並行して機能します。データ中心のモデルが探索と展開の両方のエンドで進行していることを想定し、高速なイテレーションとタスクに依存しないワークフロー、つまり探索フェーズで、データ管理/テスト時間戦略を通じて、既製の一般的なベース モデルをより有用かつ効率的にします。ユーザーは、より明確なタスク定義を持って探索フェーズを終了し、データ中心の AI を使用し、複数のプロンプトやベース モデルを活用して組み合わせることでシュノーケルの方法でトレーニング データ (独自のデータが重要です) を管理します。トレーニングをより小さく、より速く行うことができます。独自の」モデル。これらのモデルは実際の運用環境に導入でき、特定のタスクや特定のデータに対してより正確です。あるいは、基礎となるモデルを使用して、弱教師技術を改善することもできます。この技術により、研究室とシュノーケルのメンバーの一部が UAI 賞を受賞しました。

最終的な分析では、データはモデルの最終的な生産に関連します。コモディティ化されていないのはデータだけです。私たちは、Snorkel のデータの見方が前進する道であると今でも信じています。最終的なタスクに向けて展開可能なモデルをトレーニングするには、異種のデータ ソースと監視信号を表現、結合し、繰り返し修正する方法であるプログラミング抽象化が必要です。

以上が数百億、数千億のパラメータを持つ基本モデルの後は、データ中心の時代に突入するのでしょうか?の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

声明:
この記事は51cto.comで複製されています。侵害がある場合は、admin@php.cn までご連絡ください。