数百億、数千億のパラメータを持つ基本モデルの後は、データ中心の時代に突入するのでしょうか?-AI-php.cn

ホームページ

テクノロジー周辺機器

数百億、数千億のパラメータを持つ基本モデルの後は、データ中心の時代に突入するのでしょうか?

王林

May 08, 2023 am 08:46 AM

aiモデル

近年、GPT-3、CLIP、DALL-E、Imagen、Stabile Diffusionなどのベーシックモデルの登場には目を見張るものがあります。これらのモデルによって実証された強力な生成機能と文脈学習機能は、ほんの数年前には想像もできなかったものでした。この記事では、これらの大規模テクノロジーの商用化について検討します。これらのモデルは現在、業界大手だけの領域ではなく、その価値は分野や重要な問題の説明にますます反映されており、その中心となるのはデータです。基礎となるモデルの急速な開発の影響はまだ特定されていないため、多くは推測に基づいています。

数百億、数千億のパラメータを持つ基本モデルの後は、データ中心の時代に突入するのでしょうか?

プロンプト: 「タコキャット」 (あまり真剣に考えないでください)

機械学習の観点から見ると、タスクの概念は非常に基本的なものです。タスクを指定するトレーニングデータを作成し、トレーニングを通じて一般化します。したがって、業界では何十年もの間、次の 2 つの主要な見解がありました。

#「無駄な入力、無駄な出力」、つまり、システムに入力されるデータ/機能情報です。モデルによって、モデルの成功か失敗が決まります。
「パラメータが多すぎると過学習につながります。」過去 20 年間、一般モデルと疎モデルの開発が一般的になってきました。一般に、スパースモデルにはパラメータが少ないため、過剰適合が軽減され、より適切に一般化できると考えられています。

これらの見解は一般に合理的ですが、いくぶん誤解を招きやすいものでもあります。

基本モデルは、広範囲のデータでトレーニングでき、さまざまなタスクに使用できるため、タスクに対する私たちの理解を変えています。一部のユーザーが対象のタスクを明確に理解していない場合でも、特別なトレーニングを必要とせずにこれらのモデルを簡単に適用できます。これらのモデルは自然言語またはインターフェイスを使用して制御できるため、分野の専門家がモデルの使用を推進し、新しい環境ですぐに魔法を体験できるようになります。この探索プロセスにおいて、ユーザーの最初のステップは、特定のトレーニングデータセットを厳選することではなく、遊んでアイデアを出し、アイデアを素早く反復することです。基本モデルを手に入れたので、それがまだ想像していなかったタスクを含むさまざまなタスクにどのように適用されるのかをさらに知りたいと思いました。

人工知能開発の次の波から利益を得るには、これまでの主流の見解の限界 (および知恵) を再検討する必要があるかもしれません。この記事では、そこから始めて、基本モデルにどのような変更が見られるかを調査し、最後に基本モデルが従来のアプローチにどのように適合するかを説明します。

無駄な入力、無駄な出力、それだけですか?

タスクレスの基本モデルは爆発的に増加しています。これまでのところ、その多くはモデルのアーキテクチャとエンジニアリングに関するものでしたが、これらのモデルがどのように統合されるかの兆しが見え始めています。データが基盤となり、差別化の根本的なポイントになった前例はありますか?私たちは、教師あり機械学習におけるモデル中心のアプローチとデータ中心のアプローチの間を行ったり来たりするのを見てきました。

2010 年代後半の一連のプロジェクトでは、機能の品質が鍵でした。古いモデルでは、機能はドメインの知識をエンコードするツールでした。これらの特徴は安定性が低く、処理担当者は、より安定した信頼性の高い予測を得るために、この情報を特徴付ける方法について低レベルの詳細を習得する必要があります。

ディープラーニングが成功するのは、人々がこれらのことが苦手であるためです。ディープラーニング革命が本格化しており、arXivでは新しいモデルが次々と登場しており、本当に衝撃的です。これらのモデルは、特徴量エンジニアリングなど、以前は手動で行っていた操作を完全に自動化します。このモデルは優れており、深層学習を通じてテキストや画像などの生データを適切に特徴付けることができます。これは生産性の大幅な向上です。ただし、これらのモデルは完璧ではなく、この分野を継続的に理解することが依然として重要です。では、これをモデルにどのように組み込むのでしょうか?

ユーザーは、効率的に情報を入力し、アプリケーションを解釈し、モデルと対話するためのキャリアとしてトレーニングデータを使用していることがわかります。これはすべて、ツール、理論、抽象化なしに「暗闇」で起こります。私たちは、ユーザーが自分のデータに対して基本的なプログラミングの抽象化を行うことができるべきだと考え、Snorkel プロジェクト (そして会社) が誕生しました。したがって、知識レベルでは、データ中心の AI と弱い監視の時代に入っています。ここから 2 つの重要な教訓を学ぶことができます:

ある技術が安定すると、その価値はデータに戻ります。この場合、TensorFlow、PyTorch、MXNet、Theano などのテクノロジーの登場により、ディープラーニング技術が商用化され始めましたが、具体的な問題の説明では、データの分布、タスクの仕様、等したがって、成功は関連情報をモデルにどのように導入するかにかかっています。
ノイズに対処できる (そして対処する必要がある) のです。基本的な数学と工学は原理的にノイズ処理に役立ちます。ユーザーが自分の知識をトレーニングデータで完全に表現することは困難であり、データソースによって品質が異なる場合があります。弱い監視の基本理論を研究したところ、モデルはノイズの多いデータから多くのことを学習できることがわかりました (すべての役に立たないデータが悪いわけではありません)。とはいえ、無駄な情報を入力することは避けてください。ただし、データにこだわりすぎないように注意してください。

プロンプト: "ノイズのある画像" ノイズのある画像から何か興味深いものは見つかりましたか?

# 簡単に言えば、データは質問や分析をコード化します。たとえテクノロジーがコモディティ化したとしても、データの価値は残ります。したがって、役に立たない情報が良いというわけではありませんが、この区別を絶対化しすぎないでください。データが役に立つか役に立たないかは、最も効果的な方法で活用されるかどうかによって決まります。

基本モデルは大量のデータに基づいてトレーニングされ、さまざまなタスクで広く使用されており、データ管理に新たな課題をもたらしています。モデル/アーキテクチャのコモディティ化が進むにつれて、モデルの汎用性を確保するために大量のデータを効率的に管理する方法を理解する必要があります。

パラメータが多すぎると過学習が発生しますか?

魔法のようなコンテキスト上の特徴が見られるのはなぜでしょうか?モデリングの選択 (アーキテクチャとアルゴリズム) はこれにどのように貢献しますか?大規模な言語モデルの魔法の特性は、神秘的なモデル構成から来ているのでしょうか?

約 10 年前、大まかな機械学習の一般化理論では、モデルが倹約的すぎる (つまり、あまりにも多くの偽の特徴を当てはめることができない) 場合、モデルは一般化されると考えられていました。これについては、VC 次元や Rademacher の複雑さなどの理論分野における主要な成果として、より正確に説明できるかもしれません。その過程で、一般化には少数のパラメータも必要であるらしいことがわかりました。しかし、そうではありません。過剰なパラメータ化は大きな問題ですが、現在は反例として大規模なモデルがあります。これらの大規模なモデル (データポイントよりもパラメータが多い) は、気が遠くなるような複雑なあらゆる種類の関数に適合しますが、それでも一般的です。 (ランダムなラベルが付いている場合でも) 化されます。

過剰なパラメータ化の考え方は私たちに誤解を招きますが、最近の洞察により新しい方向性が開かれました。これらの大規模なモデルには魔法のような機能がいくつか出現していますが、これらの機能は、ほとんどの人がアクセスできない、機械でトレーニングされた特定のアーキテクチャによってのみ有効になるというのが一般的な考えです。私たちや他の研究活動の 1 つの方向性は、これらの魔法の機能をシンプルで古典的なモデルに実装しようとすることです。私たちの最近の状態空間モデルは、数十年にわたる信号処理作業に基づいており (したがって、古典的なモデルに適合します)、いくつかの状況に応じた機能を示します。

さらに驚くべきことは、古典的な BERT 双方向モデルにもコンテキスト機能があることです。関連する論文を書いている人はまだたくさんいると思いますので、私たちに送っていただければ、注意深く読んで引用させていただきます。私たちは、文脈学習の魔法のような機能が私たちの周りにあふれており、宇宙は私たちが理解している以上に魔法的であると信じています。あるいは、もっと冷静に考えてみると、人間は条件付き確率を理解するのがそれほど得意ではないのかもしれません。

大規模なモデルフレームワーク内ではすべてが正常に動作しているようです。基礎となるモデルの魔法の機能は安定していて商業化可能であるように見え、データはその中での差別化ポイントとみなされます。

今はデータ中心の基本モデルの時代なのかもしれませんね。

私たちはデータ中心の教師あり学習への移行を繰り返しているのでしょうか?言い換えれば、モデルやエンジニアリングはコモディティ化しているのでしょうか?

コモディティ化されたモデルとオープンソース情報の台頭。私たちは、基本的なモデルがコモディティ化され、使用されているのを目にしています。そうですね、それは非常に「ディープラーニング」であると感じます。私たちにとって、モデルのコモディティ化の最大の証拠は、その入手可能性です。影響力には主に 2 つのタイプがあります。1 つは人々のニーズ (安定性など) であり、もう 1 つは大企業がそれを利用できることです。オープンソースは趣味的な関心から生まれたのではなく、大企業や政府外の人々がこのようなものが必要だと判断したために生まれました (「Python の台頭」を参照)。

最新のスーパー企業が新しいスーパーモデルを発売するのを待っていますか?

最大の違いはどこから来るのでしょうか?データ！これらのツールはますます利用可能になってきていますが、基礎となるモデルは必ずしもすぐに利用できるわけではありません。デプロイメントはどのように処理されるのでしょうか?新しいスーパー会社が新しいスーパーモデルを発売するのを待っていますか?これも一つの方法と言えるでしょう！しかし、私たちはそれをニヒリズムと呼びます。このモデルがオープンソースになるかどうかを言うのは難しいですが、API に送信できないプライベートデータを基盤とするモデルアプリケーションはどうなるでしょうか?モデルには 100 兆個のパラメータがあり、何人のユーザーがそれにアクセスして使用できるのでしょうか?モデルのトレーニング内容は何ですか?モデルは主に公開データに基づいてトレーニングされます...

つまり、関心のあることをモデルが認識できるという保証はほとんどないということですか?基本モデルが機能するように、その魔法の特性を維持するにはどうすればよいでしょうか?基礎となるモデルデータを効果的に管理し (データは重要です!)、テスト時に優れたオープンソースモデルを最大限に活用する必要があります (テスト中に入力データとコンテキストデータを適応させることが重要です!):

データ管理とデータ中心のスケーリング?予測: データセットを収集する賢い方法により、小さくて美しいモデルが得られます。私たちの目を開かせたスケーリング法の論文は注目に値します。たとえば、最初にスケーリング法を研究した OpenAI や DeepMind の Chinchilla などです。デフォルトの参照アーキテクチャ (変換) がありますが、トークンの数はデータの情報内容をある程度表します。経験上、データは主題と品質において大きく異なります。私たちは、本当に重要なのは、重複と秩序のある実際の情報ビットであるという予感を持っています。エントロピーのような情報理論の概念が、大規模および小規模ベースのモデルの進化を促進する可能性があります。

#テスト中の情報の入力と計算。基本モデルは必ずしもすぐに利用できるわけではありませんが、新しい方法でテストすると、計算に大きな違いが生じる可能性があります。クローズドソースモデル API の使用に伴うコストとプライバシーの欠如を考慮して、私たちは最近、テスト時に小さなモデルを効率的に使用することで仕様ベンチマークレベルで上回ることができる 30 分の 1 小さいパラメーターを備えたオープンソースのベースモデルを立ち上げました。 OpenAI のクローズドソースモデル - これこのアプローチは、Ask Me Anything (AMA) プロンプトと呼ばれます。テスト時、ユーザーは関心のあるタスクのプロンプトまたは自然言語説明を通じて基礎となるモデルを制御します。プロンプトの設計はパフォーマンスに大きな影響を与える可能性があります。プロンプトを正確に取得することは複雑で困難であるため、AMA は、さまざまな品質の一連のノイズの多いプロンプトを使用し、統計理論を使用してノイズ問題に対処することを推奨しています。 AMA には、Maeutic Prompting、リフレーミング GPT-k、AI チェーンなど、多くのインスピレーションの源があります。重要なのは、テスト時に新しい方法で計算を実行できることです。モデルに一度だけプロンプトを表示する必要はありません。これはトレーニング時のデータ管理だけでなく、テスト時の入力データとコンテキストデータの調整にも当てはまります。

数百億、数千億のパラメータを持つ基本モデルの後は、データ中心の時代に突入するのでしょうか?

プロンプト: 「本当に小さな AI モデル」

AMA より小規模なモデルはさまざまなタスクに適合する優れた推論能力をすでに備えていることがわかりますが、大規模なモデルの重要な価値は事実のデータを記憶することにあるようです。小さなモデルは事実に基づくパフォーマンスが低いため、この問題を解決するにはデータや情報をどのように導入すればよいでしょうか?奇妙なことに、SGD を使用してファクトをニューラルネットワークに保存し、それらをファジー浮動小数点値に変換します。この抽象化は、DRAM を使用したキーと値のストアよりもはるかに効率が悪いように見えます。ただし、AMA の結果を見ると、時間変動またはドメインに特化したファクトの点では、小規模モデルと大規模モデルの差ははるかに小さいことがわかります。私たち Apple は、自己構築時に返すファクトを編集できる必要があります。 - 監視対象モデル (ビジネス上の理由から)、サービスを実行するために他のソフトウェアツールを組み込む必要もあります。したがって、モデル呼び出しインデックスを持つことが非常に重要です。上記がこのタイプのモデルを使用する十分な理由であるかどうかは時間が経てばわかります。

これは私たちをどこへ導くのでしょうか?基本モデルは従来の手法と並行して機能します。データ中心のモデルが探索と展開の両方のエンドで進行していることを想定し、高速なイテレーションとタスクに依存しないワークフロー、つまり探索フェーズで、データ管理/テスト時間戦略を通じて、既製の一般的なベースモデルをより有用かつ効率的にします。ユーザーは、より明確なタスク定義を持って探索フェーズを終了し、データ中心の AI を使用し、複数のプロンプトやベースモデルを活用して組み合わせることでシュノーケルの方法でトレーニングデータ (独自のデータが重要です) を管理します。トレーニングをより小さく、より速く行うことができます。独自の」モデル。これらのモデルは実際の運用環境に導入でき、特定のタスクや特定のデータに対してより正確です。あるいは、基礎となるモデルを使用して、弱教師技術を改善することもできます。この技術により、研究室とシュノーケルのメンバーの一部が UAI 賞を受賞しました。

最終的な分析では、データはモデルの最終的な生産に関連します。コモディティ化されていないのはデータだけです。私たちは、Snorkel のデータの見方が前進する道であると今でも信じています。最終的なタスクに向けて展開可能なモデルをトレーニングするには、異種のデータソースと監視信号を表現、結合し、繰り返し修正する方法であるプログラミング抽象化が必要です。

以上が数百億、数千億のパラメータを持つ基本モデルの後は、データ中心の時代に突入するのでしょうか?の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

声明

この記事は51CTO.COMで複製されています。侵害がある場合は、admin@php.cn までご連絡ください。

革新を調理する：人工知能がフードサービスを変革する方法Apr 12, 2025 pm 12:09 PM

食品の準備を強化するAI まだ初期の使用中ですが、AIシステムは食品の準備にますます使用されています。 AI駆動型のロボットは、ハンバーガーの製造、SAの組み立てなど、食品の準備タスクを自動化するためにキッチンで使用されています

Pythonネームスペースと可変スコープに関する包括的なガイドApr 12, 2025 pm 12:00 PM

導入 Python関数における変数の名前空間、スコープ、および動作を理解することは、効率的に記述し、ランタイムエラーや例外を回避するために重要です。この記事では、さまざまなASPを掘り下げます

ビジョン言語モデル（VLM）の包括的なガイドApr 12, 2025 am 11:58 AM

導入鮮やかな絵画や彫刻に囲まれたアートギャラリーを歩くことを想像してください。さて、各ピースに質問をして意味のある答えを得ることができたらどうでしょうか？あなたは尋ねるかもしれません、「あなたはどんな話を言っていますか？

MediaTekは、Kompanio UltraとDimenity 9400でプレミアムラインナップをブーストしますApr 12, 2025 am 11:52 AM

製品のケイデンスを継続して、今月MediaTekは、新しいKompanio UltraやDimenity 9400を含む一連の発表を行いました。これらの製品は、スマートフォン用のチップを含むMediaTekのビジネスのより伝統的な部分を埋めます

今週のAIで：Walmartがファッションのトレンドを設定する前に設定しますApr 12, 2025 am 11:51 AM

＃1 GoogleはAgent2Agentを起動しました物語：月曜日の朝です。 AI駆動のリクルーターとして、あなたはより賢く、難しくありません。携帯電話の会社のダッシュボードにログインします。それはあなたに3つの重要な役割が調達され、吟味され、予定されていることを伝えます

生成AIは精神障害に会いますApr 12, 2025 am 11:50 AM

私はあなたがそうであるに違いないと思います。私たちは皆、精神障害がさまざまな心理学の用語を混ぜ合わせ、しばしば理解できないか完全に無意味であることが多い、さまざまなおしゃべりで構成されていることを知っているようです。 FOを吐き出すために必要なことはすべてです

プロトタイプ：科学者は紙をプラスチックに変えますApr 12, 2025 am 11:49 AM

今週公開された新しい研究によると、2022年に製造されたプラスチックの9.5％のみがリサイクル材料から作られていました。一方、プラスチックは埋め立て地や生態系に積み上げられ続けています。しかし、助けが近づいています。エンジンのチーム

AIアナリストの台頭：これがAI革命で最も重要な仕事になる理由Apr 12, 2025 am 11:41 AM

主要なエンタープライズ分析プラットフォームAlteryxのCEOであるAndy Macmillanとの私の最近の会話は、AI革命におけるこの重要でありながら過小評価されている役割を強調しました。 MacMillanが説明するように、生のビジネスデータとAI-Ready情報のギャップ

See all articles

ホットAIツール

Undresser.AI Undress

リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover

写真から衣服を削除するオンライン AI ツール。

Undress AI Tool

脱衣画像を無料で

Clothoff.io

AI衣類リムーバー

AI Hentai Generator

AIヘンタイを無料で生成します。

ホットツール

AtomエディタMac版ダウンロード

最も人気のあるオープンソースエディター

ZendStudio 13.5.1 Mac

強力な PHP 統合開発環境

DVWA

Damn Vulnerable Web App (DVWA) は、非常に脆弱な PHP/MySQL Web アプリケーションです。その主な目的は、セキュリティ専門家が法的環境でスキルとツールをテストするのに役立ち、Web 開発者が Web アプリケーションを保護するプロセスをより深く理解できるようにし、教師/生徒が教室環境で Web アプリケーションを教え/学習できるようにすることです。安全。 DVWA の目標は、シンプルでわかりやすいインターフェイスを通じて、さまざまな難易度で最も一般的な Web 脆弱性のいくつかを実践することです。このソフトウェアは、