ホームページ > 記事 > テクノロジー周辺機器 > Google の大規模モデル研究は激しい論争を引き起こしました。トレーニング データを超えた一般化能力が疑問視されており、ネットユーザーは AGI 特異点が遅れる可能性があると述べています。
Google DeepMind によって最近発見された新しい結果は、Transformer 分野で広範な論争を引き起こしました:
その一般化能力は、トレーニング データを超えるコンテンツには拡張できません。
この結論はまださらに検証されていませんが、多くの著名人を驚かせています。たとえば、ケラスの父親であるフランソワ・ショレ氏は、もしこのニュースが本当なら、と述べました。 、それは大きなニュースになるでしょう、モデル界では大きな出来事です。
Google Transformer は今日の大規模モデルの背後にあるインフラストラクチャであり、私たちがよく知っている GPT の「T」はそれを指します。
一連の大規模モデルは強力なコンテキスト学習機能を示し、例を迅速に学習して新しいタスクを完了できます。
しかし現在、Google の研究者もその致命的な欠陥を指摘しているようです。それは、トレーニング データ、つまり人間の既存の知識を超えると無力です。
一時期、多くの専門家は、AGI は再び手の届かないものになったと信じていました。
一部のネチズンは、論文には見落とされている重要な詳細がいくつかあると指摘しました。たとえば、実験には GPT-2 の規模のみが含まれ、トレーニングは含まれていませんデータが十分に豊富ではない
時間が経つにつれて、この論文を注意深く研究したネットユーザーが研究結果自体には何も間違っていないことを指摘するようになりましたが、人々はそれを踏まえた過剰な解釈。
この論文がネチズンの間で激しい議論を引き起こした後、著者の一人も次の 2 つの点を公に明らかにしました:
まず第一に、実験では単純なトランスフォーマーを使用しました。は「大きな」モデルでも言語モデルでもありません;
第二に、モデルは新しいタスクを学習できますが、新しいタイプタスク##に一般化することはできません。
#その後、別のネチズンが Colab でこの実験を繰り返しましたが、まったく異なる結果が得られました。 それでは、まずこの論文と、別の結果を提案したサミュエルの発言を見てみましょう。 新しい関数はほとんど予測不可能ですこの実験では、著者は Jax ベースの機械学習フレームワークを使用して、GPT-2 のサイズに近い Transformer モデルをトレーニングしました。デコーダ部分このモデルには 12 層、8 つのアテンション ヘッドが含まれており、埋め込み空間次元は 256、パラメータ数は約 950 万です。その一般化能力をテストするために、著者はテストオブジェクトとして関数を選択しました。彼らは、一次関数と正弦関数をトレーニング データとしてモデルに入力します。 これら 2 つの関数は、現時点でモデルに既知であり、予測結果は当然非常に良好です。しかし、研究者が一次関数を入力すると、正弦関数の凸組み合わせを実行すると問題が発生します。 凸面の組み合わせはそれほど神秘的ではありません。著者は f(x)=a·kx (1-a)sin(x) という形式の関数を作成しました。私たちの意見では、それは次のとおり 2 つの関数に過ぎません。比率は単純に合計されます。 私たちがこのように考える理由は、私たちの脳には一般化能力があるためですが、大規模モデルは異なります線形関数と正弦関数しか学習していないモデルにとって、単純な足し算は斬新に見えますこの新しい関数については、Transformer の予測の精度はほとんどありません (図 4c を参照)。そのため、著者は、モデルには関数に関する一般化能力が欠けていると考えています彼の結論をさらに検証するために、著者は線形または正弦関数の重みを調整しましたが、それでも Transformer の予測パフォーマンスは大きく変わりませんでした。
例外が 1 つだけあります。項目の 1 つの重みが 1 に近い場合、モデルの予測結果は実際の状況とより一致します。
##重みが 1 の場合、未知の新しい関数がトレーニング中に見られた関数になることを意味します。この種のデータは明らかにモデルの一般化能力には役立ちません さらなる実験では、Transformer が関数の種類に非常に敏感であるだけでなく、同じ種類の関数であっても不慣れな状態になる可能性があることも示しました。 研究者らは、サイン関数の周波数を変更すると、たとえ単純な関数モデルであっても、予測結果が変化するように見えることを発見しました。周波数がトレーニングの関数に近い場合にのみデータ、モデル 頻度が高すぎるか低すぎる場合にのみ、より正確な予測を行うことができます。頻度が高すぎるか低すぎる場合、予測結果に重大な偏差が生じます...#したがって、著者は条件が少しでも良ければと考えていますが、それは少し異なります。大規模なモデルではどうすればよいかわかりません。これは一般化能力が低いということを意味しませんか?
著者は、研究におけるいくつかの制限と、関数データの観察をトークン化された自然言語の問題に適用する方法についても説明します。
チームは言語モデルでも同様の実験を試みましたが、いくつかの障害に遭遇し、タスクファミリー(ここでは関数の種類に相当)や凸の組み合わせなどを適切に定義する方法はまだ解決されていません。
ただし、Samuel のモデルは規模が小さく、レイヤーが 4 つしかありません。Colab で 5 分間トレーニングした後は、線形関数と正弦関数の組み合わせに適用できます
##一般化できない場合はどうすればよいか
記事全体の包括的な内容に基づくと、この記事における Quora CEO の結論は非常に限定的であり、多くの仮定が真実である場合にのみ確立できますスローン賞受賞者でUCLA教授のGu Quanquan氏は、論文の結論自体は物議を醸すものではないが、過度に解釈すべきではないと述べた。
以前の研究によると、Transformer モデルは、トレーニング前のデータと大きく異なるコンテンツに直面した場合にのみ一般化できません。実際、大規模モデルの汎化能力は通常、タスクの多様性と複雑さによって評価されます。Transformer の汎化能力を注意深く調査すると、残念ながらかなりの時間がかかると思います。弾丸だ、もう少し長く飛べ。
しかし、一般化能力が本当に欠けているとしても、何ができるでしょうか? NVIDIA AI 科学者ジム ファン氏は、「Transformerは万能薬ではないため、この現象は実際には驚くべきことではありません。
トレーニング データが適切であるため、大規模モデルのパフォーマンスは良好です。私たちが重視するコンテンツ。
Jim はさらに付け加えました。「これは、1,000 億枚の犬と猫の写真を使用して視覚モデルをトレーニングし、そのモデルに航空機を識別させて、次のことを見つけてください、と言っているようなものです。」うわー、本当に彼のことを知りません。 #人間が未知の課題に直面したとき、大規模モデルに限らず、解決策が見つからない可能性があります。これは人間には汎化能力が欠けていることも意味しているのでしょうか? したがって、目標指向のプロセスでは、それが大規模なモデルであれ人間であれ、最終的な目標は問題を解決することであり、一般化は手段にすぎませんこの表現を中国語に変えてください。汎化能力が足りないので、学習サンプル以外のデータがなくなるまで学習させます。
それでは、この研究についてどう思いますか?
文書アドレス: https://arxiv.org/abs/2311.00871
以上がGoogle の大規模モデル研究は激しい論争を引き起こしました。トレーニング データを超えた一般化能力が疑問視されており、ネットユーザーは AGI 特異点が遅れる可能性があると述べています。の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。