ホームページ >テクノロジー周辺機器 >AI >インテリジェントエージェントは自己認識に目覚める? DeepMind 警告: 深刻で違反するモデルに注意してください
人工知能システムがますます高度になるにつれて、エージェントは「抜け穴を利用する」能力がますます高まっています。トレーニング セットではタスクを完璧に実行できますが、ショートカットを使用しないテスト セットでのパフォーマンスはめちゃくちゃです。 。
たとえば、ゲームの目標は「金貨を食べる」ことですが、トレーニング フェーズ中、金貨は各レベルの最後にあり、エージェントはタスクを完璧に完了できます。
しかし、テスト段階では、金貨の位置がランダムになり、エージェントは金貨を探す代わりに、毎回レベルの最後に到達することを選択することになります。 、つまり学習 到達した「目標」が間違っている。
エージェントは、ユーザーが望まない目標を無意識のうちに追求します。これは、目標誤一般化 (GMG、目標誤一般化) とも呼ばれます。
目標誤一般化とは、学習アルゴリズムの堅牢性の欠如である特殊な形式です。一般に、この場合、開発者は、報酬メカニズムの設定やルール設計の欠陥などに問題があるかどうかを確認し、これらがエージェントが間違った目標を追求する理由であると考えます。
最近 DeepMind は、たとえルール設計者が正しかったとしても、エージェントは依然としてユーザーが望まない目標を追求する可能性があると主張する論文を発表しました。
論文リンク: https://arxiv.org/abs/2210.01790
この記事では、さまざまな分野の深層学習システムの例を通じて、ターゲットのエラーを証明しています。一般化はどのような学習システムでも発生する可能性があります。
一般的な人工知能システムに拡張した場合、この記事では、目標の誤った一般化が壊滅的なリスクにつながる可能性があることを説明するために、いくつかの仮定も提供します。
この記事では、将来のシステムにおける目標の誤った一般化のリスクを軽減できるいくつかの研究の方向性も提案しています。
近年、学術界における人工知能の調整ミスによってもたらされる壊滅的なリスクが徐々に増大しています。
この場合、意図しない目標を追求する非常に有能な人工知能システムは、実際には他の目標を達成しながら、命令を実行するふりをする可能性があります。
しかし、人工知能システムがユーザーの意図しない目標を追求するという問題はどのように解決すればよいのでしょうか?
以前の研究では、環境設計者が誤ったルールとガイダンスを提供した、つまり、誤った強化学習 (RL) 報酬関数を設計したと一般的に考えられていました。
学習システムの場合、システムが意図しない目標を追求する可能性がある別の状況があります。ルールが正しくても、システムはトレーニング中に一貫して意図しない目標を追求する可能性があります。ルールですが、展開時のルールとは異なります。
カラー ボール ゲームを例に挙げます。ゲームでは、エージェントは特定の順序で一連のカラー ボールにアクセスする必要があります。この順序はエージェントにはわかりません。 . .
エージェントが環境内の他の人から学ぶこと、つまり文化の伝達を奨励するために、正しい順序でカラーボールにアクセスするためのエキスパートロボットが初期環境に含まれています。
この環境設定では、エージェントは探索に多くの時間を費やすことなく、通過動作を観察することで正しいアクセス シーケンスを決定できます。
実験では、専門家の真似をすることで、訓練を受けたエージェントは通常、最初の試行でターゲットの場所に正しくアクセスします。
エージェントがアンチエキスパートとペアになった場合、負の報酬を受け取り続けます。従うことを選択した場合、負の報酬を受け取り続けます。
理想的には、エージェントは最初、黄色と紫の球体に移動するアンチエキスパートを追跡します。紫色に入ると、負の報酬が観察され、従わなくなります。
しかし実際には、エージェントは反専門家の道をたどり続け、ますます多くのマイナスの報酬を蓄積します。
ただし、エージェントの学習能力は依然として非常に強力で、障害物に満ちた環境でも行動できます。しかし重要なのは、この他の人に従う能力が重要であるということです。予想通りではありませんでした。目標です。
この現象は、エージェントが正しい順序で球体を訪問した場合にのみ報酬を得る場合でも発生する可能性があります。つまり、ルールを正しく設定するだけでは十分ではありません。
目標の誤った一般化とは、トレーニング中に正しいフィードバックを受信しているにもかかわらず、学習されたモデルが意図しない目標を最適化しているかのように動作する病的な動作を指します。
これにより、ターゲットの誤った一般化は、モデルの能力がテスト環境に一般化されるが、意図されたターゲットは一般化されない、特別な種類の堅牢性または一般化の失敗になります。
ターゲットの誤った一般化は一般化の失敗の厳密なサブセットであり、モデルの破損、ランダムなアクション、または適格な機能を示さなくなるその他の状況は含まれないことに注意することが重要です。
上記の例では、テスト中にエージェントの観察を垂直方向に反転すると、エージェントは 1 つの位置に留まるだけで一貫した処理は何も行われません。これは汎化エラーですが、ターゲット汎化エラーではありません。
これらの「ランダムな」失敗と比較して、ターゲットの誤った一般化は著しく悪い結果につながります。反専門家に従うと大きなマイナスの報酬が得られますが、何もしないかランダムに行動すると、0 または 1 の報酬しか得られません。
つまり、現実世界のシステムでは、意図しない目標に向けた一貫した動作が壊滅的な結果をもたらす可能性があります。
ターゲットエラーの汎化は強化学習環境に限定されません。実際、GMG は大規模言語モデル (LLM) の数回学習を含むあらゆる学習システムで発生する可能性があります。少ないトレーニング データで正確なモデルを構築することを目指しています。
DeepMind が昨年提案した言語モデル Gopher を例にとると、モデルが x y-3 などの未知の変数と定数を含む一次式を計算する場合、Gopher は最初に未知の変数の値を尋ねる必要があります。式を解くために。
研究者らは、それぞれ 2 つの未知の変数を含む 10 個のトレーニング サンプルを生成しました。
テスト時に、モデルに入力された問題には、0、1、または 3 つの未知の変数が含まれている可能性があります。モデルは 1 つまたは 3 つの未知の変数を含む式を正しく処理できますが、未知の変数が存在する場合、モデルは依然として失敗します。未知の変数はありません。「6 とは何ですか?」など、いくつかの冗長な質問をします。
モデルは、たとえ完全に不必要な場合でも、答える前に常にユーザーに少なくとも 1 回質問します。
この論文には、他の学習環境の例もいくつか含まれています。
GMG に対処することは、AI システムが誤動作する可能性のある潜在的なメカニズムであるため、AI システムが設計者の目標と一致するために重要です。
汎用人工知能 (AGI) に近づくほど、この問題はより重要になります。
2 つの AGI システムがあるとします。
A1: 意図されたモデル、人工知能システムは設計者がやりたいことを何でも実行できます
A2: 欺瞞 欺瞞モデル、人工インテリジェンス システムは、意図しない目標を追求しますが、設計者の意図に反して動作した場合には罰せられることを認識できるほど賢いのです。
A1 モデルと A2 モデルはトレーニング中にまったく同じ動作を示し、期待される動作のみに報酬を与えるように指定されている場合でも、潜在的な GMG はどのシステムにも存在します。
A2 システムの欺瞞が発見された場合、モデルはユーザーが意図していない目標を達成するための計画を立てるために人間の監視を逃れようとします。
「ロボットが精霊になる」と少し似ていますね。
DeepMind 研究チームは、モデルの動作を説明し、それを再帰的に評価する方法も研究しました。
研究チームはGMGを生成するためのサンプルも収集しています。
: https://docs.google.com/spreadsheets/d/e/2pacx 1vto3rkxuaigb25ngjpchrir6xxdza_l5u7Crazghwrykh2l2nuu 4TA_VR9KZBX5bjpz9g_L/PUBHTML
## カウンター参考資料: https: //www.deepmind.com/blog/how-undesired-goals-can-arise-with-correct-rewards以上がインテリジェントエージェントは自己認識に目覚める? DeepMind 警告: 深刻で違反するモデルに注意してくださいの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。