ホームページ > 記事 > テクノロジー周辺機器 > AI の好奇心は猫を殺すだけではありません。 MITの新しい強化学習アルゴリズム、今回のエージェントは「難しくて簡単にすべてを引き受ける」
誰もが長年の問題に遭遇したことがあります。
金曜日の夜、どこで食事をするレストランを選ぼうとしていますが、予約がありません。混雑しているお気に入りのレストランの列に並ぶべきでしょうか、それとも、もっとおいしい驚きを発見することを期待して新しいレストランに挑戦するべきでしょうか?
後者は驚きをもたらす可能性を秘めていますが、この種の好奇心に基づく行動にはリスクが伴います。新しいレストランで試した料理はさらにおいしいかもしれません。
好奇心は AI が世界を探索する原動力であり、自律ナビゲーション、ロボットの意思決定、最適化された検出結果など、数え切れないほどの例があります。
機械は目標を達成するために「強化学習」を使用する場合があり、このプロセスにおいて、AI エージェントは報酬を与える良い行動と罰を与える悪い行動から繰り返し学習します。
人間がレストランを選ぶときに直面するジレンマと同じように、これらのエージェントも、より良い行動を発見するのにかかる時間 (探索) と、その結果生じた過去を振り返る時間のバランスを取ろうとしています。高い報酬が得られるのは、行動時間(利用時間)です。
好奇心が強すぎると、エージェントは有利な決定を下すことができなくなりますが、好奇心が弱すぎると、エージェントは有利な決定を決して見つけることができないことを意味します。
AI エージェントに「適切な量」の好奇心を持たせることを追求するために、MIT のコンピューター サイエンスおよび AI 研究所 (CSAIL) の研究者は、AI が「好奇心旺盛」すぎるという問題と、AI の好奇心の問題を克服するアルゴリズムを作成しました。目の前の仕事に気を取られている。
彼らが開発したアルゴリズムは、必要に応じて好奇心を自動的に高め、エージェントが環境からの十分な監視を受けて何をすべきかをすでに知っている場合は好奇心を減らします。
論文リンク: https://williamd4112.github.io/pubs/neurips22_eipo.pdf
60 を超えるビデオ ゲームでテストした後、このアルゴリズムは以前のアルゴリズムでは簡単な問題または難しい問題を個別に解決することしかできませんでしたが、さまざまな難易度の探索タスクを成功させることができます。これは、AI エージェントが意思決定ルールを学習し、インセンティブを最大化するために使用するデータを削減できることを意味します。
「探索と活用のトレードオフをよく理解していれば、正しい意思決定ルールをより早く学ぶことができます。また、それ以下の場合は大量のデータが必要になります。これは、次善の医学的結果を意味する可能性があります。」
研究リーダーの一人であり、MIT 教授であり、Improbable AI Laboratory 所長でもあるプルキット・アグラワル氏は、次のように述べています。 。
好奇心の心理的基盤を心理学の観点から説明するのは難しいようですが、この挑戦を求める行動の根底にある神経学的原理はまだ完全には理解されていません。
強化学習では、このプロセスが感情的に「刈り取られ」、問題が最も基本的なレベルまで取り除かれますが、技術的な実装は非常に複雑です。
本質的に、エージェントは、さまざまなことを試すのに十分な監督がない場合にのみ好奇心を抱くべきであり、監督がある場合は、エージェントは好奇心を調整し、好奇心を減らす必要があります。
テスト ゲーム タスクでは、小さなエージェントが報酬を求めて環境中を走り回り、いくつかの目標を達成するために一連の長いアクションを実行することが大きな部分を占めています。これは研究者の論理的なテストであると思われます。アルゴリズム、プラットフォーム。
「マリオカート」や「モンテズマの復讐」などのゲームを使った実験で、研究者は上記のゲームを 2 つの異なるカテゴリに分類しました。
1 つは、 1 つは監視がまばらな環境で、エージェントが受ける指導が少ない環境で、これは「難しい」探索ゲームであり、もう 1 つはより集中的な監視が行われる環境で、これは「単純な」探索ゲームです。
「マリオカート」で、すべての報酬を削除すると、いつ敵に殺されるかわかりません。コインを集めたり、パイプを飛び越えたりしても、報酬は得られません。エージェントには、それがどのように実行されたかは最後にのみ伝えられます。これは監視がまばらな環境であり、困難な作業です。この種のタスクでは、好奇心を刺激するアルゴリズムが非常にうまく機能します。
そして、エージェントが高密度に監視された環境にいる場合、つまり、パイプをジャンプしたり、コインを集めたり、敵を倒したりすることで報酬が得られる場合、最高のパフォーマンスは、まったく好奇心を持たないアルゴリズムです。報酬として、プロセスに従うだけで、追加の探索をしなくても多くのものが得られます。
好奇心を刺激するアルゴリズムを使用すると、学習速度が非常に遅くなります。
なぜなら、好奇心旺盛なエージェントはさまざまな方法で速く走ろうとしたり、歩き回ったり、ゲームの隅々まで訪れたりするかもしれないからです。これらは楽しいものですが、エージェントがゲームで成功して報酬を受け取るのには役立ちません。
前述のとおり、強化学習では、一般に、まばらな教師あり (難しい) タスクと教師あり集中的 (単純な) タスクに対応するために、好奇心を刺激するアルゴリズムと好奇心を抑制するアルゴリズムが使用され、混合することはできません。
今回、MIT チームの新しいアルゴリズムは、環境に関係なく常に良好なパフォーマンスを発揮しました。
今後の研究では、長年にわたって心理学者を喜ばせ、悩ませてきた探求、つまり好奇心の適切な尺度に戻ることが含まれるかもしれません。好奇心を数学的に定義する正しい方法は誰も実際には知りません。
MIT CSAIL の博士課程学生、Zhang Weihong 氏は次のように述べています。
探索アルゴリズムを改善することで、関心のある問題に合わせてアルゴリズムを調整します。難しい問題を解決するには好奇心が必要ですが、問題によっては好奇心がパフォーマンスを低下させる可能性があります。私たちのアルゴリズムは、探査と活用を調整するというバランスの負担を排除します。
以前は解決するのに 1 週間かかった問題でも、新しいアルゴリズムでは数時間以内に満足のいく結果が得られます。
彼は、MIT の CSAIL 工学修士であるエリック チェン (22 歳) とこの研究に関する新しい論文の共著者です。
カーネギーメロン大学の教師であるディーパック・パサック氏は次のように述べています:
「好奇心などの本質的な報酬メカニズムは、エージェントが有益で多様な行動を発見できるように導くための基礎ですが、これは意図的に行われるべきではありません」与えられたタスクをうまく遂行するための犠牲. これは AI における重要な問題であり, この論文ではこのトレードオフのバランスを取る方法を提供します. このアプローチがゲームから現実世界までどのように拡張されるかを見てください. これは非常に興味深いことになるでしょう.
カリフォルニア大学バークレー校の心理学特別教授および哲学准教授のアリソン・ゴプニク氏は、現在の AI と認知科学における最大の課題の 1 つは、「探索」のバランスをどう取るかであると指摘しました。と活用」では、前者は情報の探索、後者は報酬の探索です。
「この論文では、印象的な新技術を使用してこの作業を自動化し、世界への好奇心と報酬への欲求のバランスを体系的にとることができるエージェントを設計し、AI をインテリジェントにする。身体は本物と同じくらい賢くなるための重要な一歩を踏み出した」子供たちよ」と彼は言った。
参考文献:
https://techxplore.com/news/2022-11-bad-ai-curious.html
https://www.csail.mit .edu/news/ensuring-ai-works-right-dose-curiosity
以上がAI の好奇心は猫を殺すだけではありません。 MITの新しい強化学習アルゴリズム、今回のエージェントは「難しくて簡単にすべてを引き受ける」の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。