検索
ホームページテクノロジー周辺機器AIトランスフォーマー + ワールド モデル、深層強化学習を節約できるか?

多くの人が知っているように、李世ドル、柯潔、その他の国際トップ棋士を破ったAlphaGoには、李世ドルを破った第一世代AlphaGo Leeと、第二世代AlphaGo Masterという3回のバージョンがあった。柯潔を破り、前2世代を破った第3世代AlphaGo Zero。

AlphaGo のチェスのスキルは世代を重ねるごとに向上する可能性がありますが、その背後には実は AI テクノロジーにおける明らかな傾向があり、強化学習の割合が増加しています。

近年、強化学習はさらなる「進化」を遂げており、この「進化した」強化学習を人々は深層強化学習と呼んでいます。

しかし、深層強化学習エージェントのサンプル効率は低いため、実際の問題への応用は大きく制限されます。

最近、この問題を解決するために多くのモデルベースの方法が設計されており、世界モデルの想像力による学習は最も著名な方法の 1 つです。

ただし、シミュレートされた環境とのほぼ無制限のインタラクションは魅力的に聞こえますが、世界モデルは長期間にわたって正確さを維持する必要があります。

シーケンス モデリング タスクにおける Transformer の成功に触発されて、コーネル大学の Vincent Micheli、Eloy Alonso、François Fleure は IRIS を導入しました。これは、離散オートエンコーダと自己回帰トランスフォーマー。

Atari 100k ベンチマークでは、わずか 2 時間のゲームプレイに相当し、IRIS は人間による正規化平均スコア 1.046 を達成し、26 試合中 10 試合で人間を上回りました。

以前、LeCun は強化学習は行き詰まりにつながるだろうと述べたことがあります。

トランスフォーマー + ワールド モデル、深層強化学習を節約できるか?

現在、コーネル大学の Vincent Micheli、Eloy Alonso、Francois Fleure らがワールド モデルと強化学習 (より正確には深層強化) を統合しているようです。学習中)、その2つをつなぐ架け橋がトランスフォーマーです。

深層強化学習の違い

人工知能テクノロジーというと、多くの人が思い浮かべるのは深層学習です。

実はAIの分野ではディープラーニングは今でも活発に行われていますが、多くの問題点も明らかになってきています。

現在、深層学習で最も一般的に使用されている方法は教師あり学習です。教師あり学習は「参照回答による学習」として理解できますが、その特徴の 1 つは、データを学習に使用する前にデータにラベルを付ける必要があることです。しかし現在、大量のデータはラベルのないデータであり、ラベルを付けるコストは非常に高くなっています。

この状況を受けて、「人工知能と同じくらいの知能がある」と冗談を言う人もいたほどです。

多くの専門家を含む多くの研究者が、ディープラーニングが「間違っている」かどうかを熟考しています。

そこで、強化学習が台頭し始めました。

強化学習は教師あり学習や教師なし学習とは異なり、エージェントを使って試行錯誤を繰り返し、その結果に応じてAIに賞罰を与える学習です。これは、DeepMind がさまざまなチェスやカード AI、ゲーム AI を作成するための手法です。この道の信奉者は、報酬インセンティブが正しく設定されている限り、強化学習によって最終的には本物の AGI が作成されると信じています。

しかし、強化学習にも問題があり、LeCun 氏の言葉を借りると、「強化学習では、最も単純なタスクを実行するようにモデルをトレーニングするために、膨大な量のデータが必要です。」

つまり、強化学習と深層学習が結合されて、深層強化学習になりました。

深層強化学習、強化学習は骨格、深層学習は魂です。これは何を意味しますか?深層強化学習の主な動作メカニズムは、実際には基本的に強化学習と同じですが、このプロセスを完了するためにディープ ニューラル ネットワークが使用される点が異なります。

さらに、一部の深層強化学習アルゴリズムは、既存の強化学習アルゴリズムにディープ ニューラル ネットワークを追加するだけで、新しい深層強化学習アルゴリズムのセットを実装します。非常に有名な深層強化学習アルゴリズム DQN は、その典型的な例です。

トランスフォーマーの魅力

トランスフォーマーは 2017 年に初めて登場し、Google の論文「Attending is All You Need」で提案されました。

Transformer が登場するまで、言語タスクにおける人工知能の進歩は他の分野の発展に比べて遅れていました。マサチューセッツ大学ローウェル校のコンピューター科学者、アンナ・ラムシスキー氏は、「過去 10 年間に起こった深層学習革命において、自然言語処理はやや後発の存在でした。ある意味、NLP はコンピューター ビジョン、Transformer に比べて遅れをとっていたのです」と述べています。

近年、Transformer 機械学習モデルは、ディープ ラーニングとディープ ニューラル ネットワーク テクノロジーの進歩の主なハイライトの 1 つとなっています。主に自然言語処理の高度なアプリケーションに使用されます。 Google は、検索エンジンの結果を強化するためにこれを使用しています。

Transformer は、テキストの分析と予測に重点を置いた単語認識などのアプリケーションですぐにリーダーになりました。これは、数千億の単語をトレーニングして一貫した新しいテキストを生成できる OpenAI の GPT-3 のようなツールの波を引き起こしました。

現在、Transformer アーキテクチャは進化を続け、言語タスクから他のドメインまで拡張し、さまざまなバリエーションに拡張されています。たとえば、Transformer は時系列予測に使用されており、DeepMind のタンパク質構造予測モデル AlphaFold の背後にある重要な革新でもあります。

トランスフォーマーは、最近コンピューター ビジョンの分野にも参入しており、多くの複雑なタスクにおいて、徐々に畳み込みニューラル ネットワーク (CNN) に取って代わりつつあります。

ワールドモデルとトランスフォーマーが手を組む、他の人はどう思うか

コーネル大学の研究結果について、一部の海外ネットユーザーは次のようにコメントした。は環境からのショットの長さであり、GPU でのトレーニングには 1 週間かかります。」

また、次のような疑問を持つ人もいます。つまり、このシステムは特に正確な潜在世界モデルに基づいて学習するのでしょうか?モデルには事前トレーニングは必要ありませんか?

さらに、コーネル大学の Vincent Micheli らの研究結果は画期的な進歩ではないと感じている人もいます。「彼らは、世界モデル、vqvae、俳優評論家を訓練しただけのようで、それらはすべて、 2 時間のエクスペリエンス (および約 600 エポック) からの再生バッファー。」

参考: https://www.reddit.com/r/MachineLearning/comments/x4e4jx/r_transformers_are_sample_efficient_world_models/

以上がトランスフォーマー + ワールド モデル、深層強化学習を節約できるか?の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

声明
この記事は51CTO.COMで複製されています。侵害がある場合は、admin@php.cn までご連絡ください。
革新を調理する:人工知能がフードサービスを変革する方法革新を調理する:人工知能がフードサービスを変革する方法Apr 12, 2025 pm 12:09 PM

食品の準備を強化するAI まだ初期の使用中ですが、AIシステムは食品の準備にますます使用されています。 AI駆動型のロボットは、ハンバーガーの製造、SAの組み立てなど、食品の準備タスクを自動化するためにキッチンで使用されています

Pythonネームスペースと可変スコープに関する包括的なガイドPythonネームスペースと可変スコープに関する包括的なガイドApr 12, 2025 pm 12:00 PM

導入 Python関数における変数の名前空間、スコープ、および動作を理解することは、効率的に記述し、ランタイムエラーや例外を回避するために重要です。この記事では、さまざまなASPを掘り下げます

ビジョン言語モデル(VLM)の包括的なガイドビジョン言語モデル(VLM)の包括的なガイドApr 12, 2025 am 11:58 AM

導入 鮮やかな絵画や彫刻に囲まれたアートギャラリーを歩くことを想像してください。さて、各ピースに質問をして意味のある答えを得ることができたらどうでしょうか?あなたは尋ねるかもしれません、「あなたはどんな話を言っていますか?

MediaTekは、Kompanio UltraとDimenity 9400でプレミアムラインナップをブーストしますMediaTekは、Kompanio UltraとDimenity 9400でプレミアムラインナップをブーストしますApr 12, 2025 am 11:52 AM

製品のケイデンスを継続して、今月MediaTekは、新しいKompanio UltraやDimenity 9400を含む一連の発表を行いました。これらの製品は、スマートフォン用のチップを含むMediaTekのビジネスのより伝統的な部分を埋めます

今週のAIで:Walmartがファッションのトレンドを設定する前に設定します今週のAIで:Walmartがファッションのトレンドを設定する前に設定しますApr 12, 2025 am 11:51 AM

#1 GoogleはAgent2Agentを起動しました 物語:月曜日の朝です。 AI駆動のリクルーターとして、あなたはより賢く、難しくありません。携帯電話の会社のダッシュボードにログインします。それはあなたに3つの重要な役割が調達され、吟味され、予定されていることを伝えます

生成AIは精神障害に会います生成AIは精神障害に会いますApr 12, 2025 am 11:50 AM

私はあなたがそうであるに違いないと思います。 私たちは皆、精神障害がさまざまな心理学の用語を混ぜ合わせ、しばしば理解できないか完全に無意味であることが多い、さまざまなおしゃべりで構成されていることを知っているようです。 FOを吐き出すために必要なことはすべてです

プロトタイプ:科学者は紙をプラスチックに変えますプロトタイプ:科学者は紙をプラスチックに変えますApr 12, 2025 am 11:49 AM

今週公開された新しい研究によると、2022年に製造されたプラスチックの9.5%のみがリサイクル材料から作られていました。一方、プラスチックは埋め立て地や生態系に積み上げられ続けています。 しかし、助けが近づいています。エンジンのチーム

AIアナリストの台頭:これがAI革命で最も重要な仕事になる理由AIアナリストの台頭:これがAI革命で最も重要な仕事になる理由Apr 12, 2025 am 11:41 AM

主要なエンタープライズ分析プラットフォームAlteryxのCEOであるAndy Macmillanとの私の最近の会話は、AI革命におけるこの重要でありながら過小評価されている役割を強調しました。 MacMillanが説明するように、生のビジネスデータとAI-Ready情報のギャップ

See all articles

ホットAIツール

Undresser.AI Undress

Undresser.AI Undress

リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover

AI Clothes Remover

写真から衣服を削除するオンライン AI ツール。

Undress AI Tool

Undress AI Tool

脱衣画像を無料で

Clothoff.io

Clothoff.io

AI衣類リムーバー

AI Hentai Generator

AI Hentai Generator

AIヘンタイを無料で生成します。

ホットツール

ゼンドスタジオ 13.0.1

ゼンドスタジオ 13.0.1

強力な PHP 統合開発環境

WebStorm Mac版

WebStorm Mac版

便利なJavaScript開発ツール

MantisBT

MantisBT

Mantis は、製品の欠陥追跡を支援するために設計された、導入が簡単な Web ベースの欠陥追跡ツールです。 PHP、MySQL、Web サーバーが必要です。デモおよびホスティング サービスをチェックしてください。

SublimeText3 Linux 新バージョン

SublimeText3 Linux 新バージョン

SublimeText3 Linux 最新バージョン

メモ帳++7.3.1

メモ帳++7.3.1

使いやすく無料のコードエディター