検索
ホームページテクノロジー周辺機器AI強化学習:Pythonの例を掲載した紹介

補強学習(RL):エージェントと環境の相互作用に深く潜ります

基本的および高度な補強学習(RL)モデルは、しばしばSF AIに似ている現在の大きな言語モデルを上回ります。 この記事では、RLがエージェントがスーパーマリオの挑戦的なレベルを征服する方法を説明します。

Reinforcement Learning: An Introduction With Python Examples

最初に、エージェントにはゲームの知識が不足しています:コントロール、進行力学、障害、および勝利条件。 それは、人間の介入なしに、強化学習アルゴリズムを通してこのすべてを自律的に学習します。

RLの強みは、事前定義されたソリューションや明示的なプログラミングなしで問題を解決することにあり、多くの場合、データ要件が最小限に抑えられます。これにより、さまざまな分野で影響を及ぼします:

    自動運転車:
  • RLエージェントは、リアルタイムのトラフィックと道路規則に基づいて最適な運転戦略を学びます。 ロボット工学:
  • ロボットRLトレーニングを通じて動的環境で複雑なタスクをマスターします。
  • ゲームai:RLテクニックにより、AIエージェントはGoやStarcraft IIなどのゲームで洗練された戦略を開発できます。
  • rlは、計り知れない可能性を秘めた急速に進化する分野です。 将来のアプリケーションは、リソース管理、ヘルスケア、およびパーソナライズされた教育で予想されます。 このチュートリアルでは、RLファンダメンタルズを紹介し、エージェント、環境、アクション、状態、報酬などのコアコンセプトを説明しています。 エージェントと環境:猫の視点
  • 猫のトレーニング、ボブ、家具の代わりにスクラッチポストを使用することを検討してください。ボブは、学習者であり意思決定者である
エージェント

です。 部屋は

環境

であり、課題(家具)と目標(引っ掛かった投稿)を提示します。

rl環境は次のように分類されます

ディスクリート:グリッドベースのゲームのような単純化された部屋、ボブの動きと部屋のバリエーションを制限します。

継続:

現実世界の部屋は、家具の配置とボブの行動のためにほぼ無限の可能性を提供します。

    私たちの部屋の例は、
  • static環境です(家具は固定されたままです)。 a dynamic
  • 環境は、スーパーマリオレベルのように、時間の経過とともに変化し、学習の複雑さを高めます。
  • アクションと状態:可能性の定義
  • 状態スペース
可能なすべてのエージェント環境構成を網羅しています。 サイズは、環境タイプに依存します:

有限:離散環境には限られた数の状態があります(例:ボードゲーム)。

Infinite:

アクション空間は、すべての可能なエージェントアクションを表します。 繰り返しますが、サイズは環境に依存します:

  • ディスクリート:限られたアクション(たとえば、上、下、左、右)。
  • 連続:より広範なアクションの範囲(たとえば、任意の方向、ジャンプ)。

各アクションは、環境を新しい状態に遷移します。

報酬、タイムステップ、エピソード:進捗状況の測定

報酬エージェントにインセンティブを与えます。 チェスでは、ピースをキャプチャすることはポジティブです。小切手を受信することは負です。 ボブの場合、扱います肯定的な行動に報いる(引っ掻く投稿を使用)、水噴出は否定的な行動(家具を傷つける)を罰する。

時間段階エージェントの学習の旅を測定します。 各ステップにはアクションが含まれ、新しい状態と報酬が得られます。 an

エピソードは、デフォルトの状態から始まり、目標が達成されたときに終了するか、エージェントが失敗したときに終了する一連の時間ステップを含む。

探査対搾取:行為のバランス エージェントは、

探査

(新しいアクションを試す)と

exploation

(既知の最良のアクションを使用)のバランスを取る必要があります。 戦略は次のとおりです epsilon-greedy:確率によるランダム探査(epsilon);それ以外の場合は、最もよく知られているアクションを活用します。

  • Boltzmann探査:確率的に、予想される報酬を伴うアクションを支持します。
  • 補強学習アルゴリズム:モデルベースとモデルフリー rlアルゴリズムは、エージェントの意思決定をガイドします。 2つの主要なカテゴリが存在します:
モデルベースのrl

エージェントは、アクションを計画するために環境の内部モデルを構築します。これはサンプル効率ですが、複雑な環境では挑戦的です。 例は、モデルベースとモデルのない学習を組み合わせたDyna-Qです

モデルフリーrl

エージェントは、明示的なモデルなしで経験から直接学習します。これはよりシンプルですが、サンプル効率が低くなります。 例は次のとおりです

Qラーニング:

状態行動ペアのQ値(予想される将来の報酬)を学習します

sarsa: q-learningに似ていますが、実際の次のアクションに基づいて値を更新します。

    ポリシーグラデーションメソッド:
  • 条件をアクションにマッピングするポリシーを直接学習します。 ディープQネットワーク(DQN):
  • Qラーニングと、高次元状態空間の深いニューラルネットワークを組み合わせた。
  • アルゴリズムの選択は、環境の複雑さとリソースの可用性に依存します Qラーニング:詳細な外観
  • Qラーニングは、モデルフリーアルゴリズムの教育エージェントの最適な戦略です。 Qテーブルは、各状態アクションペアのQ値を保存します。 エージェントは、イプシロングレディポリシーに基づいてアクションを選択し、探索と搾取のバランスを取ります。 Q値は、現在のQ値、報酬、および次の状態の最大Q値を組み込んだ式を使用して更新されます。 ガンマ(割引率)やアルファ(学習レート)などのパラメーターは、学習プロセスを制御します。体育館を備えたPythonでの補強学習

    Gymnasiumは、RL実験のためのさまざまな環境を提供します。 次のコードスニペットは、ブレイクアウト環境との相互作用ループを示しています:

    import gymnasium as gym
    env = gym.make("ALE/Breakout-v5", render_mode="rgb_array")
    # ... (interaction loop and GIF creation code as in the original article) ...
    このコードは、エージェントのアクションを視覚化するGIFを生成します。 学習アルゴリズムがなければ、アクションはランダムであることに注意してください。

    結論

    補強学習は、幅広いアプリケーションを備えた強力な手法です。 このチュートリアルは、基本的な概念をカバーし、さらなる調査の出発点を提供しました。 追加のリソースは、継続的な学習のために元の記事にリストされています。

以上が強化学習:Pythonの例を掲載した紹介の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

声明
この記事の内容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰属します。このサイトは、それに相当する法的責任を負いません。盗作または侵害の疑いのあるコンテンツを見つけた場合は、admin@php.cn までご連絡ください。
摩擦から流れへ:AIがどのように法的作業を変えているか摩擦から流れへ:AIがどのように法的作業を変えているかMay 09, 2025 am 11:29 AM

法的技術革命は勢いを増し、法律専門家にAIソリューションを積極的に受け入れるように促しています。 受動的抵抗は、競争力を維持することを目指している人にとってはもはや実行可能な選択肢ではありません。 なぜテクノロジーの採用が重要なのですか? 法律専門家

これはAIがあなたのことを考えており、あなたについて知っていることですこれはAIがあなたのことを考えており、あなたについて知っていることですMay 09, 2025 am 11:24 AM

多くの人は、AIとの相互作用が匿名であると仮定しており、人間のコミュニケーションとはまったく対照的です。 ただし、AIはすべてのチャット中にユーザーを積極的にプロファイルします。 すべてのプロンプト、すべての単語が分析および分類されます。 AI Revoのこの重要な側面を探りましょう

繁栄した、AIの準備ができている企業文化を構築するための7つのステップ繁栄した、AIの準備ができている企業文化を構築するための7つのステップMay 09, 2025 am 11:23 AM

成功した人工知能戦略は、強力な企業文化サポートから分離することはできません。 Peter Druckerが言ったように、事業運営は人々に依存しており、人工知能の成功も依存しています。 人工知能を積極的に受け入れる組織の場合、AIに適応する企業文化を構築することが重要であり、AI戦略の成功または失敗さえ決定します。 ウェストモンローは最近、繁栄するAIに優しい企業文化を構築するための実用的なガイドをリリースしました。ここにいくつかの重要なポイントがあります。 1. AIの成功モデルを明確にする:まず第一に、AIがどのようにビジネスに力を与えることができるかについての明確なビジョンが必要です。理想的なAI操作文化は、人間とAIシステム間の作業プロセスの自然統合を実現できます。 AIは特定のタスクが得意であり、人間は創造性と判断が得意です

Netflix New Scroll、Meta AI'のゲームチェンジャー、Neuralinkは85億ドルで評価されていますNetflix New Scroll、Meta AI'のゲームチェンジャー、Neuralinkは85億ドルで評価されていますMay 09, 2025 am 11:22 AM

メタはAIアシスタントアプリケーションをアップグレードし、ウェアラブルAIの時代が来ています! ChatGPTと競合するように設計されたこのアプリは、テキスト、音声インタラクション、画像生成、Web検索などの標準的なAI機能を提供しますが、初めてジオロケーション機能を追加しました。これは、メタAIがあなたがどこにいるのか、あなたがあなたの質問に答えるときにあなたが何を見ているのかを知っていることを意味します。興味、場所、プロファイル、アクティビティ情報を使用して、これまで不可能な最新の状況情報を提供します。このアプリはリアルタイム翻訳もサポートしており、レイバンメガネのAIエクスペリエンスを完全に変更し、その有用性を大幅に改善しました。 外国映画への関税の賦課は、メディアや文化に対する裸の力の行使です。実装された場合、これはAIと仮想生産に向かって加速します

AIサイバー犯罪から身を守るために、今日これらの手順を踏んでくださいAIサイバー犯罪から身を守るために、今日これらの手順を踏んでくださいMay 09, 2025 am 11:19 AM

人工知能は、サイバー犯罪の分野に革命をもたらし、新しい防御スキルを学ぶことを強いています。サイバー犯罪者は、ディープフォーファリーやインテリジェントなサイバー攻撃などの強力な人工知能技術を、前例のない規模で詐欺と破壊に使用しています。過去1年間、グローバルビジネスの87%がAIサイバー犯罪の標的を絞っていると報告されています。 それでは、どうすればこの賢い犯罪の波の犠牲者になることを避けることができますか?リスクを特定し、個人および組織レベルで保護対策を講じる方法を探りましょう。 サイバー犯罪者が人工知能をどのように使用するか 技術が進むにつれて、犯罪者は、個人、企業、政府を攻撃する新しい方法を常に探しています。人工知能の広範な使用は最新の側面かもしれませんが、その潜在的な害は前例のないものです。 特に、人工知能

共生ダンス:人工的および自然な知覚のナビゲートループ共生ダンス:人工的および自然な知覚のナビゲートループMay 09, 2025 am 11:13 AM

人工知能(AI)と人間の知能(NI)の複雑な関係は、フィードバックループとして最もよく理解されています。 人間はAIを作成し、人間の活動によって生成されたデータでそれをトレーニングして、人間の能力を強化または複製します。 このai

AIの最大の秘密 - クリエイターはそれを理解していません、専門家は分裂しますAIの最大の秘密 - クリエイターはそれを理解していません、専門家は分裂しますMay 09, 2025 am 11:09 AM

人類の最近の声明は、最先端のAIモデルを取り巻く理解の欠如を強調しており、専門家の間で激しい議論を引き起こしました。 この不透明度は本物の技術的危機ですか、それとも単により多くのソフへの道の一時的なハードルですか

Sarvam AIによるBulbul-V2:インドの最高のTTSモデルSarvam AIによるBulbul-V2:インドの最高のTTSモデルMay 09, 2025 am 10:52 AM

インドは、言語の豊かなタペストリーを備えた多様な国であり、地域間のシームレスなコミュニケーションを持続的な課題にしています。ただし、SarvamのBulbul-V2は、高度なテキストからスピーチ(TTS)Tでこのギャップを埋めるのに役立ちます。

See all articles

ホットAIツール

Undresser.AI Undress

Undresser.AI Undress

リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover

AI Clothes Remover

写真から衣服を削除するオンライン AI ツール。

Undress AI Tool

Undress AI Tool

脱衣画像を無料で

Clothoff.io

Clothoff.io

AI衣類リムーバー

Video Face Swap

Video Face Swap

完全無料の AI 顔交換ツールを使用して、あらゆるビデオの顔を簡単に交換できます。

ホットツール

PhpStorm Mac バージョン

PhpStorm Mac バージョン

最新(2018.2.1)のプロフェッショナル向けPHP統合開発ツール

DVWA

DVWA

Damn Vulnerable Web App (DVWA) は、非常に脆弱な PHP/MySQL Web アプリケーションです。その主な目的は、セキュリティ専門家が法的環境でスキルとツールをテストするのに役立ち、Web 開発者が Web アプリケーションを保護するプロセスをより深く理解できるようにし、教師/生徒が教室環境で Web アプリケーションを教え/学習できるようにすることです。安全。 DVWA の目標は、シンプルでわかりやすいインターフェイスを通じて、さまざまな難易度で最も一般的な Web 脆弱性のいくつかを実践することです。このソフトウェアは、

mPDF

mPDF

mPDF は、UTF-8 でエンコードされた HTML から PDF ファイルを生成できる PHP ライブラリです。オリジナルの作者である Ian Back は、Web サイトから「オンザフライ」で PDF ファイルを出力し、さまざまな言語を処理するために mPDF を作成しました。 HTML2FPDF などのオリジナルのスクリプトよりも遅く、Unicode フォントを使用すると生成されるファイルが大きくなりますが、CSS スタイルなどをサポートし、多くの機能強化が施されています。 RTL (アラビア語とヘブライ語) や CJK (中国語、日本語、韓国語) を含むほぼすべての言語をサポートします。ネストされたブロックレベル要素 (P、DIV など) をサポートします。

VSCode Windows 64 ビットのダウンロード

VSCode Windows 64 ビットのダウンロード

Microsoft によって発売された無料で強力な IDE エディター

MinGW - Minimalist GNU for Windows

MinGW - Minimalist GNU for Windows

このプロジェクトは osdn.net/projects/mingw に移行中です。引き続きそこでフォローしていただけます。 MinGW: GNU Compiler Collection (GCC) のネイティブ Windows ポートであり、ネイティブ Windows アプリケーションを構築するための自由に配布可能なインポート ライブラリとヘッダー ファイルであり、C99 機能をサポートする MSVC ランタイムの拡張機能が含まれています。すべての MinGW ソフトウェアは 64 ビット Windows プラットフォームで実行できます。