補強学習(RL):エージェントと環境の相互作用に深く潜ります
基本的および高度な補強学習(RL)モデルは、しばしばSF AIに似ている現在の大きな言語モデルを上回ります。 この記事では、RLがエージェントがスーパーマリオの挑戦的なレベルを征服する方法を説明します。
RLの強みは、事前定義されたソリューションや明示的なプログラミングなしで問題を解決することにあり、多くの場合、データ要件が最小限に抑えられます。これにより、さまざまな分野で影響を及ぼします:
- 自動運転車:
- RLエージェントは、リアルタイムのトラフィックと道路規則に基づいて最適な運転戦略を学びます。 ロボット工学: ロボットRLトレーニングを通じて動的環境で複雑なタスクをマスターします。
- ゲームai:RLテクニックにより、AIエージェントはGoやStarcraft IIなどのゲームで洗練された戦略を開発できます。
- rlは、計り知れない可能性を秘めた急速に進化する分野です。 将来のアプリケーションは、リソース管理、ヘルスケア、およびパーソナライズされた教育で予想されます。 このチュートリアルでは、RLファンダメンタルズを紹介し、エージェント、環境、アクション、状態、報酬などのコアコンセプトを説明しています。 エージェントと環境:猫の視点 猫のトレーニング、ボブ、家具の代わりにスクラッチポストを使用することを検討してください。ボブは、学習者であり意思決定者である
です。 部屋は
環境であり、課題(家具)と目標(引っ掛かった投稿)を提示します。
rl環境は次のように分類されますディスクリート:グリッドベースのゲームのような単純化された部屋、ボブの動きと部屋のバリエーションを制限します。
継続:現実世界の部屋は、家具の配置とボブの行動のためにほぼ無限の可能性を提供します。
- 私たちの部屋の例は、
- static環境です(家具は固定されたままです)。 a dynamic 環境は、スーパーマリオレベルのように、時間の経過とともに変化し、学習の複雑さを高めます。
- アクションと状態:可能性の定義 状態スペース
有限:離散環境には限られた数の状態があります(例:ボードゲーム)。
Infinite:
アクション空間は、すべての可能なエージェントアクションを表します。 繰り返しますが、サイズは環境に依存します:
-
ディスクリート:限られたアクション(たとえば、上、下、左、右)。
-
連続:より広範なアクションの範囲(たとえば、任意の方向、ジャンプ)。
各アクションは、環境を新しい状態に遷移します。
報酬、タイムステップ、エピソード:進捗状況の測定
報酬エージェントにインセンティブを与えます。 チェスでは、ピースをキャプチャすることはポジティブです。小切手を受信することは負です。 ボブの場合、扱います肯定的な行動に報いる(引っ掻く投稿を使用)、水噴出は否定的な行動(家具を傷つける)を罰する。
時間段階エージェントの学習の旅を測定します。 各ステップにはアクションが含まれ、新しい状態と報酬が得られます。
an
エピソードは、デフォルトの状態から始まり、目標が達成されたときに終了するか、エージェントが失敗したときに終了する一連の時間ステップを含む。
探査対搾取:行為のバランス
エージェントは、
探査(新しいアクションを試す)と
exploation (既知の最良のアクションを使用)のバランスを取る必要があります。 戦略は次のとおりです
epsilon-greedy:確率によるランダム探査(epsilon);それ以外の場合は、最もよく知られているアクションを活用します。
- Boltzmann探査:
確率的に、予想される報酬を伴うアクションを支持します。
- 補強学習アルゴリズム:モデルベースとモデルフリー
rlアルゴリズムは、エージェントの意思決定をガイドします。 2つの主要なカテゴリが存在します:
モデルベースのrl
エージェントは、アクションを計画するために環境の内部モデルを構築します。これはサンプル効率ですが、複雑な環境では挑戦的です。 例は、モデルベースとモデルのない学習を組み合わせたDyna-Qです
モデルフリーrl
エージェントは、明示的なモデルなしで経験から直接学習します。これはよりシンプルですが、サンプル効率が低くなります。 例は次のとおりです
Qラーニング:状態行動ペアのQ値(予想される将来の報酬)を学習します
sarsa: q-learningに似ていますが、実際の次のアクションに基づいて値を更新します。
ポリシーグラデーションメソッド:- 条件をアクションにマッピングするポリシーを直接学習します。
ディープQネットワーク(DQN):
Qラーニングと、高次元状態空間の深いニューラルネットワークを組み合わせた。
-
アルゴリズムの選択は、環境の複雑さとリソースの可用性に依存します
Qラーニング:詳細な外観
- Qラーニングは、モデルフリーアルゴリズムの教育エージェントの最適な戦略です。 Qテーブルは、各状態アクションペアのQ値を保存します。 エージェントは、イプシロングレディポリシーに基づいてアクションを選択し、探索と搾取のバランスを取ります。 Q値は、現在のQ値、報酬、および次の状態の最大Q値を組み込んだ式を使用して更新されます。 ガンマ(割引率)やアルファ(学習レート)などのパラメーターは、学習プロセスを制御します。体育館を備えたPythonでの補強学習
Gymnasiumは、RL実験のためのさまざまな環境を提供します。 次のコードスニペットは、ブレイクアウト環境との相互作用ループを示しています:
import gymnasium as gym
env = gym.make("ALE/Breakout-v5", render_mode="rgb_array")
# ... (interaction loop and GIF creation code as in the original article) ...
このコードは、エージェントのアクションを視覚化するGIFを生成します。 学習アルゴリズムがなければ、アクションはランダムであることに注意してください。
結論
補強学習は、幅広いアプリケーションを備えた強力な手法です。 このチュートリアルは、基本的な概念をカバーし、さらなる調査の出発点を提供しました。 追加のリソースは、継続的な学習のために元の記事にリストされています。
アクション空間は、すべての可能なエージェントアクションを表します。 繰り返しますが、サイズは環境に依存します:
- ディスクリート:限られたアクション(たとえば、上、下、左、右)。
- 連続:より広範なアクションの範囲(たとえば、任意の方向、ジャンプ)。
各アクションは、環境を新しい状態に遷移します。
報酬、タイムステップ、エピソード:進捗状況の測定
報酬エージェントにインセンティブを与えます。 チェスでは、ピースをキャプチャすることはポジティブです。小切手を受信することは負です。 ボブの場合、扱います肯定的な行動に報いる(引っ掻く投稿を使用)、水噴出は否定的な行動(家具を傷つける)を罰する。
時間段階エージェントの学習の旅を測定します。 各ステップにはアクションが含まれ、新しい状態と報酬が得られます。 an
エピソード探査対搾取:行為のバランス エージェントは、
探査(新しいアクションを試す)と
exploation(既知の最良のアクションを使用)のバランスを取る必要があります。 戦略は次のとおりです epsilon-greedy:確率によるランダム探査(epsilon);それ以外の場合は、最もよく知られているアクションを活用します。
- Boltzmann探査:
確率的に、予想される報酬を伴うアクションを支持します。 - 補強学習アルゴリズム:モデルベースとモデルフリー rlアルゴリズムは、エージェントの意思決定をガイドします。 2つの主要なカテゴリが存在します:
エージェントは、アクションを計画するために環境の内部モデルを構築します。これはサンプル効率ですが、複雑な環境では挑戦的です。 例は、モデルベースとモデルのない学習を組み合わせたDyna-Qです
モデルフリーrl
エージェントは、明示的なモデルなしで経験から直接学習します。これはよりシンプルですが、サンプル効率が低くなります。 例は次のとおりです
Qラーニング:状態行動ペアのQ値(予想される将来の報酬)を学習します
sarsa:
- ポリシーグラデーションメソッド:
- 条件をアクションにマッピングするポリシーを直接学習します。 ディープQネットワーク(DQN): Qラーニングと、高次元状態空間の深いニューラルネットワークを組み合わせた。
- アルゴリズムの選択は、環境の複雑さとリソースの可用性に依存します Qラーニング:詳細な外観
- Qラーニングは、モデルフリーアルゴリズムの教育エージェントの最適な戦略です。 Qテーブルは、各状態アクションペアのQ値を保存します。 エージェントは、イプシロングレディポリシーに基づいてアクションを選択し、探索と搾取のバランスを取ります。 Q値は、現在のQ値、報酬、および次の状態の最大Q値を組み込んだ式を使用して更新されます。 ガンマ(割引率)やアルファ(学習レート)などのパラメーターは、学習プロセスを制御します。体育館を備えたPythonでの補強学習
import gymnasium as gym env = gym.make("ALE/Breakout-v5", render_mode="rgb_array") # ... (interaction loop and GIF creation code as in the original article) ...
このコードは、エージェントのアクションを視覚化するGIFを生成します。 学習アルゴリズムがなければ、アクションはランダムであることに注意してください。結論
補強学習は、幅広いアプリケーションを備えた強力な手法です。 このチュートリアルは、基本的な概念をカバーし、さらなる調査の出発点を提供しました。 追加のリソースは、継続的な学習のために元の記事にリストされています。
以上が強化学習:Pythonの例を掲載した紹介の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

法的技術革命は勢いを増し、法律専門家にAIソリューションを積極的に受け入れるように促しています。 受動的抵抗は、競争力を維持することを目指している人にとってはもはや実行可能な選択肢ではありません。 なぜテクノロジーの採用が重要なのですか? 法律専門家

多くの人は、AIとの相互作用が匿名であると仮定しており、人間のコミュニケーションとはまったく対照的です。 ただし、AIはすべてのチャット中にユーザーを積極的にプロファイルします。 すべてのプロンプト、すべての単語が分析および分類されます。 AI Revoのこの重要な側面を探りましょう

成功した人工知能戦略は、強力な企業文化サポートから分離することはできません。 Peter Druckerが言ったように、事業運営は人々に依存しており、人工知能の成功も依存しています。 人工知能を積極的に受け入れる組織の場合、AIに適応する企業文化を構築することが重要であり、AI戦略の成功または失敗さえ決定します。 ウェストモンローは最近、繁栄するAIに優しい企業文化を構築するための実用的なガイドをリリースしました。ここにいくつかの重要なポイントがあります。 1. AIの成功モデルを明確にする:まず第一に、AIがどのようにビジネスに力を与えることができるかについての明確なビジョンが必要です。理想的なAI操作文化は、人間とAIシステム間の作業プロセスの自然統合を実現できます。 AIは特定のタスクが得意であり、人間は創造性と判断が得意です

メタはAIアシスタントアプリケーションをアップグレードし、ウェアラブルAIの時代が来ています! ChatGPTと競合するように設計されたこのアプリは、テキスト、音声インタラクション、画像生成、Web検索などの標準的なAI機能を提供しますが、初めてジオロケーション機能を追加しました。これは、メタAIがあなたがどこにいるのか、あなたがあなたの質問に答えるときにあなたが何を見ているのかを知っていることを意味します。興味、場所、プロファイル、アクティビティ情報を使用して、これまで不可能な最新の状況情報を提供します。このアプリはリアルタイム翻訳もサポートしており、レイバンメガネのAIエクスペリエンスを完全に変更し、その有用性を大幅に改善しました。 外国映画への関税の賦課は、メディアや文化に対する裸の力の行使です。実装された場合、これはAIと仮想生産に向かって加速します

人工知能は、サイバー犯罪の分野に革命をもたらし、新しい防御スキルを学ぶことを強いています。サイバー犯罪者は、ディープフォーファリーやインテリジェントなサイバー攻撃などの強力な人工知能技術を、前例のない規模で詐欺と破壊に使用しています。過去1年間、グローバルビジネスの87%がAIサイバー犯罪の標的を絞っていると報告されています。 それでは、どうすればこの賢い犯罪の波の犠牲者になることを避けることができますか?リスクを特定し、個人および組織レベルで保護対策を講じる方法を探りましょう。 サイバー犯罪者が人工知能をどのように使用するか 技術が進むにつれて、犯罪者は、個人、企業、政府を攻撃する新しい方法を常に探しています。人工知能の広範な使用は最新の側面かもしれませんが、その潜在的な害は前例のないものです。 特に、人工知能

人工知能(AI)と人間の知能(NI)の複雑な関係は、フィードバックループとして最もよく理解されています。 人間はAIを作成し、人間の活動によって生成されたデータでそれをトレーニングして、人間の能力を強化または複製します。 このai

人類の最近の声明は、最先端のAIモデルを取り巻く理解の欠如を強調しており、専門家の間で激しい議論を引き起こしました。 この不透明度は本物の技術的危機ですか、それとも単により多くのソフへの道の一時的なハードルですか

インドは、言語の豊かなタペストリーを備えた多様な国であり、地域間のシームレスなコミュニケーションを持続的な課題にしています。ただし、SarvamのBulbul-V2は、高度なテキストからスピーチ(TTS)Tでこのギャップを埋めるのに役立ちます。


ホットAIツール

Undresser.AI Undress
リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover
写真から衣服を削除するオンライン AI ツール。

Undress AI Tool
脱衣画像を無料で

Clothoff.io
AI衣類リムーバー

Video Face Swap
完全無料の AI 顔交換ツールを使用して、あらゆるビデオの顔を簡単に交換できます。

人気の記事

ホットツール

PhpStorm Mac バージョン
最新(2018.2.1)のプロフェッショナル向けPHP統合開発ツール

DVWA
Damn Vulnerable Web App (DVWA) は、非常に脆弱な PHP/MySQL Web アプリケーションです。その主な目的は、セキュリティ専門家が法的環境でスキルとツールをテストするのに役立ち、Web 開発者が Web アプリケーションを保護するプロセスをより深く理解できるようにし、教師/生徒が教室環境で Web アプリケーションを教え/学習できるようにすることです。安全。 DVWA の目標は、シンプルでわかりやすいインターフェイスを通じて、さまざまな難易度で最も一般的な Web 脆弱性のいくつかを実践することです。このソフトウェアは、

mPDF
mPDF は、UTF-8 でエンコードされた HTML から PDF ファイルを生成できる PHP ライブラリです。オリジナルの作者である Ian Back は、Web サイトから「オンザフライ」で PDF ファイルを出力し、さまざまな言語を処理するために mPDF を作成しました。 HTML2FPDF などのオリジナルのスクリプトよりも遅く、Unicode フォントを使用すると生成されるファイルが大きくなりますが、CSS スタイルなどをサポートし、多くの機能強化が施されています。 RTL (アラビア語とヘブライ語) や CJK (中国語、日本語、韓国語) を含むほぼすべての言語をサポートします。ネストされたブロックレベル要素 (P、DIV など) をサポートします。

VSCode Windows 64 ビットのダウンロード
Microsoft によって発売された無料で強力な IDE エディター

MinGW - Minimalist GNU for Windows
このプロジェクトは osdn.net/projects/mingw に移行中です。引き続きそこでフォローしていただけます。 MinGW: GNU Compiler Collection (GCC) のネイティブ Windows ポートであり、ネイティブ Windows アプリケーションを構築するための自由に配布可能なインポート ライブラリとヘッダー ファイルであり、C99 機能をサポートする MSVC ランタイムの拡張機能が含まれています。すべての MinGW ソフトウェアは 64 ビット Windows プラットフォームで実行できます。
