インストール環境
gym は強化学習アルゴリズムの開発と比較を行うためのツールキットで、Python で Gym ライブラリとそのサブシナリオをインストールするのは比較的簡単です。
ジムのインストール:
pip install gym
自動運転モジュールをインストールします。ここでは、Edouard Leurent が github で公開したパッケージ Highway-env を使用します:
pip install --user git+https://github.com/eleurent/highway-env
これには 6 つのシーンが含まれています:
- 高速道路 - "highway-v0"
- 合流 - "merge-v0"
- ラウンドアバウト交差点 - "roundabout-v0"
- 駐車場 - " parking-v0"
- 交差点 - "intersection-v0"
- レーシング トラック - "racetrack-v0"
詳細 ドキュメントはここにあります:
https://www.php.cn/link/c0fda89ebd645bd7cea60fcbb5960309
構成環境
インストールされたら、コードで実験を行うことができます(高速道路のシーンを例にします):
import gym import highway_env %matplotlib inline env = gym.make('highway-v0') env.reset() for _ in range(3): action = env.action_type.actions_indexes["IDLE"] obs, reward, done, info = env.step(action) env.render()
実行後、シミュレータで次のシーンが生成されます:
env クラスには多くのものが含まれます。設定可能なパラメータ詳細についてはオリジナルドキュメントを参照してください。
トレーニング モデル
1. データ処理
(1)状態
highway-env パッケージにはセンサーが定義されておらず、すべての状態 (車両のデータはすべて基礎となるコードから読み取られるため、多くの予備作業が省かれます。ドキュメントによると、状態 (観察) には、キネマティクス、グレースケール イメージ、占有グリッドという 3 つの出力方法があります。
運動学
V*F の行列を出力します。V は観察する必要がある車両の数 (自我車両自体を含む) を表し、F は観察する必要がある特徴の数を表します。数えられる。例:
データが生成されると、デフォルトで正規化されます。値の範囲は: [100, 100, 20, 20]です。また、自車車両以外の車両属性を地図の絶対座標または自車両の相対座標 相対座標。
環境を定義するときは、機能のパラメーターを設定する必要があります:
config = { "observation": { "type": "Kinematics", #选取5辆车进行观察(包括ego vehicle) "vehicles_count": 5, #共7个特征 "features": ["presence", "x", "y", "vx", "vy", "cos_h", "sin_h"], "features_range": { "x": [-100, 100], "y": [-100, 100], "vx": [-20, 20], "vy": [-20, 20] }, "absolute": False, "order": "sorted" }, "simulation_frequency": 8,# [Hz] "policy_frequency": 2,# [Hz] }
グレースケール イメージ
W*H のグレースケール イメージを生成します (W は幅を表します)。 H は画像の高さを表します
占有グリッド
WHF の 3 次元行列を生成し、W*H テーブルを使用して自車の周囲の車両状況を表します。グリッドには F フィーチャが含まれています。
(2) action
Highway-env パッケージのアクションは、連続アクションと離散アクションの 2 種類に分かれています。連続アクションはスロットルとステアリング角度の値を直接定義できます、離散アクションには 5 つのメタ アクションが含まれます:
ACTIONS_ALL = { 0: 'LANE_LEFT', 1: 'IDLE', 2: 'LANE_RIGHT', 3: 'FASTER', 4: 'SLOWER' }
(3) 報酬
Highway-env パッケージは駐車シーンを除くすべてを使用します同じ報酬関数:
この関数はソース コード内でのみ変更でき、重みは外側の層でのみ調整できます。
(駐車シーンの報酬関数は元のドキュメントに含まれています)
2. モデル
DQN ネットワークを構築します。最初の状態表現方法である運動学を使用します。デモンストレーション用です。状態データの量が少ないため (5 車 * 7 特徴)、CNN の使用を無視して、2 次元データのサイズ [5,7] を [1,35] に直接変換できます。モデルは 35 です。出力は個別のアクションの数、合計 5 です。
import torch import torch.nn as nn from torch.autograd import Variable import torch.nn.functional as F import torch.optim as optim import torchvision.transforms as T from torch import FloatTensor, LongTensor, ByteTensor from collections import namedtuple import random Tensor = FloatTensor EPSILON = 0# epsilon used for epsilon greedy approach GAMMA = 0.9 TARGET_NETWORK_REPLACE_FREQ = 40 # How frequently target netowrk updates MEMORY_CAPACITY = 100 BATCH_SIZE = 80 LR = 0.01 # learning rate class DQNNet(nn.Module): def __init__(self): super(DQNNet,self).__init__() self.linear1 = nn.Linear(35,35) self.linear2 = nn.Linear(35,5) def forward(self,s): s=torch.FloatTensor(s) s = s.view(s.size(0),1,35) s = self.linear1(s) s = self.linear2(s) return s class DQN(object): def __init__(self): self.net,self.target_net = DQNNet(),DQNNet() self.learn_step_counter = 0 self.memory = [] self.position = 0 self.capacity = MEMORY_CAPACITY self.optimizer = torch.optim.Adam(self.net.parameters(), lr=LR) self.loss_func = nn.MSELoss() def choose_action(self,s,e): x=np.expand_dims(s, axis=0) if np.random.uniform() < 1-e: actions_value = self.net.forward(x) action = torch.max(actions_value,-1)[1].data.numpy() action = action.max() else: action = np.random.randint(0, 5) return action def push_memory(self, s, a, r, s_): if len(self.memory) < self.capacity: self.memory.append(None) self.memory[self.position] = Transition(torch.unsqueeze(torch.FloatTensor(s), 0),torch.unsqueeze(torch.FloatTensor(s_), 0), torch.from_numpy(np.array([a])),torch.from_numpy(np.array([r],dtype='float32')))# self.position = (self.position + 1) % self.capacity def get_sample(self,batch_size): sample = random.sample(self.memory,batch_size) return sample def learn(self): if self.learn_step_counter % TARGET_NETWORK_REPLACE_FREQ == 0: self.target_net.load_state_dict(self.net.state_dict()) self.learn_step_counter += 1 transitions = self.get_sample(BATCH_SIZE) batch = Transition(*zip(*transitions)) b_s = Variable(torch.cat(batch.state)) b_s_ = Variable(torch.cat(batch.next_state)) b_a = Variable(torch.cat(batch.action)) b_r = Variable(torch.cat(batch.reward)) q_eval = self.net.forward(b_s).squeeze(1).gather(1,b_a.unsqueeze(1).to(torch.int64)) q_next = self.target_net.forward(b_s_).detach() # q_target = b_r + GAMMA * q_next.squeeze(1).max(1)[0].view(BATCH_SIZE, 1).t() loss = self.loss_func(q_eval, q_target.t()) self.optimizer.zero_grad() # reset the gradient to zero loss.backward() self.optimizer.step() # execute back propagation for one step return loss Transition = namedtuple('Transition',('state', 'next_state','action', 'reward'))
3. 実行結果
すべてのパーツが完成したら、それらを組み合わせてモデルをトレーニングします。プロセスは CARLA のプロセスと似ているため、詳細は説明しません。
初期化環境 (DQN クラスを追加するだけ):
import gym import highway_env from matplotlib import pyplot as plt import numpy as np import time config = { "observation": { "type": "Kinematics", "vehicles_count": 5, "features": ["presence", "x", "y", "vx", "vy", "cos_h", "sin_h"], "features_range": { "x": [-100, 100], "y": [-100, 100], "vx": [-20, 20], "vy": [-20, 20] }, "absolute": False, "order": "sorted" }, "simulation_frequency": 8,# [Hz] "policy_frequency": 2,# [Hz] } env = gym.make("highway-v0") env.configure(config)
トレーニング モデル:
dqn=DQN() count=0 reward=[] avg_reward=0 all_reward=[] time_=[] all_time=[] collision_his=[] all_collision=[] while True: done = False start_time=time.time() s = env.reset() while not done: e = np.exp(-count/300)#随机选择action的概率,随着训练次数增多逐渐降低 a = dqn.choose_action(s,e) s_, r, done, info = env.step(a) env.render() dqn.push_memory(s, a, r, s_) if ((dqn.position !=0)&(dqn.position % 99==0)): loss_=dqn.learn() count+=1 print('trained times:',count) if (count%40==0): avg_reward=np.mean(reward) avg_time=np.mean(time_) collision_rate=np.mean(collision_his) all_reward.append(avg_reward) all_time.append(avg_time) all_collision.append(collision_rate) plt.plot(all_reward) plt.show() plt.plot(all_time) plt.show() plt.plot(all_collision) plt.show() reward=[] time_=[] collision_his=[] s = s_ reward.append(r) end_time=time.time() episode_time=end_time-start_time time_.append(episode_time) is_collision=1 if info['crashed']==True else 0 collision_his.append(is_collision)
実行プロセス中にコードにいくつかの描画関数を追加しました。主要な指標を設定し、40 回のトレーニングごとに平均値を計算します。
平均衝突率:
平均エポック期間 (秒):
平均報酬:
トレーニング回数が増加するにつれて、平均衝突発生率は徐々に減少し、各エポックの継続時間は徐々に延長されることがわかります (衝突が発生した場合) 、エポックはすぐに終了します)
概要
シミュレーター CARLA と比較して、highway-env 環境パッケージは大幅に抽象化されており、アルゴリズムをトレーニングできるようにゲームのような表現を使用しています。理想的な仮想環境でデータ取得方法、センサーの精度、計算時間などの現実的な問題を考慮する必要はありません。エンドツーエンドのアルゴリズムの設計とテストには非常に適していますが、自動制御の観点から見ると、開始する要素が少なく、研究にはあまり柔軟性がありません。
以上が自動運転システムを実装するためにPythonを学ぶの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

2時間以内にPythonの基本的なプログラミングの概念とスキルを学ぶことができます。 1.変数とデータ型、2。マスターコントロールフロー(条件付きステートメントとループ)、3。機能の定義と使用を理解する4。

Pythonは、Web開発、データサイエンス、機械学習、自動化、スクリプトの分野で広く使用されています。 1)Web開発では、DjangoおよびFlask Frameworksが開発プロセスを簡素化します。 2)データサイエンスと機械学習の分野では、Numpy、Pandas、Scikit-Learn、Tensorflowライブラリが強力なサポートを提供します。 3)自動化とスクリプトの観点から、Pythonは自動テストやシステム管理などのタスクに適しています。

2時間以内にPythonの基本を学ぶことができます。 1。変数とデータ型を学習します。2。ステートメントやループの場合などのマスター制御構造、3。関数の定義と使用を理解します。これらは、簡単なPythonプログラムの作成を開始するのに役立ちます。

10時間以内にコンピューター初心者プログラミングの基本を教える方法は?コンピューター初心者にプログラミングの知識を教えるのに10時間しかない場合、何を教えることを選びますか...

fiddlereveryversings for the-middleの測定値を使用するときに検出されないようにする方法

Python 3.6のピクルスファイルのロードレポートエラー:modulenotFounderror:nomodulenamed ...

風光明媚なスポットコメント分析におけるJieba Wordセグメンテーションの問題を解決する方法は?風光明媚なスポットコメントと分析を行っているとき、私たちはしばしばJieba Wordセグメンテーションツールを使用してテキストを処理します...

正規表現を使用して、最初の閉じたタグと停止に一致する方法は? HTMLまたは他のマークアップ言語を扱う場合、しばしば正規表現が必要です...


ホットAIツール

Undresser.AI Undress
リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover
写真から衣服を削除するオンライン AI ツール。

Undress AI Tool
脱衣画像を無料で

Clothoff.io
AI衣類リムーバー

AI Hentai Generator
AIヘンタイを無料で生成します。

人気の記事

ホットツール

DVWA
Damn Vulnerable Web App (DVWA) は、非常に脆弱な PHP/MySQL Web アプリケーションです。その主な目的は、セキュリティ専門家が法的環境でスキルとツールをテストするのに役立ち、Web 開発者が Web アプリケーションを保護するプロセスをより深く理解できるようにし、教師/生徒が教室環境で Web アプリケーションを教え/学習できるようにすることです。安全。 DVWA の目標は、シンプルでわかりやすいインターフェイスを通じて、さまざまな難易度で最も一般的な Web 脆弱性のいくつかを実践することです。このソフトウェアは、

Safe Exam Browser
Safe Exam Browser は、オンライン試験を安全に受験するための安全なブラウザ環境です。このソフトウェアは、あらゆるコンピュータを安全なワークステーションに変えます。あらゆるユーティリティへのアクセスを制御し、学生が無許可のリソースを使用するのを防ぎます。

メモ帳++7.3.1
使いやすく無料のコードエディター

SublimeText3 Mac版
神レベルのコード編集ソフト(SublimeText3)

MantisBT
Mantis は、製品の欠陥追跡を支援するために設計された、導入が簡単な Web ベースの欠陥追跡ツールです。 PHP、MySQL、Web サーバーが必要です。デモおよびホスティング サービスをチェックしてください。
