Rumah  >  Artikel  >  Peranti teknologi  >  Definisi, klasifikasi dan rangka kerja algoritma pembelajaran pengukuhan

Definisi, klasifikasi dan rangka kerja algoritma pembelajaran pengukuhan

PHPz
PHPzke hadapan
2024-01-24 09:30:07583semak imbas

Definisi, klasifikasi dan rangka kerja algoritma pembelajaran pengukuhan

Pembelajaran pengukuhan (RL) ialah algoritma pembelajaran mesin antara pembelajaran diselia dan pembelajaran tanpa penyeliaan. Ia menyelesaikan masalah melalui percubaan dan kesilapan dan pembelajaran. Semasa latihan, pembelajaran pengukuhan mengambil beberapa siri keputusan dan diberi ganjaran atau hukuman berdasarkan tindakan yang dilakukan. Matlamatnya adalah untuk memaksimumkan jumlah ganjaran. Pembelajaran pengukuhan mempunyai keupayaan untuk belajar secara autonomi dan menyesuaikan diri, serta boleh membuat keputusan yang dioptimumkan dalam persekitaran yang dinamik. Berbanding dengan pembelajaran penyeliaan tradisional, pembelajaran pengukuhan lebih sesuai untuk masalah tanpa label yang jelas dan boleh mencapai keputusan yang baik dalam masalah membuat keputusan jangka panjang.

Pada terasnya, pembelajaran pengukuhan adalah mengenai penguatkuasaan tindakan berdasarkan tindakan yang dilakukan oleh ejen, yang diberi ganjaran berdasarkan kesan positif tindakan mereka terhadap matlamat keseluruhan.

Terdapat dua jenis utama algoritma pembelajaran pengukuhan:

Algoritma pembelajaran berasaskan model vs. tanpa model

Algoritma berasaskan model

fungsi berasaskan ganjaran dan transformasi

menganggarkan dasar yang optimum. Dalam pembelajaran peneguhan berasaskan model, ejen mempunyai akses kepada model persekitaran, iaitu, tindakan yang perlu dilakukan untuk pergi dari satu keadaan ke keadaan lain, kebarangkalian yang dilampirkan, dan ganjaran yang sepadan. Mereka membenarkan agen pembelajaran pengukuhan merancang lebih awal dengan berfikir ke hadapan.

Algoritma tanpa model

Algoritma tanpa model adalah untuk mencari strategi optimum apabila pemahaman tentang dinamik persekitaran adalah sangat terhad. Tiada peralihan atau insentif untuk menilai dasar terbaik. Dasar optimum dianggarkan secara empirik secara langsung, iaitu hanya interaksi antara ejen dan persekitaran, tanpa sebarang petunjuk tentang fungsi ganjaran.

Pembelajaran pengukuhan tanpa model harus digunakan pada senario dengan maklumat alam sekitar yang tidak lengkap, seperti kereta pandu sendiri, dalam hal ini algoritma tanpa model lebih unggul daripada teknik lain.

Rangka kerja algoritma yang paling biasa digunakan untuk pembelajaran pengukuhan

Proses Keputusan Markov (MDP)

Proses Keputusan Markov ialah algoritma pembelajaran pengukuhan yang memberikan kita kaedah membuat keputusan berjujukan formal. Formalisasi ini adalah asas kepada masalah yang diselesaikan oleh pembelajaran pengukuhan. Komponen yang terlibat dalam Proses Keputusan Markov (MDP) ialah pembuat keputusan yang dipanggil ejen, yang berinteraksi dengan persekitarannya.

Pada setiap cap masa, ejen akan mendapat sedikit gambaran tentang keadaan persekitaran. Memandangkan perwakilan ini, ejen memilih tindakan untuk dilakukan. Persekitaran kemudiannya beralih kepada beberapa keadaan baharu dan ejen diberi ganjaran untuk tindakan sebelumnya. Perkara penting yang perlu diberi perhatian tentang proses keputusan Markov ialah ia tidak bimbang tentang ganjaran segera, sebaliknya bertujuan untuk memaksimumkan jumlah ganjaran ke atas keseluruhan trajektori.

Persamaan Bellman

Persamaan Bellman ialah sejenis algoritma pembelajaran pengukuhan yang amat sesuai untuk persekitaran yang menentukan. Nilai keadaan tertentu ditentukan oleh tindakan maksimum yang boleh diambil oleh ejen dalam keadaan ia berada. Tujuan ejen adalah untuk memilih tindakan yang akan memaksimumkan nilai.

Jadi ia perlu meningkatkan ganjaran tindakan terbaik di negeri ini dan menambah faktor diskaun yang mengurangkan ganjarannya dari semasa ke semasa. Setiap kali ejen mengambil tindakan, ia kembali ke keadaan seterusnya.

Daripada menjumlahkan dalam beberapa langkah masa, persamaan ini memudahkan pengiraan fungsi nilai, membolehkan kami mencari penyelesaian optimum dengan menguraikan masalah kompleks kepada sub-masalah rekursif yang lebih kecil.

Q-Learning

Q-Learning menggabungkan fungsi nilai dengan kualiti yang diberikan kepada pasangan tindakan keadaan sebagai Q berdasarkan jangkaan nilai masa depan memandangkan keadaan semasa dan strategi terbaik yang dimiliki oleh ejen. Sebaik sahaja ejen mempelajari fungsi Q ini, ia mencari tindakan terbaik yang mungkin menghasilkan kualiti tertinggi dalam keadaan tertentu.

🎜Dengan fungsi Q optimum, strategi optimum boleh ditentukan dengan menggunakan algoritma pembelajaran pengukuhan untuk mencari tindakan yang memaksimumkan nilai setiap keadaan. 🎜

Atas ialah kandungan terperinci Definisi, klasifikasi dan rangka kerja algoritma pembelajaran pengukuhan. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!

Kenyataan:
Artikel ini dikembalikan pada:163.com. Jika ada pelanggaran, sila hubungi admin@php.cn Padam