Algoritma Dasar Proksimal Dioptimumkan (PPO)
Pengoptimuman Dasar Proksimal (PPO) ialah algoritma pembelajaran pengukuhan yang direka untuk menyelesaikan masalah latihan yang tidak stabil dan kecekapan sampel yang rendah dalam pembelajaran peneguhan mendalam. Algoritma PPO adalah berdasarkan kecerunan dasar dan melatih ejen dengan mengoptimumkan dasar untuk memaksimumkan pulangan jangka panjang. Berbanding dengan algoritma lain, PPO mempunyai kelebihan kesederhanaan, kecekapan dan kestabilan, jadi ia digunakan secara meluas dalam akademik dan industri. PPO menambah baik proses latihan melalui dua konsep utama: pengoptimuman dasar proksimal dan memotong fungsi objektif. Pengoptimuman dasar proksimal mengekalkan kestabilan latihan dengan mengehadkan saiz kemas kini dasar untuk memastikan setiap kemas kini berada dalam julat yang boleh diterima. Fungsi objektif ricih ialah idea teras algoritma PPO Apabila mengemas kini dasar, ia menggunakan fungsi objektif ricih untuk mengekang magnitud kemas kini dasar untuk mengelakkan kemas kini berlebihan yang membawa kepada latihan yang tidak stabil. Algoritma PPO menunjukkan prestasi yang baik dalam amalan
Dalam algoritma PPO, dasar diwakili oleh rangkaian saraf. Rangkaian saraf menerima keadaan semasa sebagai input dan output nilai kebarangkalian untuk setiap tindakan yang tersedia. Pada setiap langkah masa, ejen memilih tindakan berdasarkan output pengagihan kebarangkalian oleh rangkaian dasar. Ejen kemudian melakukan tindakan dan memerhatikan keadaan dan isyarat ganjaran seterusnya. Proses ini akan diulang sehingga misi selesai. Dengan mengulangi proses ini, ejen boleh belajar cara memilih tindakan optimum berdasarkan keadaan semasa untuk memaksimumkan ganjaran terkumpul. Algoritma PPO mengimbangi penerokaan dan penggunaan strategi dengan mengoptimumkan saiz langkah dan amplitud kemas kini kemas kini strategi, dengan itu meningkatkan kestabilan dan prestasi algoritma.
Idea teras algoritma PPO ialah menggunakan kaedah pengoptimuman dasar proksimal untuk pengoptimuman dasar bagi mengelakkan masalah kemerosotan prestasi yang disebabkan oleh kemas kini dasar yang terlalu agresif. Khususnya, algoritma PPO menggunakan fungsi ricih untuk mengehadkan perbezaan antara dasar baharu dan dasar lama dalam julat tertentu. Fungsi ricih ini boleh menjadi linear, kuadratik atau eksponen, dsb. Dengan menggunakan fungsi ricih, algoritma PPO boleh mengimbangi keamatan kemas kini dasar, dengan itu meningkatkan kestabilan dan kelajuan penumpuan algoritma. Kaedah pengoptimuman dasar proksimal ini membolehkan algoritma PPO menunjukkan prestasi yang baik dan keteguhan dalam tugasan pembelajaran pengukuhan.
Inti algoritma PPO (Pengoptimuman Dasar Proksimal) adalah untuk meningkatkan kebolehsuaian dasar dalam persekitaran semasa dengan mengemas kini parameter rangkaian dasar. Khususnya, algoritma PPO mengemas kini parameter rangkaian dasar dengan memaksimumkan fungsi objektif PPO. Fungsi objektif ini terdiri daripada dua bahagian: satu ialah matlamat pengoptimuman strategi, iaitu untuk memaksimumkan pulangan jangka panjang, satu lagi ialah istilah kekangan yang digunakan untuk mengehadkan perbezaan antara strategi yang dikemas kini dan strategi asal. Dengan cara ini, algoritma PPO boleh mengemas kini parameter rangkaian dasar dengan berkesan dan meningkatkan prestasi dasar sambil memastikan kestabilan.
Dalam algoritma PPO, untuk mengekang perbezaan antara dasar yang dikemas kini dan dasar asal, kami menggunakan teknik yang dipanggil keratan. Secara khususnya, kami membandingkan dasar yang dikemas kini dengan dasar asal dan mengehadkan perbezaan antara dasar tersebut kepada tidak lebih daripada ambang kecil. Tujuan teknologi pemangkasan ini adalah untuk memastikan bahawa dasar yang dikemas kini tidak akan terlalu jauh daripada dasar asal, dengan itu mengelakkan kemas kini yang berlebihan semasa proses latihan, yang akan membawa kepada ketidakstabilan latihan. Melalui teknik keratan, kami dapat mengimbangi magnitud kemas kini dan memastikan kestabilan latihan dan penumpuan.
Algoritma PPO menggunakan data empirikal dengan mensampel berbilang trajektori, dengan itu meningkatkan kecekapan sampel. Semasa latihan, berbilang trajektori diambil sampel dan kemudian digunakan untuk menganggarkan ganjaran jangka panjang dan kecerunan dasar. Teknik persampelan ini boleh mengurangkan varians semasa latihan, seterusnya meningkatkan kestabilan dan kecekapan latihan.
Matlamat pengoptimuman algoritma PPO adalah untuk memaksimumkan pulangan yang dijangkakan, dengan pulangan merujuk kepada ganjaran terkumpul yang diperolehi selepas melaksanakan satu siri tindakan bermula dari keadaan semasa. Algoritma PPO menggunakan kaedah yang dipanggil "persampelan kepentingan" untuk menganggarkan kecerunan dasar, iaitu, untuk keadaan dan tindakan semasa, bandingkan nisbah kebarangkalian dasar semasa dan dasar lama, gunakannya sebagai pemberat, darabkannya dengan nilai ganjaran, dan akhirnya memperoleh kecerunan dasar.
Ringkasnya, algoritma PPO ialah algoritma pengoptimuman strategi yang cekap, stabil dan mudah dilaksanakan sesuai untuk menyelesaikan masalah kawalan berterusan. Ia menggunakan kaedah pengoptimuman dasar proksimal untuk mengawal magnitud kemas kini dasar dan menggunakan kaedah pensampelan kepentingan dan keratan fungsi nilai untuk menganggarkan kecerunan dasar. Gabungan teknik ini menjadikan algoritma PPO berprestasi baik dalam pelbagai persekitaran, menjadikannya salah satu algoritma pembelajaran pengukuhan yang paling popular pada masa ini.
Atas ialah kandungan terperinci Algoritma Dasar Proksimal Dioptimumkan (PPO). Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!

Penyebaran dalaman yang tidak terkawal sistem AI yang canggih menimbulkan risiko yang signifikan, menurut laporan baru dari Apollo Research. Kekurangan pengawasan ini, lazim di kalangan firma AI utama, membolehkan hasil yang berpotensi bencana, mulai dari UNCON

Pengesan kebohongan tradisional sudah lapuk. Bergantung pada penunjuk yang disambungkan oleh gelang tangan, pengesan kebohongan yang mencetak tanda -tanda penting subjek dan tindak balas fizikal tidak tepat dalam mengenal pasti kebohongan. Inilah sebabnya mengapa keputusan pengesanan kebohongan biasanya tidak diterima pakai oleh mahkamah, walaupun ia telah membawa kepada banyak orang yang tidak bersalah yang dipenjara. Sebaliknya, kecerdasan buatan adalah enjin data yang kuat, dan prinsip kerja adalah untuk memerhatikan semua aspek. Ini bermakna saintis boleh menggunakan kecerdasan buatan kepada aplikasi yang mencari kebenaran melalui pelbagai cara. Satu pendekatan adalah untuk menganalisis tindak balas penting orang yang diinterogasi seperti pengesan dusta, tetapi dengan analisis perbandingan yang lebih terperinci dan tepat. Pendekatan lain adalah menggunakan markup linguistik untuk menganalisis apa yang orang katakan dan menggunakan logik dan penalaran. Seperti kata pepatah, satu pembohongan membiak kebohongan yang lain, dan akhirnya

Industri aeroangkasa, perintis inovasi, memanfaatkan AI untuk menangani cabaran yang paling rumit. Kerumitan Peningkatan Penerbangan Moden memerlukan automasi dan keupayaan perisikan masa nyata AI untuk keselamatan yang dipertingkatkan, dikurangkan oper

Perkembangan pesat robotik telah membawa kita kajian kes yang menarik. Robot N2 dari Noetix beratnya lebih dari 40 paun dan tinggi 3 kaki dan dikatakan dapat backflip. Robot G1 Unitree berat kira -kira dua kali saiz N2 dan kira -kira 4 kaki tinggi. Terdapat juga banyak robot humanoid yang lebih kecil yang menyertai pertandingan ini, dan terdapat juga robot yang didorong ke hadapan oleh peminat. Tafsiran data Setengah maraton menarik lebih daripada 12,000 penonton, tetapi hanya 21 robot humanoid yang mengambil bahagian. Walaupun kerajaan menegaskan bahawa robot yang mengambil bahagian menjalankan "latihan intensif" sebelum pertandingan, tidak semua robot menyelesaikan keseluruhan persaingan. Champion - Tiangong Ult Dibangunkan oleh Pusat Inovasi Robot Humanoid Beijing

Kecerdasan buatan, dalam bentuknya sekarang, tidak benar -benar pintar; Ia mahir meniru dan menyempurnakan data sedia ada. Kami tidak mewujudkan kecerdasan buatan, tetapi sebaliknya kesimpulan buatan -merapikan yang memproses maklumat, sementara manusia su

Laporan mendapati bahawa antara muka yang dikemas kini disembunyikan dalam kod untuk Google Photos Android versi 7.26, dan setiap kali anda melihat foto, satu baris lakaran muka yang baru dikesan dipaparkan di bahagian bawah skrin. Thumbnail wajah baru adalah tag nama yang hilang, jadi saya mengesyaki anda perlu mengkliknya secara individu untuk melihat lebih banyak maklumat mengenai setiap orang yang dikesan. Buat masa ini, ciri ini tidak memberikan maklumat selain daripada orang -orang yang ditemui oleh Google Foto dalam imej anda. Ciri ini belum tersedia, jadi kami tidak tahu bagaimana Google akan menggunakannya dengan tepat. Google boleh menggunakan gambar kecil untuk mempercepatkan mencari lebih banyak gambar orang terpilih, atau boleh digunakan untuk tujuan lain, seperti memilih individu untuk mengedit. Mari tunggu dan lihat. Buat masa ini

Penguatkuasaan penguatkuasaan telah mengguncang pembangunan AI dengan mengajar model untuk menyesuaikan berdasarkan maklum balas manusia. Ia menggabungkan asas pembelajaran yang diawasi dengan kemas kini berasaskan ganjaran untuk menjadikannya lebih selamat, lebih tepat, dan benar-benar membantu

Para saintis telah mengkaji secara meluas rangkaian saraf manusia dan mudah (seperti yang ada di C. elegans) untuk memahami fungsi mereka. Walau bagaimanapun, soalan penting timbul: Bagaimana kita menyesuaikan rangkaian saraf kita sendiri untuk berfungsi dengan berkesan bersama -sama dengan novel AI s


Alat AI Hot

Undresser.AI Undress
Apl berkuasa AI untuk mencipta foto bogel yang realistik

AI Clothes Remover
Alat AI dalam talian untuk mengeluarkan pakaian daripada foto.

Undress AI Tool
Gambar buka pakaian secara percuma

Clothoff.io
Penyingkiran pakaian AI

Video Face Swap
Tukar muka dalam mana-mana video dengan mudah menggunakan alat tukar muka AI percuma kami!

Artikel Panas

Alat panas

SublimeText3 versi Mac
Perisian penyuntingan kod peringkat Tuhan (SublimeText3)

mPDF
mPDF ialah perpustakaan PHP yang boleh menjana fail PDF daripada HTML yang dikodkan UTF-8. Pengarang asal, Ian Back, menulis mPDF untuk mengeluarkan fail PDF "dengan cepat" dari tapak webnya dan mengendalikan bahasa yang berbeza. Ia lebih perlahan dan menghasilkan fail yang lebih besar apabila menggunakan fon Unicode daripada skrip asal seperti HTML2FPDF, tetapi menyokong gaya CSS dsb. dan mempunyai banyak peningkatan. Menyokong hampir semua bahasa, termasuk RTL (Arab dan Ibrani) dan CJK (Cina, Jepun dan Korea). Menyokong elemen peringkat blok bersarang (seperti P, DIV),

DVWA
Damn Vulnerable Web App (DVWA) ialah aplikasi web PHP/MySQL yang sangat terdedah. Matlamat utamanya adalah untuk menjadi bantuan bagi profesional keselamatan untuk menguji kemahiran dan alatan mereka dalam persekitaran undang-undang, untuk membantu pembangun web lebih memahami proses mengamankan aplikasi web, dan untuk membantu guru/pelajar mengajar/belajar dalam persekitaran bilik darjah Aplikasi web keselamatan. Matlamat DVWA adalah untuk mempraktikkan beberapa kelemahan web yang paling biasa melalui antara muka yang mudah dan mudah, dengan pelbagai tahap kesukaran. Sila ambil perhatian bahawa perisian ini

Penyesuai Pelayan SAP NetWeaver untuk Eclipse
Integrasikan Eclipse dengan pelayan aplikasi SAP NetWeaver.

VSCode Windows 64-bit Muat Turun
Editor IDE percuma dan berkuasa yang dilancarkan oleh Microsoft
