Rumah >Peranti teknologi >AI >Model dunia juga tersebar! Ejen terlatih ternyata cukup bagus

Model dunia juga tersebar! Ejen terlatih ternyata cukup bagus

PHPz
PHPzasal
2024-06-13 10:12:24402semak imbas

Model dunia menyediakan cara untuk melatih agen pembelajaran pengukuhan dengan cara yang selamat dan cekap sampel. Baru-baru ini, model dunia kebanyakannya beroperasi pada jujukan pembolehubah pendam diskret untuk mensimulasikan dinamik persekitaran.

Walau bagaimanapun, kaedah pemampatan ini menjadi representasi diskret padat mungkin mengabaikan butiran visual yang penting untuk pembelajaran pengukuhan. Sebaliknya, model resapan telah menjadi kaedah dominan untuk penjanaan imej, menimbulkan cabaran kepada model terpendam diskret.

Dipromosikan oleh anjakan paradigma ini, penyelidik dari University of Geneva, University of Edinburgh, dan Microsoft Research bersama-sama mencadangkan agen pembelajaran pengukuhan yang dilatih dalam model dunia resapan - DIAMOND (DIffusion As a Model Of eNvironment Dreams ).

Model dunia juga tersebar! Ejen terlatih ternyata cukup bagus


  • Alamat kertas: https://arxiv.org/abs/2405.12399
  • /projek
  • alamat berlian
  • Tajuk kertas: Penyebaran untuk Pemodelan Dunia: Butiran Visual Penting dalam Atari

Pada penanda aras Atari 100k, DIAMOND+ mencapai Markah Purata 1H4NS6 Manusia. Ini bermakna ejen yang terlatih dalam model dunia boleh dilatih sepenuhnya di peringkat SOTA ejen terlatih dalam model dunia. Kajian ini menyediakan analisis kestabilan untuk menggambarkan bahawa pilihan reka bentuk DIAMOND adalah perlu untuk memastikan kestabilan jangka panjang yang cekap bagi model dunia penyebaran.

Selain manfaat beroperasi dalam ruang imej, ia membolehkan model dunia meresap menjadi perwakilan langsung persekitaran, sekali gus memberikan pemahaman yang lebih mendalam tentang model dunia dan tingkah laku ejen. Khususnya, kajian mendapati bahawa peningkatan prestasi dalam permainan tertentu terhasil daripada pemodelan butiran visual utama yang lebih baik.

Pengenalan Kaedah

Seterusnya, artikel ini memperkenalkan DIAMOND, agen pembelajaran pengukuhan yang terlatih dalam model dunia penyebaran. Secara khusus, kami mendasarkan ini pada pekali hanyutan dan resapan f dan g yang diperkenalkan dalam Bahagian 2.2, yang sepadan dengan pilihan paradigma resapan tertentu. Tambahan pula, kajian ini juga memilih formulasi EDM berdasarkan Karras et al.

Mula-mula tentukan kernel gangguan, Model dunia juga tersebar! Ejen terlatih ternyata cukup bagus, dengan Model dunia juga tersebar! Ejen terlatih ternyata cukup bagus ialah fungsi bernilai sebenar yang berkaitan dengan masa resapan, dipanggil jadual hingar. Ini sepadan dengan menetapkan pekali drift dan resapan kepada Model dunia juga tersebar! Ejen terlatih ternyata cukup bagus dan Model dunia juga tersebar! Ejen terlatih ternyata cukup bagus. . (6)

Model dunia juga tersebar! Ejen terlatih ternyata cukup bagusModel dunia juga tersebar! Ejen terlatih ternyata cukup bagus di mana demi definisi yang ringkas,

merangkumi semua pembolehubah keadaan.

Model dunia juga tersebar! Ejen terlatih ternyata cukup bagus

Pemilihan prapemproses. Prapemproses Model dunia juga tersebar! Ejen terlatih ternyata cukup bagus dan Model dunia juga tersebar! Ejen terlatih ternyata cukup bagus dipilih untuk mengekalkan varians unit input dan output rangkaian pada sebarang tahap hingar Model dunia juga tersebar! Ejen terlatih ternyata cukup bagus. Model dunia juga tersebar! Ejen terlatih ternyata cukup bagus ialah penukaran empirikal tahap hingar, Model dunia juga tersebar! Ejen terlatih ternyata cukup bagus diberikan oleh Model dunia juga tersebar! Ejen terlatih ternyata cukup bagus dan sisihan piawai bagi taburan data Model dunia juga tersebar! Ejen terlatih ternyata cukup bagus, dan formulanya ialah Model dunia juga tersebar! Ejen terlatih ternyata cukup bagus

Menggabungkan formula 5 dan 6, kita mendapat Model dunia juga tersebar! Ejen terlatih ternyata cukup bagus sasaran latihan:

Model dunia juga tersebar! Ejen terlatih ternyata cukup bagus

Kajian ini Mengkondisikan model dengan menggunakan U-Net 2D standard untuk membina medan vektor dan mengekalkan penimbal yang mengandungi pemerhatian dan tindakan L yang lalu. Seterusnya mereka menggabungkan pemerhatian lepas ini dari segi saluran dengan pemerhatian bising seterusnya, dan memasukkan tindakan ke dalam blok sisa U-Net melalui lapisan normalisasi kumpulan penyesuaian. Seperti yang dibincangkan dalam Bahagian 2.3 dan Lampiran A, terdapat banyak kaedah persampelan yang mungkin untuk menjana pemerhatian seterusnya daripada model resapan terlatih. Walaupun asas kod yang dikeluarkan oleh kajian menyokong skema persampelan berbilang, kajian mendapati bahawa kaedah Euler berkesan tanpa memerlukan NFE tambahan (bilangan penilaian fungsi) dan mengelakkan kerumitan yang tidak perlu bagi pensampel peringkat tinggi atau persampelan rawak. Model dunia juga tersebar! Ejen terlatih ternyata cukup bagus

Eksperimen

Untuk menilai sepenuhnya DIAMOND, kajian itu menggunakan penanda aras Atari 100k yang mantap, yang merangkumi 26 permainan untuk menguji keupayaan luas ejen. Untuk setiap permainan, ejen hanya dibenarkan 100k tindakan dalam persekitaran, yang kira-kira bersamaan dengan 2 jam masa permainan manusia, untuk belajar bermain permainan sebelum dinilai. Sebagai rujukan, ejen Atari tanpa kekangan biasanya dilatih untuk 50 juta langkah, yang sepadan dengan peningkatan 500 kali ganda dalam pengalaman. Para penyelidik melatih DIAMOND dari awal pada setiap permainan menggunakan 5 biji rawak. Setiap larian menggunakan lebih kurang 12GB VRAM dan mengambil masa kira-kira 2.9 hari pada satu Nvidia RTX 4090 (jumlah tahun 1.03 GPU).

Jadual 1 membandingkan markah yang berbeza untuk melatih ejen dalam model dunia:

Model dunia juga tersebar! Ejen terlatih ternyata cukup bagus

Min dan IQM (Min Interkuartil) selang keyakinan :

: Model dunia juga tersebar! Ejen terlatih ternyata cukup bagus Keputusan menunjukkan bahawa DIAMOND berprestasi kukuh pada penanda aras, mengatasi pemain manusia dalam 11 perlawanan dan mencapai skor HNS 1.46, rekod baharu untuk ejen yang dilatih sepenuhnya pada model dunia. Kajian itu juga mendapati bahawa DIAMOND berprestasi baik terutamanya dalam persekitaran yang merakam perincian diperlukan, seperti Asterix, Breakout dan Road Runner.

Untuk mengkaji kestabilan pembolehubah resapan, kajian ini menganalisis trajektori yang dibayangkan yang dijana oleh autoregresi, seperti yang ditunjukkan dalam Rajah 3 di bawah:

Kajian mendapati terdapat situasi di mana penyelesai berulang diperlukan untuk memacu proses pensampelan ke mod tertentu, seperti permainan tinju yang ditunjukkan dalam Rajah 4:

Model dunia juga tersebar! Ejen terlatih ternyata cukup bagus

yang ditunjukkan dalam Rajah 5 berbanding dengan Rajah 5. dibayangkan oleh IRIS , trajektori yang dibayangkan oleh DIAMOND umumnya mempunyai kualiti visual yang lebih tinggi dan lebih konsisten dengan persekitaran sebenar.

Model dunia juga tersebar! Ejen terlatih ternyata cukup bagus

Pembaca yang berminat boleh membaca teks asal kertas kerja untuk mengetahui lebih lanjut tentang kandungan penyelidikan.

Atas ialah kandungan terperinci Model dunia juga tersebar! Ejen terlatih ternyata cukup bagus. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!

Kenyataan:
Kandungan artikel ini disumbangkan secara sukarela oleh netizen, dan hak cipta adalah milik pengarang asal. Laman web ini tidak memikul tanggungjawab undang-undang yang sepadan. Jika anda menemui sebarang kandungan yang disyaki plagiarisme atau pelanggaran, sila hubungi admin@php.cn