Rumah > Artikel > Peranti teknologi > Baru-baru ini, Google mengeluarkan model dunia asas: parameter 11B, yang boleh menjana dunia maya interaktif
Jana dunia permainan yang boleh dimainkan dengan satu klik.
Baru dua minggu sejak ia dikeluarkan, dan model dunia Google juga ada di sini, dan keupayaannya kelihatan lebih berkuasa: dunia maya yang dihasilkannya adalah "berautonomi dan boleh dikawal." Sebentar tadi, Google mentakrifkan paradigma baharu AI generatif - Persekitaran Interaktif Generatif (Genie). Genie ialah model dunia asas 11 bilion parameter yang boleh menjana persekitaran interaktif yang boleh dimainkan daripada satu gesaan imej.
Kita boleh menggesanya dengan imej yang tidak pernah dilihat sebelum ini, dan kemudian berinteraksi dengan dunia maya imaginasi kita.
Sama ada imej komposit, foto mahupun lakaran lukisan tangan, Genie boleh menjana dunia yang boleh dimainkan tanpa henti daripada mereka.
Genie terdiri daripada tiga bahagian: model tindakan terpendam untuk membuat kesimpulan tindakan yang berpotensi antara setiap pasangan bingkai; tokenizer video untuk menukar bingkai video mentah kepada token diskret dan model dinamik untuk Meramalkan bingkai video yang seterusnya tindakan yang berpotensi dan token bingkai masa lalu.
Melihat keluaran teknologi ini, ramai orang berkata: Google akan datang untuk menerajui teknologi AI sekali lagi.
Google juga mencadangkan bahawa potensi tindakan yang dipelajari oleh Genie boleh dipindahkan ke persekitaran rekaan manusia sebenar. Berdasarkan hipotesis ini, Google melatih model Genie pada video robot sebagai bukti konsep untuk aplikasi model dunia yang berpotensi dalam bidang robotik.
Industri permainan, reka bentuk, XR, robotik yang terganggu...
Kita boleh memahami kepentingan revolusioner Jin dari empat dimensi.
Pertama, Genie boleh belajar kawalan tanpa tag tindakan.
Secara khusus, Genie dilatih dengan sejumlah besar set data video Internet awam tanpa sebarang data label tindakan.
Ini akan menjadi satu cabaran kerana video Internet selalunya tidak mempunyai label tentang tindakan yang sedang dilakukan dan bahagian imej mana yang harus dikawal, tetapi Genie dapat mempelajari kawalan terperinci secara khusus daripada video Internet.
Bagi Jin, ia bukan sahaja memahami bahagian pemerhatian yang secara amnya boleh dikawal, tetapi juga menyimpulkan pelbagai tindakan berpotensi yang konsisten dalam persekitaran yang dihasilkan. Perhatikan bagaimana tindakan asas yang sama boleh menghasilkan gelagat serupa dalam imej segera yang berbeza.
Kedua, Jin boleh memupuk generasi "pencipta" seterusnya.
Mencipta persekitaran interaktif yang benar-benar baharu dengan hanya satu imej membuka pintu kepada pelbagai cara baharu untuk menjana dan memasuki dunia maya. Sebagai contoh, kita boleh menggunakan model imej penjanaan teks terkini untuk menjana bingkai permulaan, dan kemudian bekerjasama dengan Genie untuk menjana persekitaran interaktif yang dinamik.
Dalam animasi berikut, Google menggunakan Imagen2 untuk menjana imej, dan kemudian menggunakan Genie untuk mengubahnya menjadi realiti:
Genie boleh melakukan lebih daripada itu, ia juga boleh digunakan pada bidang kreatif berkaitan reka bentuk manusia seperti melakar .
Atau, digunakan pada imej dunia sebenar:
Sekali lagi, Google percaya bahawa Genie adalah asas untuk merealisasikan kecerdasan sejagat. Penyelidikan terdahulu telah menunjukkan bahawa persekitaran permainan boleh menjadi tempat ujian yang berkesan untuk membangunkan ejen AI, tetapi selalunya dihadkan oleh bilangan permainan yang tersedia.
Kini dengan Genie, ejen AI masa depan boleh dilatih dalam kurikulum yang tidak berkesudahan di dunia yang baru dihasilkan. Google membentangkan bukti konsep bahawa potensi tindakan yang dipelajari oleh Genie boleh dipindahkan ke persekitaran rekaan manusia sebenar.
Akhirnya, Google menyatakan bahawa Genie adalah kaedah umum yang boleh digunakan untuk pelbagai bidang tanpa memerlukan pengetahuan domain tambahan.
Walaupun data yang digunakan adalah lebih banyak permainan permainan Platformer 2D dan video robot, kaedah ini adalah umum dan boleh digunakan untuk sebarang jenis domain dan boleh diperluaskan kepada set data Internet yang lebih besar.
Google melatih model 2.5B yang lebih kecil pada video bebas gerakan RT1. Seperti halnya dengan Platformers, trajektori dengan urutan tindakan asas yang sama selalunya akan mempamerkan tingkah laku yang serupa.
Ini menunjukkan bahawa Genie boleh mempelajari ruang tindakan yang konsisten, yang mungkin sesuai untuk melatih robot untuk mencipta kecerdasan yang terkandung secara umum.
Teknologi Didedahkan: Kertas kerja "Genie: Generative Interactive Environments" telah dikeluarkan
Google DeepMind telah mengeluarkan kertas Genie.
Alamat kertas: https://arxiv.org/pdf/2402.15391.pdf
Laman utama projek: https://sites.google.com/view/genie-2024/home? 1
Terdapat seramai 6 pengarang bersama kertas kerja ini, termasuk sarjana Cina Yuge (Jimmy) Shi. Beliau kini seorang saintis penyelidikan di Google DeepMind dan menerima PhD dalam pembelajaran mesin dari Universiti Oxford pada tahun 2023.
Pengenalan Kaedah
Pelbagai komponen dalam seni bina Jin dibina berdasarkan Vision Transformer (ViT). Perlu diingat bahawa disebabkan kos memori sekunder Transformer, yang membawa cabaran kepada medan video, video boleh mengandungi sehingga ?(10^4) token. Oleh itu, Google menggunakan seni bina ST-transformer yang cekap memori (lihat Rajah 4) dalam semua komponen model untuk mengimbangi kapasiti model dan kekangan pengiraan.
Jin mengandungi tiga komponen utama (seperti yang ditunjukkan dalam rajah di bawah):
1) Model Tindakan Terpendam (LAM), digunakan untuk menaakul tentang tindakan yang berpotensi antara setiap pasangan bingkai
2) Tokenizer video (Tokenizer ), digunakan untuk menukar bingkai video asal kepada token diskret?;
3) Model dinamik, memandangkan potensi tindakan dan token bingkai masa lalu, digunakan untuk meramalkan bingkai video seterusnya.
Khususnya:
Model tindakan terpendam: Untuk mencapai penjanaan video yang boleh dikawal, Google menggunakan tindakan yang diambil dalam bingkai sebelumnya sebagai syarat untuk ramalan bingkai masa hadapan. Walau bagaimanapun, label tindakan sedemikian jarang tersedia dalam video di Internet dan kos untuk mendapatkan anotasi tindakan boleh menjadi tinggi. Sebaliknya, Google mempelajari tindakan yang berpotensi dalam cara yang tidak diselia sepenuhnya (lihat Rajah 5).
Tokenizer video: Berdasarkan penyelidikan terdahulu, Google memampatkan video kepada token diskret untuk mengurangkan dimensi dan mencapai penjanaan video berkualiti tinggi (lihat Rajah 6). Untuk pelaksanaan, Google menggunakan VQ-VAE, yang mengambil ? bingkai video sebagai input dan menjana perwakilan diskret untuk setiap bingkai: , di manakah saiz ruang terpendam diskret. Tokenizer dilatih pada keseluruhan jujukan video menggunakan VQ-VQAE standard.
Model dinamik: ialah pengubah MaskGIT penyahkod sahaja (Rajah 7).
Proses inferens jin adalah seperti berikut
Hasil eksperimen
Hasil pelanjutan
yang dijalankan untuk model, julat dari parameter model 7. B hingga 41M Untuk meneroka kesan saiz model dan saiz kelompok, keputusan eksperimen ditunjukkan dalam Rajah 9 di bawah.
Boleh diperhatikan apabila saiz model bertambah, kehilangan latihan akhir akan berkurangan. Ini adalah petunjuk kukuh bahawa pendekatan Genie mendapat manfaat daripada penskalaan. Pada masa yang sama, meningkatkan saiz kelompok juga akan membawa keuntungan kepada prestasi model.
Hasil kualitatif
Google mempersembahkan hasil percubaan kualitatif untuk model parametrik Genie 11B yang dilatih pada set data Platformers dan model yang lebih kecil yang dilatih pada set data Robotik. Keputusan menunjukkan bahawa model Genie boleh menjana video berkualiti tinggi dan boleh dikawal merentas domain yang berbeza. Terutama, Google hanya menggunakan gesaan imej luar pengedaran (OOD) untuk menilai secara kualitatif model latihan platformnya, menunjukkan keteguhan pendekatan Genie dan nilai latihan data berskala besar.
Latihan ejen. Mungkin suatu hari nanti, Genie boleh digunakan sebagai model dunia asas untuk melatih ejen pelbagai tugas. Dalam Rajah 14, penulis menunjukkan bahawa model itu sudah boleh digunakan untuk menjana trajektori yang berbeza dalam persekitaran RL novel diberikan bingkai permulaan.
Pengarang menjalankan penilaian dalam CoinRun, persekitaran permainan platform 2D yang dijana mengikut prosedur, dan bandingkan dengan model klon tingkah laku oracle (BC) dengan akses kepada operasi pakar sebagai had atas.
Penyelidikan ablasi. Pemilihan Semasa mereka bentuk model tindakan terpendam, penulis mempertimbangkan dengan teliti jenis input yang akan digunakan. Walaupun pilihan terakhir adalah menggunakan imej mentah (piksel), penulis menilai pilihan ini berbanding alternatif menggunakan imej token (menggantikan x dengan z dalam Rajah 5) semasa mereka bentuk Genie. Alternatif ini dipanggil model "input token" (lihat Jadual 2).
Ablasi seni bina tokenizer. Penulis membandingkan prestasi tiga pilihan tokenizer, termasuk 1) (ruang sahaja) ViT, 2) (spatial dan temporal) ST-ViViT, dan 3) (spatial dan temporal) CViViT (Jadual 3).
Atas ialah kandungan terperinci Baru-baru ini, Google mengeluarkan model dunia asas: parameter 11B, yang boleh menjana dunia maya interaktif. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!