Rumah > Artikel > Peranti teknologi > Peningkatan sumber terbuka komprehensif Open-Sora: menyokong penjanaan video 16s dan resolusi 720p
Open-Sora telah dikemas kini secara senyap-senyap dalam komuniti sumber terbuka Ia kini menyokong penjanaan video sehingga 16 saat, dengan resolusi sehingga 720p, dan boleh mengendalikan sebarang nisbah aspek teks kepada imej, teks kepada video, imej kepada video. , Video ke video dan keperluan penjanaan video panjang tidak terhingga. Jom cuba.
Janakan pemandangan salji Krismas skrin mendatar, siarkan ke tapak B
dan kemudian buat skrin menegak, tweet
jana video berdurasi 16 saat dan juga 1 saat boleh Bagaimana untuk bermain jika anda ketagih dengan penulisan skrip? Bimbingan
GitHub: https://github.com/hpcaitech/Open-Sora
Apa yang lebih menarik ialah Open-Sora masih semua sumber terbuka, termasukseni bina model terkini, berat model terkini, dan banyak lagi Proses latihan masa/resolusi/nisbah aspek/kadar bingkai, proses lengkap pengumpulan dan prapemprosesan data, semua butiran latihan, contoh demo
dantutorial permulaan terperinci. . kemas kini ini terutamanya Ia termasuk ciri-ciri utama berikut: Menyokong penjanaan video yang panjang
Sokongan model dan teks yang berbeza; , teks ke video, imej ke video, video ke video dan keperluan penjanaan video panjang tidak terhingga
Mencadangkan reka bentuk seni bina model yang lebih stabil, menyokong latihan nisbah pelbagai masa/resolusi/kadar bingkai;
Pada peringkat awal, kebanyakan video menggunakan resolusi 144p, dan dicampur dengan gambar dan video 240p, 480p untuk latihan berlangsung kira-kira 1 minggu, dengan jumlah saiz langkah 81k. Pada peringkat kedua, resolusi kebanyakan data video ditingkatkan kepada 240p dan 480p, masa latihan ialah 1 hari, dan saiz langkah mencapai 22k. Peringkat ketiga dipertingkatkan lagi kepada 480p dan 720p, tempoh latihan adalah 1 hari, dan latihan 4k langkah telah selesai. Keseluruhan proses latihan berbilang peringkat telah selesai dalam masa kira-kira 9 hari Berbanding dengan Open-Sora1.0, kualiti penjanaan video telah dipertingkatkan dalam pelbagai dimensi.
Rangka kerja imej-ke-video/video-ke-video bersatu
Pasukan pengarang menyatakan bahawa berdasarkan ciri-ciri Transformer, seni bina DiT boleh diperluaskan dengan mudah untuk menyokong imej-ke-imej dan tugasan video-ke-video. Mereka mencadangkan strategi penyamaran untuk menyokong pemprosesan bersyarat imej dan video. Dengan menetapkan topeng yang berbeza, pelbagai tugas penjanaan boleh disokong, termasuk: video grafik, video gelung, sambungan video, penjanaan autoregresif video, sambungan video, penyuntingan video, sisipan bingkai, dsb.
Sokongan strategi penyamaran untuk pemprosesan bersyarat imej dan video
Pasukan pengarang menyatakan bahawa diilhamkan oleh kaedah UL2[2], mereka memperkenalkan strategi topeng rawak dalam peringkat latihan model. Khususnya, bingkai yang bertopeng dipilih dan didedahkan secara rawak semasa proses latihan, termasuk tetapi tidak terhad kepada membuka topeng bingkai pertama, bingkai k pertama, bingkai k seterusnya, sebarang bingkai k, dsb. Pengarang juga mendedahkan kepada kami bahawa berdasarkan eksperimen dengan Open-Sora 1.0, apabila menggunakan strategi penyamaran dengan kebarangkalian 50%, model boleh belajar dengan lebih baik untuk mengendalikan penyesuaian imej dengan hanya beberapa langkah. Dalam versi terkini Open-Sora, mereka menggunakan kaedah pra-latihan dari awal menggunakan strategi penyamaran.
Selain itu, pasukan pengarang juga menyediakan panduan terperinci untuk konfigurasi strategi masking untuk peringkat inferens Bentuk tuple lima nombor memberikan fleksibiliti dan kawalan yang hebat semasa menentukan strategi masking. . peleraian, nisbah bidang dan panjang boleh meningkatkan fleksibiliti pensampelan dan menambah baik pembingkaian dan komposisi. Dalam hal ini, pasukan pengarang mencadangkan strategi timba.
Bagaimana untuk melaksanakannya secara khusus? Melalui pembacaan mendalam laporan teknikal yang diterbitkan oleh penulis, kami mengetahui bahawa baldi yang dipanggil ialah tiga kali ganda (resolusi, bilangan bingkai, nisbah bidang). Pasukan ini telah mentakrifkan julat nisbah bidang untuk video pada peleraian berbeza untuk merangkumi jenis nisbah aspek video yang paling biasa. Sebelum permulaan setiap zaman kitaran latihan, mereka merombak set data dan menetapkan sampel kepada baldi yang sepadan mengikut ciri mereka. Secara khusus, mereka meletakkan setiap sampel ke dalam baldi yang resolusi dan panjang bingkainya kurang daripada atau sama dengan ciri video tersebut.
Open-Sora Bucketing Strategy
Pasukan pengarang seterusnya mendedahkan bahawa untuk mengurangkan keperluan untuk sumber pengkomputeran, mereka memperkenalkan dua atribut (resolusi, bilangan bingkai) untuk setiap simpan_prob dan kumpulan Kira kos dan laksanakan latihan pelbagai peringkat. Dengan cara ini mereka boleh mengawal bilangan sampel dalam baldi yang berbeza dan mengimbangi beban GPU dengan mencari saiz kelompok yang baik untuk setiap baldi. Penulis menghuraikan perkara ini dalam laporan teknikal Rakan-rakan yang berminat boleh membaca laporan teknikal yang diterbitkan oleh penulis di GitHub untuk mendapatkan maklumat lanjut: https://github.com/hpcaitech/Open-Sora
Data collection and pre -proses pemprosesan
Pasukan pengarang juga menyediakan panduan terperinci tentang pengumpulan dan pemprosesan data. Menurut penjelasan penulis dalam laporan teknikal, semasa proses pembangunan Open-Sora 1.0, mereka menyedari bahawa kuantiti dan kualiti data adalah sangat kritikal untuk memupuk model berprestasi tinggi, jadi mereka menumpukan diri mereka untuk mengembangkan dan mengoptimumkan data. ditetapkan. Mereka mewujudkan proses pemprosesan data automatik yang mengikut prinsip penguraian nilai tunggal (SVD) dan pembahagian pemandangan tertutup, pemprosesan sari kata, pemarkahan dan penapisan kepelbagaian, serta sistem pengurusan dan spesifikasi set data. Begitu juga, mereka juga berkongsi skrip berkaitan pemprosesan data kepada komuniti sumber terbuka tanpa mementingkan diri sendiri. Pembangun yang berminat kini boleh menggunakan sumber ini, digabungkan dengan laporan teknikal dan kod, untuk memproses dan mengoptimumkan set data mereka sendiri dengan cekap. Proses pemprosesan data Open-Sora adakah itu ia Ia boleh menangkap dan mengubah pemandangan dalam fikiran anda menjadi video yang bergerak melalui penerangan teks. Imej dan imaginasi yang terlintas di fikiran anda kini boleh dirakam secara kekal dan dikongsi dengan orang lain. Di sini, penulis mencuba beberapa gesaan berbeza sebagai titik permulaan.
Sebagai contoh, penulis cuba menghasilkan video melawat hutan musim sejuk. Tidak lama selepas salji turun, pokok-pokok pain ditutup dengan salji putih yang gelap dan kepingan salji putih bertaburan dalam lapisan yang jelas.
Atau, pada malam yang sunyi, anda berada di dalam hutan yang gelap seperti yang digambarkan dalam cerita dongeng yang tidak terkira banyaknya, dengan tasik dalam berkilauan di bawah bintang-bintang terang di seluruh langit.
Pemandangan malam pulau yang sibuk dari udara lebih cantik dengan cahaya kuning yang hangat dan air biru seperti reben membuatkan orang ramai tertarik dengan masa percutian yang santai.
Kesibukan lalu lintas di bandar, bangunan tinggi dan kedai jalanan dengan lampu masih menyala pada lewat malam, mempunyai rasa yang berbeza.
Selain pemandangan, Open-Sora juga boleh memulihkan pelbagai makhluk semula jadi. Sama ada ia bunga merah terang,
atau bunglon perlahan-lahan memalingkan kepalanya, Open-Sora boleh menjana video yang lebih realistik.
Pengarang juga mencuba pelbagai ujian segera dan menyediakan banyak video yang dijana untuk rujukan anda, termasuk kandungan yang berbeza, resolusi berbeza, nisbah aspek yang berbeza dan tempoh yang berbeza. . Leraian: 16*240p p
Leraian: 480 *854p
Kami juga boleh memberi Open-Sora imej statik untuk menghasilkan video pendek
.
Sebagai contoh lain, jika kita ingin mengedit video asal, dengan hanya arahan mudah, hutan yang asalnya terang telah membawa salji yang lebat.
Kita juga boleh menggunakan Open-Sora untuk menjana gambar definisi tinggi bahawa berat Model Open-Sora sudah ada benar-benar percuma Ia terbuka kepada komuniti sumber terbuka mereka, jadi anda juga boleh memuat turunnya dan mencubanya. Memandangkan mereka juga menyokong fungsi penyambungan video, ini bermakna anda berpeluang mencipta cerpen dengan cerita secara percuma untuk membawa kreativiti anda menjadi realiti.
Alamat muat turun berat: https://github.com/hpcaitech/Open-Sora
Keterbatasan semasa dan rancangan masa depan
Walaupun keputusan yang baik telah dicapai dalam menghasilkan semula video Sora-seperti Vincent telah menghasilkan semula telah dibuat, tetapi pasukan pengarang juga dengan rendah hati menyatakan bahawa video yang dijana pada masa ini masih perlu diperbaiki dalam banyak aspek: termasuk isu bunyi semasa proses penjanaan, kekurangan ketekalan temporal, kualiti penjanaan watak yang lemah dan skor estetik yang rendah. Mengenai cabaran ini, pasukan pengarang menyatakan bahawa mereka akan memberi keutamaan untuk menyelesaikannya dalam pembangunan versi seterusnya untuk mencapai standard penjanaan video yang lebih tinggi Rakan-rakan yang berminat mungkin ingin terus memberi perhatian. Kami menantikan kejutan seterusnya yang dibawa oleh komuniti Open-Sora kepada kami.
Alamat sumber terbuka: https://github.com/hpcaitech/Open-SoraAtas ialah kandungan terperinci Peningkatan sumber terbuka komprehensif Open-Sora: menyokong penjanaan video 16s dan resolusi 720p. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!