Peningkatan sumber terbuka komprehensif Open-Sora: menyokong penjanaan video 16s dan resolusi 720p-AI-php.cn

Rumah

Peranti teknologi

Peningkatan sumber terbuka komprehensif Open-Sora: menyokong penjanaan video 16s dan resolusi 720p

WBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWB

Apr 25, 2024 pm 02:55 PM

gitTik TokdataModelpenyuntingan video

Open-Sora telah dikemas kini secara senyap-senyap dalam komuniti sumber terbuka Ia kini menyokong penjanaan video sehingga 16 saat, dengan resolusi sehingga 720p, dan boleh mengendalikan sebarang nisbah aspek teks kepada imej, teks kepada video, imej kepada video. , Video ke video dan keperluan penjanaan video panjang tidak terhingga. Jom cuba.

Janakan pemandangan salji Krismas skrin mendatar, siarkan ke tapak B

Peningkatan sumber terbuka komprehensif Open-Sora: menyokong penjanaan video 16s dan resolusi 720p

dan kemudian buat skrin menegak, tweet

Peningkatan sumber terbuka komprehensif Open-Sora: menyokong penjanaan video 16s dan resolusi 720p

jana video berdurasi 16 saat dan juga 1 saat boleh Bagaimana untuk bermain jika anda ketagih dengan penulisan skrip? Bimbingan

GitHub: https://github.com/hpcaitech/Open-Sora

Apa yang lebih menarik ialah Open-Sora masih semua sumber terbuka, termasukseni bina model terkini, berat model terkini, dan banyak lagi Proses latihan masa/resolusi/nisbah aspek/kadar bingkai, proses lengkap pengumpulan dan prapemprosesan data, semua butiran latihan, contoh demo

dan

tutorial permulaan terperinci. . kemas kini ini terutamanya Ia termasuk ciri-ciri utama berikut: Menyokong penjanaan video yang panjang

Resolusi penjanaan video sehingga 720p

Sokongan model dan teks yang berbeza; , teks ke video, imej ke video, video ke video dan keperluan penjanaan video panjang tidak terhingga

Mencadangkan reka bentuk seni bina model yang lebih stabil, menyokong latihan nisbah pelbagai masa/resolusi/kadar bingkai;

Model penyebaran ruang-masa ST-DiT-2
Pasukan pengarang menyatakan bahawa mereka telah membuat penambahbaikan utama pada seni bina STDiT dalam Open-Sora 1.0, bertujuan untuk meningkatkan kestabilan latihan dan prestasi keseluruhan daripada model tersebut. Untuk tugas ramalan jujukan semasa, pasukan menerima pakai amalan terbaik model bahasa besar (LLM) dan menggantikan pengekodan kedudukan sinusoidal dalam perhatian temporal dengan pengekodan kedudukan putaran yang lebih cekap (pembenaman RoPE). Di samping itu, untuk meningkatkan kestabilan latihan, mereka merujuk kepada seni bina model SD3 dan seterusnya memperkenalkan teknologi normalisasi QK untuk meningkatkan kestabilan latihan separuh ketepatan. Untuk menyokong keperluan latihan berbilang resolusi, nisbah aspek yang berbeza dan kadar bingkai, seni bina ST-DiT-2 yang dicadangkan oleh pasukan pengarang secara automatik boleh menskalakan pengekodan kedudukan dan mengendalikan input dengan saiz yang berbeza.

Menurut laporan teknikal Open-Sora, Open-Sora mengamalkan kaedah latihan pelbagai peringkat, dan setiap peringkat akan meneruskan latihan berdasarkan berat peringkat sebelumnya. Berbanding dengan latihan satu peringkat, latihan berbilang peringkat ini mencapai matlamat penjanaan video berkualiti tinggi dengan lebih cekap dengan memperkenalkan data langkah demi langkah.

Pada peringkat awal, kebanyakan video menggunakan resolusi 144p, dan dicampur dengan gambar dan video 240p, 480p untuk latihan berlangsung kira-kira 1 minggu, dengan jumlah saiz langkah 81k. Pada peringkat kedua, resolusi kebanyakan data video ditingkatkan kepada 240p dan 480p, masa latihan ialah 1 hari, dan saiz langkah mencapai 22k. Peringkat ketiga dipertingkatkan lagi kepada 480p dan 720p, tempoh latihan adalah 1 hari, dan latihan 4k langkah telah selesai. Keseluruhan proses latihan berbilang peringkat telah selesai dalam masa kira-kira 9 hari Berbanding dengan Open-Sora1.0, kualiti penjanaan video telah dipertingkatkan dalam pelbagai dimensi.

Rangka kerja imej-ke-video/video-ke-video bersatu

Pasukan pengarang menyatakan bahawa berdasarkan ciri-ciri Transformer, seni bina DiT boleh diperluaskan dengan mudah untuk menyokong imej-ke-imej dan tugasan video-ke-video. Mereka mencadangkan strategi penyamaran untuk menyokong pemprosesan bersyarat imej dan video. Dengan menetapkan topeng yang berbeza, pelbagai tugas penjanaan boleh disokong, termasuk: video grafik, video gelung, sambungan video, penjanaan autoregresif video, sambungan video, penyuntingan video, sisipan bingkai, dsb.

Sokongan strategi penyamaran untuk pemprosesan bersyarat imej dan video

Pasukan pengarang menyatakan bahawa diilhamkan oleh kaedah UL2[2], mereka memperkenalkan strategi topeng rawak dalam peringkat latihan model. Khususnya, bingkai yang bertopeng dipilih dan didedahkan secara rawak semasa proses latihan, termasuk tetapi tidak terhad kepada membuka topeng bingkai pertama, bingkai k pertama, bingkai k seterusnya, sebarang bingkai k, dsb. Pengarang juga mendedahkan kepada kami bahawa berdasarkan eksperimen dengan Open-Sora 1.0, apabila menggunakan strategi penyamaran dengan kebarangkalian 50%, model boleh belajar dengan lebih baik untuk mengendalikan penyesuaian imej dengan hanya beberapa langkah. Dalam versi terkini Open-Sora, mereka menggunakan kaedah pra-latihan dari awal menggunakan strategi penyamaran.

Selain itu, pasukan pengarang juga menyediakan panduan terperinci untuk konfigurasi strategi masking untuk peringkat inferens Bentuk tuple lima nombor memberikan fleksibiliti dan kawalan yang hebat semasa menentukan strategi masking. . peleraian, nisbah bidang dan panjang boleh meningkatkan fleksibiliti pensampelan dan menambah baik pembingkaian dan komposisi. Dalam hal ini, pasukan pengarang mencadangkan strategi timba.

Peningkatan sumber terbuka komprehensif Open-Sora: menyokong penjanaan video 16s dan resolusi 720p Bagaimana untuk melaksanakannya secara khusus? Melalui pembacaan mendalam laporan teknikal yang diterbitkan oleh penulis, kami mengetahui bahawa baldi yang dipanggil ialah tiga kali ganda (resolusi, bilangan bingkai, nisbah bidang). Pasukan ini telah mentakrifkan julat nisbah bidang untuk video pada peleraian berbeza untuk merangkumi jenis nisbah aspek video yang paling biasa. Sebelum permulaan setiap zaman kitaran latihan, mereka merombak set data dan menetapkan sampel kepada baldi yang sepadan mengikut ciri mereka. Secara khusus, mereka meletakkan setiap sampel ke dalam baldi yang resolusi dan panjang bingkainya kurang daripada atau sama dengan ciri video tersebut.

Open-Sora Bucketing Strategy

Pasukan pengarang seterusnya mendedahkan bahawa untuk mengurangkan keperluan untuk sumber pengkomputeran, mereka memperkenalkan dua atribut (resolusi, bilangan bingkai) untuk setiap simpan_prob dan kumpulan Kira kos dan laksanakan latihan pelbagai peringkat. Dengan cara ini mereka boleh mengawal bilangan sampel dalam baldi yang berbeza dan mengimbangi beban GPU dengan mencari saiz kelompok yang baik untuk setiap baldi. Penulis menghuraikan perkara ini dalam laporan teknikal Rakan-rakan yang berminat boleh membaca laporan teknikal yang diterbitkan oleh penulis di GitHub untuk mendapatkan maklumat lanjut: https://github.com/hpcaitech/Open-Sora

Data collection and pre -proses pemprosesan

Peningkatan sumber terbuka komprehensif Open-Sora: menyokong penjanaan video 16s dan resolusi 720p Pasukan pengarang juga menyediakan panduan terperinci tentang pengumpulan dan pemprosesan data. Menurut penjelasan penulis dalam laporan teknikal, semasa proses pembangunan Open-Sora 1.0, mereka menyedari bahawa kuantiti dan kualiti data adalah sangat kritikal untuk memupuk model berprestasi tinggi, jadi mereka menumpukan diri mereka untuk mengembangkan dan mengoptimumkan data. ditetapkan. Mereka mewujudkan proses pemprosesan data automatik yang mengikut prinsip penguraian nilai tunggal (SVD) dan pembahagian pemandangan tertutup, pemprosesan sari kata, pemarkahan dan penapisan kepelbagaian, serta sistem pengurusan dan spesifikasi set data. Begitu juga, mereka juga berkongsi skrip berkaitan pemprosesan data kepada komuniti sumber terbuka tanpa mementingkan diri sendiri. Pembangun yang berminat kini boleh menggunakan sumber ini, digabungkan dengan laporan teknikal dan kod, untuk memproses dan mengoptimumkan set data mereka sendiri dengan cekap. Proses pemprosesan data Open-Sora adakah itu ia Ia boleh menangkap dan mengubah pemandangan dalam fikiran anda menjadi video yang bergerak melalui penerangan teks. Imej dan imaginasi yang terlintas di fikiran anda kini boleh dirakam secara kekal dan dikongsi dengan orang lain. Di sini, penulis mencuba beberapa gesaan berbeza sebagai titik permulaan.

Sebagai contoh, penulis cuba menghasilkan video melawat hutan musim sejuk. Tidak lama selepas salji turun, pokok-pokok pain ditutup dengan salji putih yang gelap dan kepingan salji putih bertaburan dalam lapisan yang jelas.

Atau, pada malam yang sunyi, anda berada di dalam hutan yang gelap seperti yang digambarkan dalam cerita dongeng yang tidak terkira banyaknya, dengan tasik dalam berkilauan di bawah bintang-bintang terang di seluruh langit.

Peningkatan sumber terbuka komprehensif Open-Sora: menyokong penjanaan video 16s dan resolusi 720p

Pemandangan malam pulau yang sibuk dari udara lebih cantik dengan cahaya kuning yang hangat dan air biru seperti reben membuatkan orang ramai tertarik dengan masa percutian yang santai.

Peningkatan sumber terbuka komprehensif Open-Sora: menyokong penjanaan video 16s dan resolusi 720p

Kesibukan lalu lintas di bandar, bangunan tinggi dan kedai jalanan dengan lampu masih menyala pada lewat malam, mempunyai rasa yang berbeza.

Peningkatan sumber terbuka komprehensif Open-Sora: menyokong penjanaan video 16s dan resolusi 720p

Selain pemandangan, Open-Sora juga boleh memulihkan pelbagai makhluk semula jadi. Sama ada ia bunga merah terang,

Peningkatan sumber terbuka komprehensif Open-Sora: menyokong penjanaan video 16s dan resolusi 720p

atau bunglon perlahan-lahan memalingkan kepalanya, Open-Sora boleh menjana video yang lebih realistik.

Peningkatan sumber terbuka komprehensif Open-Sora: menyokong penjanaan video 16s dan resolusi 720p

Pengarang juga mencuba pelbagai ujian segera dan menyediakan banyak video yang dijana untuk rujukan anda, termasuk kandungan yang berbeza, resolusi berbeza, nisbah aspek yang berbeza dan tempoh yang berbeza. . Leraian: 16*240p p

Peningkatan sumber terbuka komprehensif Open-Sora: menyokong penjanaan video 16s dan resolusi 720p

Peningkatan sumber terbuka komprehensif Open-Sora: menyokong penjanaan video 16s dan resolusi 720p Leraian: 480 *854p

Peningkatan sumber terbuka komprehensif Open-Sora: menyokong penjanaan video 16s dan resolusi 720p

Kami juga boleh memberi Open-Sora imej statik untuk menghasilkan video pendek

Peningkatan sumber terbuka komprehensif Open-Sora: menyokong penjanaan video 16s dan resolusi 720p

Peningkatan sumber terbuka komprehensif Open-Sora: menyokong penjanaan video 16s dan resolusi 720p .

Peningkatan sumber terbuka komprehensif Open-Sora: menyokong penjanaan video 16s dan resolusi 720p

Sebagai contoh lain, jika kita ingin mengedit video asal, dengan hanya arahan mudah, hutan yang asalnya terang telah membawa salji yang lebat. Peningkatan sumber terbuka komprehensif Open-Sora: menyokong penjanaan video 16s dan resolusi 720p

Peningkatan sumber terbuka komprehensif Open-Sora: menyokong penjanaan video 16s dan resolusi 720p Kita juga boleh menggunakan Open-Sora untuk menjana gambar definisi tinggi bahawa berat Model Open-Sora sudah ada benar-benar percuma Ia terbuka kepada komuniti sumber terbuka mereka, jadi anda juga boleh memuat turunnya dan mencubanya. Memandangkan mereka juga menyokong fungsi penyambungan video, ini bermakna anda berpeluang mencipta cerpen dengan cerita secara percuma untuk membawa kreativiti anda menjadi realiti.

Peningkatan sumber terbuka komprehensif Open-Sora: menyokong penjanaan video 16s dan resolusi 720p Alamat muat turun berat: https://github.com/hpcaitech/Open-Sora

Keterbatasan semasa dan rancangan masa depan

Peningkatan sumber terbuka komprehensif Open-Sora: menyokong penjanaan video 16s dan resolusi 720p Walaupun keputusan yang baik telah dicapai dalam menghasilkan semula video Sora-seperti Vincent telah menghasilkan semula telah dibuat, tetapi pasukan pengarang juga dengan rendah hati menyatakan bahawa video yang dijana pada masa ini masih perlu diperbaiki dalam banyak aspek: termasuk isu bunyi semasa proses penjanaan, kekurangan ketekalan temporal, kualiti penjanaan watak yang lemah dan skor estetik yang rendah. Mengenai cabaran ini, pasukan pengarang menyatakan bahawa mereka akan memberi keutamaan untuk menyelesaikannya dalam pembangunan versi seterusnya untuk mencapai standard penjanaan video yang lebih tinggi Rakan-rakan yang berminat mungkin ingin terus memberi perhatian. Kami menantikan kejutan seterusnya yang dibawa oleh komuniti Open-Sora kepada kami.

Peningkatan sumber terbuka komprehensif Open-Sora: menyokong penjanaan video 16s dan resolusi 720p

Alamat sumber terbuka: https://github.com/hpcaitech/Open-Sora

Peningkatan sumber terbuka komprehensif Open-Sora: menyokong penjanaan video 16s dan resolusi 720p

Atas ialah kandungan terperinci Peningkatan sumber terbuka komprehensif Open-Sora: menyokong penjanaan video 16s dan resolusi 720p. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!

Kenyataan

Artikel ini dikembalikan pada:51CTO.COM. Jika ada pelanggaran, sila hubungi admin@php.cn Padam

Artikel Berkaitan

Panduan komprehensif untuk ekstrapolasiApr 15, 2025 am 11:38 AM

Pengenalan Katakan ada petani yang setiap hari memerhatikan kemajuan tanaman dalam beberapa minggu. Dia melihat kadar pertumbuhan dan mula merenungkan betapa lebih tinggi tumbuhannya dapat tumbuh dalam beberapa minggu lagi. Dari th

Kebangkitan AI lembut dan apa maksudnya untuk perniagaan hari iniApr 15, 2025 am 11:36 AM

Soft AI-yang ditakrifkan sebagai sistem AI yang direka untuk melaksanakan tugas-tugas tertentu yang sempit menggunakan penalaran, pengiktirafan corak, dan pengambilan keputusan yang fleksibel-bertujuan untuk meniru pemikiran seperti manusia dengan merangkul kekaburan. Tetapi apa maksudnya untuk busine

Rangka kerja keselamatan yang berkembang untuk sempadan AIApr 15, 2025 am 11:34 AM

Jawapannya jelas-seperti pengkomputeran awan memerlukan peralihan ke arah alat keselamatan awan asli, AI menuntut satu penyelesaian keselamatan baru yang direka khusus untuk keperluan unik AI. Kebangkitan pengkomputeran awan dan pelajaran keselamatan dipelajari Dalam th

3 cara AI Generatif menguatkan usahawan: berhati -hati dengan purata!Apr 15, 2025 am 11:33 AM

Usahawan dan menggunakan AI dan Generatif AI untuk menjadikan perniagaan mereka lebih baik. Pada masa yang sama, adalah penting untuk mengingati AI generatif, seperti semua teknologi, adalah penguat - menjadikan yang hebat dan yang biasa -biasa saja, lebih buruk. Kajian 2024 yang ketat o

Kursus Pendek Baru mengenai Model Embedding oleh Andrew NgApr 15, 2025 am 11:32 AM

Buka kunci kekuatan model embedding: menyelam jauh ke kursus baru Andrew Ng Bayangkan masa depan di mana mesin memahami dan menjawab soalan anda dengan ketepatan yang sempurna. Ini bukan fiksyen sains; Terima kasih kepada kemajuan dalam AI, ia menjadi R

Adakah halusinasi dalam model bahasa besar (LLMS) tidak dapat dielakkan?Apr 15, 2025 am 11:31 AM

Model bahasa besar (LLM) dan masalah halusinasi yang tidak dapat dielakkan Anda mungkin menggunakan model AI seperti ChatGPT, Claude, dan Gemini. Ini semua contoh model bahasa besar (LLM), sistem AI yang kuat yang dilatih dalam dataset teks besar -besaran ke

Masalah 60% - Bagaimana carian AI mengalir trafik andaApr 15, 2025 am 11:28 AM

Penyelidikan baru-baru ini telah menunjukkan bahawa gambaran AI boleh menyebabkan penurunan 15-64% dalam trafik organik, berdasarkan jenis industri dan carian. Perubahan radikal ini menyebabkan pemasar untuk menimbang semula keseluruhan strategi mereka mengenai penglihatan digital. Yang baru

Makmal Media MIT untuk meletakkan manusia berkembang di tengah -tengah AI R & DApr 15, 2025 am 11:26 AM

Laporan baru -baru ini dari Elon University Imagining the Digital Future Centre meninjau hampir 300 pakar teknologi global. Laporan yang dihasilkan, 'Menjadi Manusia pada tahun 2035', menyimpulkan bahawa kebanyakannya bimbang bahawa penggunaan sistem AI yang mendalam lebih daripada t

See all articles

Alat AI Hot

Undresser.AI Undress

Apl berkuasa AI untuk mencipta foto bogel yang realistik

AI Clothes Remover

Alat AI dalam talian untuk mengeluarkan pakaian daripada foto.

Undress AI Tool

Gambar buka pakaian secara percuma

Clothoff.io

Penyingkiran pakaian AI

AI Hentai Generator

Menjana ai hentai secara percuma.

Tunjukkan Lagi

Artikel Panas

R.E.P.O. Kristal tenaga dijelaskan dan apa yang mereka lakukan (kristal kuning)

4 minggu yang laluBy尊渡假赌尊渡假赌尊渡假赌

R.E.P.O. Tetapan grafik terbaik

4 minggu yang laluBy尊渡假赌尊渡假赌尊渡假赌

Assassin's Creed Shadows: Penyelesaian Riddle Seashell

2 minggu yang laluByDDD

R.E.P.O. Cara Memperbaiki Audio Jika anda tidak dapat mendengar sesiapa

4 minggu yang laluBy尊渡假赌尊渡假赌尊渡假赌

R.E.P.O. Arahan sembang dan cara menggunakannya

4 minggu yang laluBy尊渡假赌尊渡假赌尊渡假赌

Tunjukkan Lagi

Alat panas

DVWA

Damn Vulnerable Web App (DVWA) ialah aplikasi web PHP/MySQL yang sangat terdedah. Matlamat utamanya adalah untuk menjadi bantuan bagi profesional keselamatan untuk menguji kemahiran dan alatan mereka dalam persekitaran undang-undang, untuk membantu pembangun web lebih memahami proses mengamankan aplikasi web, dan untuk membantu guru/pelajar mengajar/belajar dalam persekitaran bilik darjah Aplikasi web keselamatan. Matlamat DVWA adalah untuk mempraktikkan beberapa kelemahan web yang paling biasa melalui antara muka yang mudah dan mudah, dengan pelbagai tahap kesukaran. Sila ambil perhatian bahawa perisian ini

SublimeText3 versi Cina

Versi Cina, sangat mudah digunakan

MantisBT

Mantis ialah alat pengesan kecacatan berasaskan web yang mudah digunakan yang direka untuk membantu dalam pengesanan kecacatan produk. Ia memerlukan PHP, MySQL dan pelayan web. Lihat perkhidmatan demo dan pengehosan kami.

SublimeText3 versi Inggeris

Disyorkan: Versi Win, menyokong gesaan kod!

mPDF

mPDF ialah perpustakaan PHP yang boleh menjana fail PDF daripada HTML yang dikodkan UTF-8. Pengarang asal, Ian Back, menulis mPDF untuk mengeluarkan fail PDF "dengan cepat" dari tapak webnya dan mengendalikan bahasa yang berbeza. Ia lebih perlahan dan menghasilkan fail yang lebih besar apabila menggunakan fon Unicode daripada skrip asal seperti HTML2FPDF, tetapi menyokong gaya CSS dsb. dan mempunyai banyak peningkatan. Menyokong hampir semua bahasa, termasuk RTL (Arab dan Ibrani) dan CJK (Cina, Jepun dan Korea). Menyokong elemen peringkat blok bersarang (seperti P, DIV),

Tunjukkan Lagi

Topik panas

Di manakah pintu masuk log masuk untuk e-mel gmail?

7518

Tutorial CakePHP

1378

Apakah format nama akaun stim

kunci pengaktifan win11 kekal

Sambungan NYT menunjukkan dan jawapan

Tunjukkan Lagi