Rumah  >  Artikel  >  Peranti teknologi  >  Sora domestik yang paling berkuasa pada masa ini! Pasukan Tsinghua menerobos video berdurasi 16 saat, memahami bahasa berbilang kanta dan boleh mensimulasikan undang-undang fizikal

Sora domestik yang paling berkuasa pada masa ini! Pasukan Tsinghua menerobos video berdurasi 16 saat, memahami bahasa berbilang kanta dan boleh mensimulasikan undang-undang fizikal

王林
王林ke hadapan
2024-04-28 13:04:011010semak imbas

Anda berkata kotak itu harus diisi dengan berlian, jadi kotak itu dipenuhi dengan berlian, yang lebih mempesonakan daripada pukulan sebenar. Krew mana yang tidak suka kemahiran sedemikian?

Sora domestik yang paling berkuasa pada masa ini! Pasukan Tsinghua menerobos video berdurasi 16 saat, memahami bahasa berbilang kanta dan boleh mensimulasikan undang-undang fizikal

Inilah "ajaib" yang dipersembahkan oleh perisian penyuntingan video Adobe Premiere Pro suatu ketika dahulu. Perisian ini memperkenalkan alat video AI seperti Sora, Runway, dan Pika untuk mencapai keupayaan untuk menambah objek, mengalih keluar objek dan menjana klip video dalam video Ini dianggap sebagai satu lagi inovasi teknologi dalam bidang video.

Dari Februari apabila Sora menyapu dunia kepada keajaiban Adobe sekali lagi, di luar negara sedang giat dijalankan. Sebaliknya, China masih dalam keadaan "menunggu" dalam bidang video, terutamanya ke arah penjanaan video yang panjang. Sejak dua bulan lalu, kami telah mendengar beberapa dakwaan mengejar Sora, tetapi masih belum melihat kemajuan domestik yang ketara. Tetapi video pendek yang baru dikeluarkan oleh Shengshu Technology hari ini memberi kami banyak kejutan. Sora domestik yang paling berkuasa pada masa ini! Pasukan Tsinghua menerobos video berdurasi 16 saat, memahami bahasa berbilang kanta dan boleh mensimulasikan undang-undang fizikal

Ini adalah video rasmi Model video "Vidu" terbaharu dikeluarkan oleh Teknologi Shengshu dan Universiti Tsinghua. Dapat dilihat bahawa video yang dihasilkannya bukan lagi "GIF" yang berdurasi beberapa saat, tetapi mencecah lebih daripada sepuluh saat (paling lama boleh mencapai kira-kira 16 saat). Sudah tentu, apa yang lebih mengejutkan ialah kesan gambar "Vidu" sangat dekat dengan Sora Ia berfungsi dengan sangat baik dalam bahasa berbilang kanta, konsistensi masa dan ruang, dan mengikut undang-undang fizikal, dan ia juga boleh . membuat realiti bahawa dunia sebenar tidak wujud , yang sukar dicapai dengan model penjanaan video semasa. Hanya dalam masa dua bulan, Teknologi Shengshu telah dapat mencapai keputusan sedemikian, yang benar-benar mengejutkan.

Model video pertama di China yang menanda aras sepenuhnya terhadap Sora

Sejak pengeluaran Sora, pertempuran untuk "Sora domestik" telah bermula. Tetapi apabila industri memberi tumpuan kepada ciri "panjang", mereka semua mengabaikan bahawa di sebalik Sora sebenarnya adalah peningkatan kesan menyeluruh, seperti konsistensi, realisme, kecantikan, dll. dalam urutan yang panjang.

Dari sudut pandangan kesan menyeluruh, "Vidu" ialah model video pertama dan satu-satunya yang menanda aras sepenuhnya terhadap Sora pada tahap kesan, bukan sahaja di dalam negara, tetapi juga di seluruh dunia, dan ia juga merupakan model video pertama yang mencapai satu kejayaan selepas Sora. Daripada kesan khusus, kita dapat melihat dengan jelas beberapa kelebihan yang jelas:

Suntikan "bahasa kanta" ke dalam video

Terdapat konsep yang sangat penting dalam penghasilan video - bahasa kanta. Ia adalah cara utama untuk meluahkan jalan cerita, mendedahkan psikologi watak, mewujudkan suasana dan membimbing emosi penonton melalui gambar. Pilihan pukulan, sudut, pergerakan dan kombinasi yang berbeza akan sangat mempengaruhi naratif dan pengalaman penonton.

Video yang dijana AI sedia ada dapat merasakan kebosanan bahasa kanta dengan jelas, dan pergerakan kanta terhad kepada tangkapan mudah seperti tolak, tarik dan anjakan sedikit. Sebab utama di sebalik ini ialah kebanyakan penjanaan kandungan video sedia ada mula-mula menjana satu bingkai dan kemudian membuat ramalan berterusan bagi bingkai sebelumnya dan seterusnya Namun, dengan laluan teknikal arus perdana, adalah sukar untuk mencapai ramalan dinamik kecil .

Sora domestik yang paling berkuasa pada masa ini! Pasukan Tsinghua menerobos video berdurasi 16 saat, memahami bahasa berbilang kanta dan boleh mensimulasikan undang-undang fizikal

                                                                                                                                                                                                                        Treler untuk filem fiksyen sains "Trailer: Genesis" ("Genesis" tahun lepas yang dijana oleh Runway in July tahun lepas

"Vidu" menerobos batasan ini. Dalam klip dengan tema "Rumah Tepi Laut", kita dapat melihat bahawa klip yang dijana oleh "Vidu" pada satu masa melibatkan berbilang tangkapan pandangan keseluruhan Terdapat rasa naratif dari dalam rumah ke koridor untuk menikmati pemandangan di tepi susur. Dapat dilihat bahawa "Vidu" boleh bertukar antara tangkapan yang berbeza seperti tangkapan jauh, tangkapan dekat, tangkapan sederhana dan dekat di sekeliling subjek bersatu dalam bingkai. Sora domestik yang paling berkuasa pada masa ini! Pasukan Tsinghua menerobos video berdurasi 16 saat, memahami bahasa berbilang kanta dan boleh mensimulasikan undang-undang fizikal

Petua: Di kotej tepi laut yang unik, matahari memandikan bilik, kamera perlahan-lahan beralih ke balkoni yang menghadap ke laut yang tenang, dan akhirnya kamera membeku di laut terapung, perahu layar dan awan pemantul. (Klip video penuh dikeluarkan oleh laman web rasmi produk PixWeaver Shengshu)

Selain itu, seperti yang dapat dilihat daripada berbilang klip dalam filem pendek, "Vidu" boleh terus menjana kesan seperti peralihan, penjejakan fokus dan tangkapan panjang, termasuk keupayaan untuk menjana rakaman filem dan peringkat televisyen, menyuntik bahasa lensa ke dalam video, dan mempertingkatkan gambaran keseluruhan.

Sora domestik yang paling berkuasa pada masa ini! Pasukan Tsinghua menerobos video berdurasi 16 saat, memahami bahasa berbilang kanta dan boleh mensimulasikan undang-undang fizikal

Sora domestik yang paling berkuasa pada masa ini! Pasukan Tsinghua menerobos video berdurasi 16 saat, memahami bahasa berbilang kanta dan boleh mensimulasikan undang-undang fizikal

Sora domestik yang paling berkuasa pada masa ini! Pasukan Tsinghua menerobos video berdurasi 16 saat, memahami bahasa berbilang kanta dan boleh mensimulasikan undang-undang fizikal

Mengekalkan konsistensi masa dan ruang

Keselarasan dan kelancaran gambar video adalah sangat penting. Di sebalik ini adalah ketekalan watak dan ketekalan sebagai watak dalam ruang Pergerakan sentiasa konsisten dan adegan tidak boleh berubah secara tiba-tiba tanpa sebarang peralihan. Ini adalah sukar untuk dicapai oleh AI, terutamanya jika ia bertahan lama.

"Vidu" mengatasi masalah ini pada tahap tertentu. Daripada video "Cat with a Pearl Earring" yang dihasilkan olehnya, kita dapat melihat bahawa semasa kamera bergerak, kucing sebagai subjek gambar sentiasa mengekalkan ekspresi dan pakaian yang sama dalam ruang 3D, dan video secara keseluruhan. sangat koheren dan lancar, mengekalkan konsistensi masa dan ruang yang baik. Sora domestik yang paling berkuasa pada masa ini! Pasukan Tsinghua menerobos video berdurasi 16 saat, memahami bahasa berbilang kanta dan boleh mensimulasikan undang-undang fizikal

Tips: Ini adalah potret kucing oren dengan mata biru, berputar perlahan, diilhamkan oleh Vermeer "Girl with a Pearl Earring", gambar itu memakai anting-anting mutiara dan rambut coklat seperti Holland Cap sama, latar belakang hitam, lampu studio. (Klip video penuh dikeluarkan oleh laman web rasmi produk PixWeaver di bawah Shengshu)

Mensimulasikan dunia fizikal sebenar

Salah satu ciri hebat Sora ialah ia boleh mensimulasikan pergerakan dunia fizikal sebenar, seperti pergerakan dan interaksi objek . Salah satu kes klasik yang dikeluarkan oleh Sora - gambar "sebuah SUV lama yang memandu di lereng bukit", sangat baik meniru habuk yang ditimbulkan oleh tayar, cahaya dan bayang-bayang di dalam hutan, dan bayang-bayang berubah semasa pemanduan kereta . Di bawah perkataan segera yang sama, kesan terjana "Vidu" dan Sora sangat serupa, dan butiran seperti habuk, cahaya dan bayang-bayang sangat hampir dengan pengalaman manusia dalam dunia fizikal sebenar. Sora domestik yang paling berkuasa pada masa ini! Pasukan Tsinghua menerobos video berdurasi 16 saat, memahami bahasa berbilang kanta dan boleh mensimulasikan undang-undang fizikal Petua: Kamera mengikuti SUV vintaj putih dengan rak bumbung hitam sambil memecut menuruni jalan tanah curam yang dikelilingi oleh pokok pain, tayar mengeluarkan habuk dan cahaya matahari yang menyinari SUV itu, memancarkan cahaya hangat pada SUV. keseluruhan adegan. Jalan tanah melukai perlahan-lahan ke kejauhan, tanpa kereta atau kenderaan lain kelihatan. Terdapat pokok-pokok kayu merah di kedua-dua belah jalan, dengan tompok-tompok hijau berselerak di sana-sini. Dilihat dari belakang, kereta itu mengikut selekoh dengan mudah dan kelihatan seperti memandu di atas rupa bumi yang kasar. Jalan tanah dikelilingi oleh bukit-bukit dan gunung yang curam, dengan langit biru jernih dan gumpalan awan di atasnya. (Serpihan video penuh dikeluarkan oleh laman web rasmi produk Pixweaver) Sora domestik yang paling berkuasa pada masa ini! Pasukan Tsinghua menerobos video berdurasi 16 saat, memahami bahasa berbilang kanta dan boleh mensimulasikan undang-undang fizikal

Kesan pengeluaran Sora.

Sudah tentu, "Vidu" gagal menghasilkan butiran separa "dengan rak bumbung hitam". Tetapi kelemahannya tidak menyembunyikan kebaikannya, dan kesan keseluruhannya sangat dekat dengan dunia nyata.

🎜🎜Imaginasi yang kaya🎜🎜🎜Berbanding dengan penggambaran kehidupan sebenar, menggunakan AI untuk menjana video mempunyai kelebihan yang besar - ia boleh menjana gambar yang tidak wujud di dunia nyata. Pada masa lalu, gambar ini selalunya memerlukan banyak tenaga kerja dan sumber bahan untuk membina atau mencipta kesan khas, tetapi AI boleh menjananya secara automatik dalam masa yang singkat. 🎜

Sebagai contoh, dalam adegan di bawah, "Perahu Layar" dan "Ombak" jarang muncul di studio, dan interaksi antara ombak dan perahu layar adalah sangat semula jadi. Sora domestik yang paling berkuasa pada masa ini! Pasukan Tsinghua menerobos video berdurasi 16 saat, memahami bahasa berbilang kanta dan boleh mensimulasikan undang-undang fizikal

                                                                                                                                                                                                                                                                                                                                                                      Gesaan: Sebuah kapal di studio belayar ke arah kamera. (Klip video lengkap dikeluarkan oleh tapak web rasmi produk PixWeaver Shengshu)

Sora domestik yang paling berkuasa pada masa ini! Pasukan Tsinghua menerobos video berdurasi 16 saat, memahami bahasa berbilang kanta dan boleh mensimulasikan undang-undang fizikal

Klip "gadis tangki ikan" dalam filem pendek itu juga hebat tetapi mempunyai rasa kewajaran tertentu. Keupayaan untuk mengarang imej yang tidak wujud dalam dunia nyata ini sangat membantu untuk mencipta kandungan surealis ini bukan sahaja dapat memberi inspirasi kepada pencipta dan memberikan pengalaman visual yang baru, tetapi juga meluaskan sempadan ekspresi artistik, membawakan format kandungan yang lebih kaya dan lebih Pelbagai.

Fahami unsur Cina

Selain daripada empat ciri di atas, kami juga melihat beberapa kejutan berbeza daripada filem pendek yang dikeluarkan oleh "Vidu" boleh menghasilkan gambar dengan unsur Cina yang unik, seperti panda dan naga , pemandangan istana, dsb. Sora domestik yang paling berkuasa pada masa ini! Pasukan Tsinghua menerobos video berdurasi 16 saat, memahami bahasa berbilang kanta dan boleh mensimulasikan undang-undang fizikal

Petua: Di tepi tasik yang tenang, seekor panda bersemangat bermain gitar, menjadikan seluruh persekitaran menjadi hidup. Dicerminkan pada perairan yang tenang di bawah langit yang cerah, pemandangan itu dirakamkan dalam tangkapan panorama yang terang yang menggabungkan realisme dengan semangat cergas panda gergasi, mewujudkan gabungan tenaga dan ketenangan yang harmoni. (Klip video lengkap dikeluarkan oleh laman web rasmi produk PixWeaver Shenshu)

Bagaimana anda mencapai kejayaan pesat ini dalam masa dua bulan?

Shengshu Technology, pasukan R&D di belakang "Vidu", ialah pasukan keusahawanan dalam bidang model besar berbilang modal di China Ahli teras adalah daripada Institut Penyelidikan Kepintaran Buatan Universiti Tsinghua. medan penjanaan modal seperti imej, 3D dan video.

Pada Januari tahun ini, Shengshu Technology melancarkan fungsi penjanaan video pendek pada platform reka bentuk kreatif visualnya PixWeaver, menyokong kandungan video pendek 4 saat yang sangat estetik. Selepas pelancaran Sora pada bulan Februari, dilaporkan bahawa Shengshu Technology menubuhkan pasukan penyelidikan dalaman rasmi untuk mempercepatkan kemajuan penyelidikan dan pembangunan arah video asal Pada bulan Mac, ia mencapai penjanaan video 8 saat secara dalaman, dan kemudiannya berjaya generasi 16 saat pada bulan April , mencapai kejayaan dalam semua aspek kualiti dan tempoh penjanaan.

Seperti yang kita semua tahu, Sora tidak mengumumkan terlalu banyak butiran teknikal Teras di sebalik ia mampu mencapai kejayaan dalam tempoh yang singkat adalah pengumpulan teknikal yang mendalam dan banyak pencapaian asal dari 0 hingga 1, terutamanya dalam peringkat. tahap seni bina teras.

Lapisan bawah "Vidu" adalah berdasarkan seni bina U-ViT yang dibangunkan sendiri sepenuhnya, yang dicadangkan oleh pasukan pada September 2022. Ia lebih awal daripada seni bina DiT yang diterima pakai oleh Sora dan merupakan seni bina pertama di dunia yang mengintegrasikan Resapan dan Transformer.

Sora domestik yang paling berkuasa pada masa ini! Pasukan Tsinghua menerobos video berdurasi 16 saat, memahami bahasa berbilang kanta dan boleh mensimulasikan undang-undang fizikal

Dua bulan sebelum kertas DiT dikeluarkan, pasukan Zhu Jun dari Universiti Tsinghua menyerahkan kertas kerja - "All are Worth Words: A ViT Backbone for Diffusion Models". Makalah ini mencadangkan seni bina rangkaian U-ViT yang menggunakan Transformer untuk menggantikan U-Net berasaskan CNN. Ini adalah asas teknikal yang paling penting bagi "Vidu".

Dari segi laluan teknikal, "Vidu" mengamalkan seni bina gabungan Diffusion dan Transformer yang betul-betul sama dengan Sora. Berbeza daripada menggunakan kaedah pemprosesan berbilang langkah untuk menginterpolasi bingkai untuk menjana video panjang, "Vidu" menggunakan laluan yang sama seperti Sora, iaitu, secara langsung menjana video berkualiti tinggi dalam satu langkah. Dari perspektif peringkat rendah, ini ialah kaedah pelaksanaan "satu langkah" yang dijana sepenuhnya berdasarkan model tunggal Ia tidak melibatkan sisipan bingkai perantaraan dan pemprosesan berbilang langkah yang lain kepada video adalah terus dan berterusan.

Selain itu, berdasarkan seni bina U-ViT, pada Mac 2023, pasukan itu melatih model berbilang modal dengan 1 bilion parameter - UniDiffuser pada set data grafik dan teks berskala besar sumber terbuka LAION-5B, dan menjadikannya sumber terbuka (lihat "

Pasukan Zhu Jun Tsinghua telah menggunakan sumber terbuka model penyebaran pelbagai mod berskala besar pertama berdasarkan Transformer, dengan teks dan imej saling beroperasi dan menulis semula semua dicapai》).

UniDiffuser mahir terutamanya dalam tugasan grafik dan teks serta boleh menyokong penjanaan dan penukaran sewenang-wenang antara mod grafik dan teks. Pelaksanaan UniDiffuser mempunyai nilai penting - ia telah mengesahkan buat pertama kalinya kebolehskalaan (Undang-undang Penskalaan) seni bina gabungan dalam tugas latihan berskala besar, yang setara dengan menjalankan semua proses seni bina U-ViT secara besar-besaran. -tugas latihan berskala . Perlu dinyatakan bahawa UniDiffuser adalah satu tahun lebih awal daripada pengenalan Stable Diffusion 3, model grafik dengan seni bina DiT yang sama.

Pengalaman kejuruteraan yang terkumpul dalam tugasan grafik dan teks telah meletakkan asas untuk pembangunan model video. Kerana video pada asasnya adalah aliran imej, ia bersamaan dengan pengembangan imej pada garis masa. Oleh itu, hasil yang dicapai dalam tugasan imej dan teks selalunya boleh digunakan semula dalam tugasan video. Sora melakukan perkara itu sahaja: ia menggunakan teknologi anotasi semula DALL・E 3 untuk menjana penerangan terperinci bagi data latihan visual, membolehkan model mengikut arahan teks pengguna untuk menjana video dengan lebih tepat. Kesan ini pasti akan berlaku pada "Vidu".

Menurut berita sebelumnya, "Vidu" juga menggunakan semula banyak pengalaman Teknologi Bioshu dalam tugasan grafik dan teks, termasuk pecutan latihan, latihan selari, latihan ingatan rendah, dll., dengan itu berjalan dengan pantas melalui proses latihan. Dilaporkan bahawa mereka menggunakan teknologi pemampatan data video untuk mengurangkan dimensi jujukan data input, dan pada masa yang sama menggunakan rangka kerja latihan teragih yang dibangunkan sendiri Sambil memastikan ketepatan pengiraan, kecekapan komunikasi digandakan, overhed memori dikurangkan sebanyak 80%, dan kelajuan latihan meningkat sebanyak 40 kali ganda.

Daripada penyatuan tugas graf kepada penyepaduan keupayaan video, "Vidu" boleh dianggap sebagai model visual umum yang boleh menyokong penjanaan kandungan video yang lebih pelbagai dan lebih panjang. Pegawai juga mendedahkan bahawa "Vidu" sedang mempercepatkan penambahbaikan berulang. Menghadapi masa hadapan, seni bina model fleksibel "Vidu" juga akan serasi dengan rangkaian keupayaan berbilang modal yang lebih luas.

Pasukan yang berkebolehan dari Universiti Tsinghua

Akhir sekali, mari kita bincangkan tentang pasukan di sebalik "Vidu" - Teknologi Shengshu Ini adalah pasukan yang berkebolehan dengan latar belakang Tsinghua.

Pasukan teras Teknologi Shengshu berasal dari Institut Penyelidikan Kepintaran Buatan Universiti Tsinghua. Ketua saintis ialah Zhu Jun, timbalan pengarah Institut Kecerdasan Buatan Tsinghua Tang Jiayu belajar di Jabatan Sains Komputer Universiti Tsinghua dan merupakan ahli kumpulan THUNLP Bao Fan ialah doktoral pelajar di Jabatan Sains Komputer Universiti Tsinghua dan Profesor Zhu Jun Seorang ahli pasukan penyelidik, beliau telah lama mengambil berat dengan penyelidikan dalam bidang model resapan Beliau mengetuai penyiapan kedua-dua U-ViT dan UniDiffuser.

Pasukan telah terlibat dalam penyelidikan tentang kecerdasan buatan generatif dan pembelajaran mesin Bayesian selama lebih daripada 20 tahun, dan menjalankan penyelidikan mendalam pada hari-hari awal penemuan model generatif mendalam. Dari segi model penyebaran, pasukan itu menerajui pelancaran penyelidikan ke arah ini di China, dan hasilnya melibatkan arahan teknologi tindanan penuh seperti rangkaian tulang belakang, algoritma inferens berkelajuan tinggi dan latihan berskala besar.

Sora domestik yang paling berkuasa pada masa ini! Pasukan Tsinghua menerobos video berdurasi 16 saat, memahami bahasa berbilang kanta dan boleh mensimulasikan undang-undang fizikal

Pasukan telah menerbitkan hampir 30 kertas kerja yang berkaitan dengan bidang berbilang modal di persidangan kecerdasan buatan terkemuka seperti ICML, NeurIPS dan ICLR Antaranya, cadangan algoritma inferens tanpa latihan Analitik-DPM dan DPM-Solver telah mencapai keputusan cemerlang dan memenangi Anugerah Kertas Cemerlang ICLR, dan telah diterima pakai oleh institusi termaju asing seperti OpenAI, Apple, dan Stability.ai, dan digunakan dalam projek bintang seperti DALL・E 2 dan Stable Diffusion.

Sejak penubuhannya pada 2023, pasukan ini telah diiktiraf oleh banyak institusi perindustrian terkenal seperti Ant Group, Qiming Venture Partners, BV Baidu Ventures, Byte Jinqiu Fund, dll., dan menyelesaikan ratusan juta yuan dalam pembiayaan. Dilaporkan bahawa Shengshu Technology kini merupakan pasukan keusahawanan dengan penilaian tertinggi dalam trek model besar berbilang modal di China. Pelancaran "Vidu" adalah satu lagi inovasi dan kepimpinan Teknologi Shenshu dalam bidang model besar asli berbilang modal.

Bacaan berkaitan:

Temu bual eksklusif dengan Tang Jiayu dari Shengshu Technology: Selepas menerima ratusan juta pembiayaan, Transformer boleh membuat model besar berbilang modal

Adakah ia dijangka oleh syarikat domestik? Pasukan model besar dari Universiti Tsinghua ini memberi harapan

Atas ialah kandungan terperinci Sora domestik yang paling berkuasa pada masa ini! Pasukan Tsinghua menerobos video berdurasi 16 saat, memahami bahasa berbilang kanta dan boleh mensimulasikan undang-undang fizikal. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!

Kenyataan:
Artikel ini dikembalikan pada:jiqizhixin.com. Jika ada pelanggaran, sila hubungi admin@php.cn Padam