Rumah > Artikel > Peranti teknologi > AI menulis novel, lukisan dan memotong video AI Generatif adalah lebih popular!
Baru-baru ini, AI generatif telah menjadi popular semula! Applet WeChat yang dipanggil "Dream Stealer" menjadi popular serta-merta, mencapai rekod menambah 50,000 pengguna baharu setiap hari.
Dream Stealer ialah platform AI yang boleh menjana imej berdasarkan teks input Ia merupakan cabang AIGC (Kandungan Dijana AI).
Selepas pengguna menggunakan imaginasi mereka dan memasukkan penerangan teks, Dream Stealer boleh menjana gambar dalam tiga nisbah: 1:1, 9:16 dan 16:9, dan terdapat 24 gaya lukisan untuk dipilih - kecuali Lukisan asas jenis seperti lukisan minyak, cat air dan lakaran juga termasuk gaya khas seperti cyberpunk, vaporwave, seni piksel, Ghibli dan rendering CG.
Gambar: Editor Cloud Report Teknologi menggunakan applet WeChat "Dream Stealer" untuk menjana
Malah, ini bukan Graf "Yiwensheng" yang pertama” perisian AI. Dari Midjourney ke Stable Diffusion, AI generatif telah menjadi topik paling hangat dalam tempoh dua tahun yang lalu.
Sebagai hala tuju penting dalam pembangunan AI, AI generatif mempunyai potensi besar untuk pembangunan.
Menurut data daripada Gartner pada separuh pertama tahun ini, AI generatif dijangka menyumbang 10% daripada semua data yang dijana menjelang 2025, berbanding kurang daripada 1% pada masa ini.
Sesetengah orang percaya bahawa 2022 akan menjadi tahun pertama apabila AI generatif matang daripada teknologi untuk menembusi asas masyarakat.
Dalam beberapa tahun kebelakangan ini, perkembangan teknologi AI dalam bidang penglihatan boleh digambarkan sebagai "cepat".
Pada Januari tahun lepas, OpenAI, sebuah syarikat yang berdedikasi untuk "memanfaatkan semua manusia dengan kecerdasan buatan am", mengeluarkan DALL-E yang menghasilkan zaman berdasarkan model GPT-3, yang merealisasikan penjanaan imej daripada teks.
Pada April tahun ini, OpenAI mengeluarkan model DALL-E 2 generasi kedua, yang sekali lagi menetapkan penanda aras baharu dalam bidang penjanaan imej.
Pengguna boleh menjana imej yang sepadan melalui penerangan teks pendek (prompt), supaya orang yang tidak boleh melukis juga boleh menukar imaginasi mereka menjadi ciptaan artistik, seperti ayat "Alpaca bermain bola keranjang" Empat gambar yang dihasilkan oleh rupa ini sangat sesuai dengan jangkaan semua orang.
Contoh gambar yang dijana oleh model DALL-E 2
Bukan itu sahaja, kerana butiran huraian teks terus diperhalusi, imej yang dihasilkan akan menjadi lebih dan lebih canggih. Lebih tepat, kesannya akan agak mengejutkan kepada bukan profesional.
Walau bagaimanapun, model seperti DALL-E 2 masih kekal dalam bidang penciptaan dua dimensi, iaitu penjanaan imej dan tidak boleh menjana model 3D 360 darjah tanpa jalan buntu.
Walau bagaimanapun, ini masih tidak sukar untuk penyelidik algoritma yang sangat kreatif Salah satu hasil terbaharu model Google Research-DreamFusion, boleh menjana model 3D dengan memasukkan gesaan teks ringkas, yang bukan sahaja boleh digunakan dalam pencahayaan yang berbeza. keadaan Rendering dilakukan di bawah, dan model 3D yang dijana juga mempunyai ciri seperti ketumpatan dan warna Ia malah boleh menyepadukan berbilang model 3D yang dijana ke dalam satu pemandangan.
Selepas menjana imej 3D, kakitangan algoritma Meta terus membuka idea mereka, mencabar kesukaran yang lebih tinggi dan mula meneroka menggunakan gesaan teks untuk menjana video secara langsung.
Walaupun video pada asasnya adalah superposisi bagi satu siri imej, berbanding dengan penjanaan imej, apabila menggunakan teks untuk menjana video, ia bukan sahaja perlu menjana berbilang bingkai adegan yang sama, tetapi juga untuk memastikan bahawa bingkai bersebelahan koheren antara. Memandangkan terdapat sedikit data video berkualiti tinggi yang tersedia semasa melatih model, tetapi jumlah pengiraan adalah sangat besar, ia sangat meningkatkan kerumitan tugas penjanaan video.
Pada bulan September tahun ini, penyelidik dari Meta mengeluarkan Make-A-Video, model penjanaan video pendek berkualiti tinggi berdasarkan kecerdasan buatan, yang setara dengan versi video DALL-E, juga digelar "Make video dengan mulut anda" bermakna anda boleh mencipta kandungan video baharu melalui gesaan teks. Teknologi utama di belakangnya juga datang daripada teknologi sintesis "imej teks" yang digunakan oleh penjana imej seperti DALL-E.
Hanya seminggu kemudian, Ketua Pegawai Eksekutif Google Pichai secara rasmi mengumumkan dua model untuk mencabar Make-A-Video Meta secara langsung, iaitu Imagen Video dan Phenaki.
Berbanding dengan Make-A-Video, Imagen Video menyerlahkan ciri definisi tinggi video, boleh menjana resolusi 1280*768, 24 bingkai sesaat klip video, dan juga boleh memahami dan menjana karya gaya artistik yang berbeza . ;
Memahami struktur 3D objek dan tidak akan berubah bentuk semasa putaran; animasi.
Video Imej menjana contoh video
manakala Phenaki boleh menjana syot panjang resolusi yang lebih rendah selama lebih daripada 2 minit berdasarkan gesaan kira-kira 200 perkataan . , menceritakan kisah yang agak lengkap.
Contoh video hasil Phenaki
Pada masa ini, terdapat banyak aplikasi AI generatif di China.
Sebagai contoh, APP Jianying ByteDance menyediakan fungsi video yang dijana AI dan boleh digunakan secara percuma.
Fungsi video gambar-ke-teks Pemotongan adalah serupa dengan Google Pencipta boleh menjana video pendek kreatif melalui beberapa kata kunci atau perenggan pendek teks.
Klip juga boleh memadankan bahan video secara bijak berdasarkan penerangan teks dan membungkus video ke dalam karya kandungan yang lebih menegak, termasuk kewangan, sejarah, kemanusiaan dan kategori lain.
Pada Januari 2022, NetEase melancarkan platform penciptaan muzik AI sehenti "NetEase Tianyin", yang menjana ucapan Tahun Baharu janaan AI yang diedit oleh pengguna ke dalam lagu, dan melancarkan versi profesional bahagian web pada yang pertama. separuh tahun.
Pada September 2021, APP Caiyun Xiaomeng akan dilancarkan, yang boleh mencipta pelbagai jenis teks Pengguna hanya perlu memberikan permulaan 1-1000 perkataan, dan Caiyun Xiaomeng boleh terus menulis cerita berikut.
Sebenarnya, terdapat banyak bentuk penciptaan AI. Apabila teknologi AI generatif digunakan untuk menulis, versi mesin wartawan, novelis, penyair, penulis skrip, dll. Apabila ia digunakan dalam bidang lukisan, muzik dan tarian, ia boleh "memupuk" pelukis, komposer dan editor. Kakitangan tarian.
Pada tahun lalu, AI generatif telah berkembang dengan lebih baik. Gergasi perisian dalam bidang AI seperti Google, Microsoft, dan Meta telah mempromosikan teknologi ini secara dalaman dan mengintegrasikan AI generatif ke dalam produk mereka.
Mengapa AI generatif tiba-tiba begitu popular?
Malah, teknologi AI generatif telah berkembang pesat, tetapi ia sebelum ini terhad kepada bulatan kecil dalam dunia teknologi kerana ambang teknikal yang tinggi.
Mengimbas kembali sejarah pembangunan teknologi AI, anda akan mendapati bahawa ledakan AI generatif tidak dapat dipisahkan daripada tiga faktor: model yang lebih baik, lebih banyak data dan lebih banyak pengiraan.
Sebelum 2015, model kecil dianggap sebagai "teknologi terkini" untuk memahami bahasa. Model-model kecil ini cemerlang dalam tugasan analisis dan digunakan dalam pekerjaan daripada meramalkan masa penghantaran kepada mengklasifikasikan penipuan.
Walau bagaimanapun, mereka tidak cukup ekspresif untuk tugas generasi umum. Menjana penulisan atau kod peringkat manusia masih menjadi impian.
Pada tahun 2017, Google Research menerbitkan kertas penting (Perhatian Adalah Semua yang Anda Perlukan) yang menerangkan seni bina rangkaian saraf baharu untuk pemahaman bahasa semula jadi, dipanggil transformer, yang boleh menjana model bahasa Unggul yang berkualiti, pada masa yang sama, adalah lebih selari dan memerlukan masa latihan yang jauh lebih sedikit.
Sudah tentu, apabila model semakin besar, mereka mula menunjukkan prestasi luar biasa. Jumlah pengiraan yang digunakan untuk melatih model ini meningkat sebanyak enam urutan magnitud dari 2015 hingga 2020, dengan keputusan melebihi penanda aras untuk prestasi manusia dalam tulisan tangan, pertuturan dan pengecaman imej, pemahaman bacaan dan pemahaman bahasa.
Antaranya, GPT-3 OpenAI menyerlahkan prestasi model ini telah membuat lonjakan besar berbanding GPT-2, menunjukkan keupayaan yang lebih baik daripada penjanaan kod kepada penulisan jenaka.
Walaupun kemajuan dalam semua bidang penyelidikan asas, model ini tidak universal.
Ia besar, sukar dijalankan (memerlukan penyelarasan GPU), tidak tersedia secara meluas (tidak tersedia atau hanya dalam beta tertutup) dan mahal untuk digunakan sebagai perkhidmatan awan.
Tetapi di sebalik batasan ini, aplikasi AI generatif terawal mula memasuki medan perang.
Selepas itu, apabila pengkomputeran menjadi lebih murah, industri terus membangunkan algoritma yang lebih baik dan model yang lebih besar.
Kebenaran pembangun dikembangkan daripada beta tertutup kepada beta terbuka atau, dalam beberapa kes, sumber terbuka.
Sekarang lapisan platform stabil, model terus menjadi lebih baik, lebih pantas dan lebih murah, dan akses kepada model cenderung menjadi percuma dan sumber terbuka, lapisan aplikasi AI sudah matang untuk kreativiti meledak.
Sebagai contoh, pada bulan Ogos tahun ini, model penjanaan imej teks Stable Diffusion adalah sumber terbuka. Successors boleh menggunakan alat sumber terbuka ini dengan lebih baik untuk mencungkil ekologi kandungan yang lebih kaya dan mempopularkannya kepada rangkaian C yang lebih luas. -pengguna akhir memainkan peranan penting.
Kepopularan Stable Diffusion pada asasnya ialah sumber terbuka mengeluarkan kreativiti.
Firma modal teroka Sequoia Capital menyebut dalam catatan blog di laman web rasminya: “AI Generatifberpotensi menjana trilion Nilai ekonomi dolar .
” Menurut Sequoia Capital, AI generatif boleh mengubah setiap industri yang memerlukan manusia mencipta karya asli, daripada permainan kepada pengiklanan kepada undang-undang.
Secara khusus, senario aplikasi AI generatif pada masa hadapan adalah sangat luas Selain industri pengeluaran kandungan seperti penciptaan budaya dan berita, AI generatif juga akan digunakan dalam penjagaan kesihatan. perdagangan digital, pembuatan, Pertanian dan industri lain mempunyai prospek aplikasi yang kaya, seperti membantu doktor mengesan lesi dalam X-ray, CT dan imbasan peralatan lain, mencipta kembar digital barangan, membantu dalam menguji kualiti produk, dsb.
Terdapat juga ruang aplikasi yang banyak dalam teknologi popular seperti XR, kembar digital dan kenderaan autonomi.
Tetapi perlu diingat bahawa masih terdapat banyak masalah yang perlu diselesaikan dalam AI generatif semasa.
Sebagai contoh, dalam bidang hiburan, salah satu sebab mengapa ramai orang menggunakan AI generatif untuk penciptaan adalah untuk mengelakkan isu hak cipta, tetapi ini tidak bermakna tiada bahaya tersembunyi.
Di satu pihak, penciptaan AI juga menggabungkan semula data yang dipelajari mengikut keperluan Walaupun butirannya semakin halus, tidak dapat dielakkan bahawa sesetengah orang yang bermata tajam akan melihat bahawa ia. mungkin rujukan Sesetengah netizen malah berkata di platform sosial bahawa mereka telah samar-samar melihat kesan tandatangan yang disyaki pada gambar yang dijana AI.
Sebaliknya, kebanyakan platform penjanaan AI semasa tidak menuntut hak cipta atau dengan jelas menyatakan bahawa ia boleh digunakan untuk tujuan komersil Walau bagaimanapun, apabila AI generatif secara beransur-ansur dikomersialkan persekitaran hak cipta sedemikian wujud? Sama ada isu hak cipta baru akan timbul juga perlu dibincangkan.
Logik dan keselamatan AI generatif juga perlu dipertingkatkan. AI generatif semasa terdedah kepada membuat kesilapan akal, dan juga terdedah kepada masalah di kawasan yang memerlukan ingatan jangka panjang.
Sebagai contoh, dalam proses novel yang dihasilkan oleh AI, selalunya terdapat ketidakselarasan kerana panjangnya.
Oleh itu, walaupun AI generatif sudah boleh digunakan dalam banyak bidang, untuk benar-benar meletakkan AI generatif berfungsi, banyak latihan mesti dilakukan untuk mengelakkan "kesilapan" yang disebabkan oleh AI.
Lagipun, senario aplikasi seperti perubatan dan pembuatan tidak mempunyai ruang yang sama untuk percubaan dan kesilapan seperti industri budaya dan kreatif.
Walaupun AI generatif pada masa ini tidak dapat dipisahkan daripada campur tangan manusia, tidak dapat dinafikan bahawa AI generatif masih mempunyai potensi pembangunan yang berpotensi besar.
Kemunculan AI generatif bermakna AI telah mula memainkan peranan baharu dalam kandungan kehidupan sebenar daripada "pemerhatian dan ramalan" kepada "penjanaan langsung dan membuat keputusan". Dengan kata lain, AI generatif mencipta, bukan hanya menganalisis.
Seperti kata CEO OpenAI Sam Altman: "AI Generatif mengingatkan kita bahawa sukar untuk membuat ramalan tentang kecerdasan buatan.
Sepuluh tahun yang lalu kebijaksanaan konvensional ialah: AI akan memberi kesan kepada kerja fizikal dahulu; dan kemudian, mungkin suatu hari nanti, ia boleh melakukan kerja kreatif.
Atas ialah kandungan terperinci AI menulis novel, lukisan dan memotong video AI Generatif adalah lebih popular!. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!