Rumah >Peranti teknologi >AI >Menerajui pengkomersilan AIGC dengan 'model menegak', apakah laluan teknikal FancyTech?

Menerajui pengkomersilan AIGC dengan 'model menegak', apakah laluan teknikal FancyTech?

王林asal: 2024-08-16 16:36:31576semak imbas

Kami menyaksikan satu lagi pusingan inovasi teknologi Kali ini, AIGC menyediakan individu dengan alat untuk mengekspresikan diri mereka, menjadikan penciptaan lebih mudah dan lebih popular, tetapi kuasa penggerak di belakangnya bukanlah model "besar".

Dalam dua tahun yang lalu, teknologi AIGC telah berkembang lebih pantas daripada yang dibayangkan oleh semua orang, melanda semua bidang daripada teks, imej hingga video. Perbincangan mengenai laluan pengkomersialan AIGC tidak pernah terhenti Antaranya, terdapat konsensus dan perbezaan laluan.

Di satu pihak, keupayaan berkuasa model am adalah menakjubkan, menunjukkan potensi aplikasi dalam semua lapisan masyarakat. Khususnya, pengenalan seni bina seperti DiT dan VAR telah membolehkan Undang-undang Penskalaan melompat daripada teks kepada penjanaan visual. Di bawah bimbingan peraturan ini, banyak pengeluar model besar terus bergerak ke hadapan ke arah meningkatkan data latihan, pelaburan kuasa pengkomputeran dan parameter terkumpul.

Sebaliknya, kita juga telah melihat bahawa model universal tidak bermaksud "bunuh semua".

Memandangkan teknologi model besar memasuki tempoh pelaksanaan yang dipercepatkan, laluan pengkomersilan yang terakhir telah mendapat perhatian yang pesat.

Dalam proses evolusi ini, sebuah syarikat permulaan dari China, FancyTech, menonjol: Ia telah meluaskan pasaran dengan pantas dengan produk piawai untuk penjanaan kandungan visual komersial, dan telah mengesahkan keunggulan "model menegak" pada peringkat pelaksanaan industri lebih awal daripada rakan sebayanya.

Melihat sekeliling bulatan keusahawanan model besar domestik, rekod pengkomersilan FancyTech jelas kepada semua. Tetapi apa yang kurang diketahui ialah model menegak dan kelebihan teknologi yang syarikat ini, yang hanya dilahirkan beberapa tahun lalu, berada di barisan hadapan.

Dalam temu bual eksklusif, laman web ini bercakap dengan FancyTech mengenai penerokaan teknologi yang mereka lakukan.

FancyTech mengeluarkan model menegak video DeepVideo

Bagaimana untuk menembusi halangan industri?

Secara amnya, selepas keupayaan generalisasi sampel sifar bagi model umum mencapai tahap tertentu, penalaan halus boleh digunakan untuk tugasan hiliran. Ini juga merupakan cara banyak produk model besar dilancarkan hari ini. Tetapi dari kesan sebenar, hanya "penalaan halus" tidak dapat memenuhi keperluan aplikasi industri, kerana tugas penjanaan kandungan setiap industri mempunyai set piawaian khusus dan kompleks mereka sendiri.

Model umum mungkin dapat menyelesaikan 70% tugasan konvensional, tetapi apa yang pelanggan benar-benar perlukan ialah "model menegak" yang boleh memenuhi 100% keperluan mereka. Ambil reka bentuk visual komersial sebagai contoh Pada masa lalu, kerja yang berkaitan telah disiapkan oleh profesional dengan pengumpulan jangka panjang, dan ia perlu direka bentuk dan diselaraskan mengikut keperluan khusus jenama, yang melibatkan banyak pengalaman manual. Berbanding dengan penunjuk seperti estetika dan pematuhan arahan, "pemulihan produk" ialah titik yang lebih diberi perhatian oleh jenama dalam tugas ini, dan ia juga merupakan faktor penentu sama ada jenama sanggup membayar.

Dalam proses membangunkan sendiri model menegak untuk imej/video komersial, FancyTech membongkar cabaran teras: bagaimana untuk menjadikan produk dipulihkan dan disepadukan dengan secukupnya ke dalam latar belakang, terutamanya dalam video yang dihasilkan, untuk mencapai pergerakan yang boleh dikawal dan tidak konsisten daripada ubah bentuk.

Menerajui pengkomersilan AIGC dengan model menegak, apakah laluan teknikal FancyTech?

Dengan perkembangan teknologi model besar hari ini, untuk lapisan aplikasi, mengambil laluan sumber terbuka atau sumber tertutup bukan lagi isu teras. Model menegak FancyTech adalah berdasarkan rangka kerja algoritma asas sumber terbuka, ditindih dengan anotasi datanya sendiri dan dilatih semula, dan hanya memerlukan ratusan GPU untuk lelaran latihan berterusan untuk mencapai hasil penjanaan yang baik. Sebaliknya, dua faktor "data produk" dan "kaedah latihan" adalah lebih kritikal kepada kesan pelaksanaan akhir.

FancyTech telah memperkenalkan idea kecerdasan spatial untuk membimbing penjanaan kandungan 2D model pada premis mengumpul data latihan 3D yang besar. Secara khusus, dari segi penjanaan kandungan imej, pasukan mencadangkan "peranti ciri berbilang modal" untuk memastikan pemulihan produk, dan menggunakan pengumpulan data khas untuk memastikan integrasi semula jadi produk dan latar belakang dari segi penjanaan kandungan video, pasukan membina semula video Pautan asas yang dihasilkan digunakan untuk mereka bentuk rangka kerja dan melaksanakan kejuruteraan data mengikut arah untuk mencapai penjanaan video berpusatkan produk.

Mogok Pengurangan Dimensi Sebenar: Bagaimanakah "kecerdasan ruang" membimbing penjanaan kandungan 2D?

Sebab utama mengapa banyak produk penjanaan visual tidak memuaskan ialah model penjanaan imej dan video semasa sering belajar berdasarkan data latihan 2D dan tidak memahami dunia fizikal sebenar.

Ini telah mencapai kata sepakat dalam bidang ini, malah sesetengah penyelidik percaya bahawa di bawah paradigma pembelajaran autoregresif, pemahaman model tentang dunia sentiasa cetek.

Tetapi dalam tugas pembahagian penjanaan visual komersial, ia tidak dapat diselesaikan sepenuhnya untuk meningkatkan pemahaman dunia fizikal 3D model dan menjana kandungan 2D dengan lebih baik.

FancyTech telah memindahkan idea penyelidikan dalam bidang "kecerdasan ruang" kepada pembinaan model generatif visual. Berbeza daripada model generatif umum, idea kecerdasan ruang adalah untuk belajar daripada isyarat asal yang diperolehi oleh sebilangan besar penderia dan menentukur dengan tepat isyarat asal yang diperolehi oleh penderia untuk memberi model keupayaan untuk melihat dan memahami dunia sebenar.

Oleh itu, FancyTech menggunakan pengimbasan lidar dan bukannya penangkapan studio tradisional, dan telah mengumpulkan sejumlah besar pasangan data 3D berkualiti tinggi yang mencerminkan perbezaan sebelum dan selepas penyepaduan produk, dan menggabungkan data awan titik 3D dengan data 2D sebagai data latihan model untuk meningkatkan pemahaman model tentang dunia sebenar.

Kami tahu bahawa dalam penjanaan mana-mana kandungan visual, pembentukan kesan cahaya dan bayang-bayang adalah tugas yang sangat mencabar. Elemen seperti pencahayaan, badan bercahaya, lampu latar dan bintik cahaya boleh menjadikan lapisan spatial gambar lebih kuat, tetapi ini adalah "titik pengetahuan" yang sukar difahami untuk model generatif.

Untuk mengumpul data cahaya semula jadi dan bayang-bayang sebanyak mungkin, FancyTech menubuhkan berpuluh-puluh lampu dengan kecerahan boleh laras dan suhu warna dalam setiap persekitaran, yang bermaksud bahawa setiap pasangan dalam data besar-besaran boleh ditindih dengan berbilang lampu dan kecerahan yang berbeza. dan perubahan suhu warna.

Menerajui pengkomersilan AIGC dengan model menegak, apakah laluan teknikal FancyTech?

Pengumpulan data berintensiti tinggi ini menyerupai pencahayaan adegan penggambaran sebenar, menjadikannya lebih selaras dengan ciri adegan e-dagang.

Menerajui pengkomersilan AIGC dengan model menegak, apakah laluan teknikal FancyTech?

Digabungkan dengan pengumpulan data 3D berkualiti tinggi, FancyTech telah membuat satu siri inovasi dalam rangka kerja algoritma, menggabungkan secara organik algoritma spatial dengan algoritma imej dan video untuk membolehkan model memahami dengan lebih baik interaksi antara objek teras dan persekitaran .

Semasa proses latihan, model boleh "muncul" pada tahap tertentu dengan pemahaman tentang dunia fizikal, dan mempunyai pemahaman yang lebih mendalam tentang ruang tiga dimensi, kedalaman, pantulan dan pembiasan cahaya, dan hasil operasi cahaya. dalam media yang berbeza dan kognisi yang berbeza, dan akhirnya mencapai "pengurangan kuat" dan "hiper-gabungan" produk dalam hasil yang dihasilkan.

Apakah inovasi algoritma di sebalik "pengurangan kuat" dan "gabungan hiper"?

Untuk tugas penjanaan imej pemandangan produk biasa, kaedah arus perdana pada peringkat ini terutamanya menggunakan tekstur untuk memastikan pemulihan bahagian produk, dan kemudian melaksanakan pengeditan pemandangan imej berdasarkan teknologi Inpainting. Pengguna memilih kawasan yang perlu diubah, memasuki Prompt atau menyediakan imej rujukan untuk membimbing penjanaan pemandangan produk. Kesan gabungan kaedah ini adalah lebih baik, tetapi kelemahannya ialah kebolehkawalan hasil penjanaan adegan tidak tinggi Contohnya, ia tidak cukup jelas atau terlalu mudah, dan ia tidak dapat menjamin kadar ketersediaan yang tinggi bagi satu output.

Sebagai tindak balas kepada masalah yang tidak dapat diselesaikan dengan kaedah semasa, FancyTech mencadangkan proprietari "penjana ciri berbilang modal" yang mengekstrak ciri produk dalam pelbagai dimensi, dan kemudian menggunakan ciri ini untuk menjana graf pemandangan bersepadu.

Menerajui pengkomersilan AIGC dengan model menegak, apakah laluan teknikal FancyTech?

Kerja mengekstrak ciri boleh dibahagikan kepada "ciri global" dan "ciri tempatan". di mana-mana, menggunakan pengekstrakan Rangkaian saraf graf. Salah satu faedah hebat rangkaian saraf graf ialah ia boleh mengekstrak maklumat setiap piksel utama dalam produk dan hubungan antara piksel utama, dan menambah baik pemulihan butiran di dalam produk.

Dalam penjanaan kandungan produk bahan fleksibel, kesan yang diperoleh melalui kaedah ini dipertingkatkan dengan ketara:

Berbanding dengan imej, penjanaan video juga melibatkan kawalan pergerakan produk itu sendiri dan perubahan cahaya dan bayang yang dibawanya . Untuk model penjanaan video umum, kesukarannya terletak pada ketidakupayaan untuk melindungi bahagian tertentu video secara bebas. Untuk menyelesaikan masalah ini, FancyTech membahagikan tugas kepada dua cabang: "penjanaan pergerakan produk" dan "integrasi pemandangan video".

Dalam langkah pertama, FancyTech mereka beberapa penyelesaian perancangan gerakan disasarkan untuk mengawal pergerakan produk dalam skrin, yang bersamaan dengan "membetulkan" produk dalam setiap bingkai video terlebih dahulu
Langkah 2 , mencapai penjanaan video yang boleh dikawal melalui modul kawalan. Modul kawalan menggunakan reka bentuk yang fleksibel dan serasi dengan seni bina yang berbeza seperti U-net dan DiT, menjadikannya mudah untuk dikembangkan dan dioptimumkan.

Di peringkat data, selain menggunakan sumber data produk unik FancyTech untuk menyediakan latihan kawalan dan perlindungan produk, pelbagai set data sumber terbuka juga ditambah untuk memastikan keupayaan generalisasi pemandangan. Pelan latihan menggabungkan pembelajaran perbandingan dan pembelajaran kursus, dan akhirnya mencapai kesan perlindungan barangan.

Biarlah dividen era AIGC

bermula dari model menegak dan bergerak ke arah lebih ramai orang biasa

Sama ada "sejagat" atau "menegak", titik akhir kedua-dua laluan adalah pengkomersilan.

Benefisiari paling langsung bagi pelaksanaan model menegak FancyTech ialah jenama Pada masa lalu, kitaran pengeluaran video pengiklanan boleh berlangsung selama beberapa minggu dari perancangan, penggambaran dan pengeditan. Tetapi dalam era AIGC, hanya mengambil masa sepuluh minit untuk mencipta video pengiklanan sedemikian, dan kosnya hanya satu perlima daripada kos asal.

Dengan kelebihan data unik yang besar dan pengetahuan industri, FancyTech telah mendapat pengiktirafan luas di dalam dan luar negara melalui kelebihan model menegak Ia telah menandatangani kontrak dengan Samsung dan LG dengan rakan kongsi Korea; platform e-dagang yang terkenal di Asia Tenggara ; Di Amerika Syarikat, ia telah digemari oleh jenama tempatan seperti Kate Sommerville dan Solawave di Eropah, ia telah memenangi Anugerah Inovasi LVMH dan merupakan kerjasama yang mendalam dengan Eropah pelanggan.

Selain model menegak teras, FancyTech juga menyediakan penerbitan automatik pautan penuh dan keupayaan maklum balas data untuk video pendek AI, memacu pertumbuhan berterusan dalam jualan produk.

Apa yang lebih penting ialah model menegak menggambarkan laluan untuk orang awam menggunakan teknologi AIGC untuk meningkatkan produktiviti. Sebagai contoh, studio foto jalanan tradisional boleh melengkapkan transformasi perniagaan daripada penggambaran potret ringkas kepada penghasilan bahan visual komersial peringkat profesional tanpa menambah peralatan profesional dan profesional dengan bantuan produk FancyTech.

Kini hanya dengan mengambil telefon bimbit, hampir semua orang boleh merakam video, merakam muzik dan berkongsi ciptaan mereka dengan dunia. Bayangkan masa depan di mana AIGC sekali lagi melancarkan kreativiti peribadi -

membolehkan orang biasa melepasi ambang profesional dan menjadikan idea menjadi realiti dengan lebih mudah, sekali gus membolehkan produktiviti setiap industri melonjak ke hadapan dan menjana lebih banyak industri yang sedang berkembang, AIGC Mulai saat ini, dividen zaman yang dibawa oleh teknologi mula benar-benar sampai kepada orang biasa.

Atas ialah kandungan terperinci Menerajui pengkomersilan AIGC dengan 'model menegak', apakah laluan teknikal FancyTech?. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!

架构堆 var 算法传感器 AIGC prompt

Kenyataan：

Kandungan artikel ini disumbangkan secara sukarela oleh netizen, dan hak cipta adalah milik pengarang asal. Laman web ini tidak memikul tanggungjawab undang-undang yang sepadan. Jika anda menemui sebarang kandungan yang disyaki plagiarisme atau pelanggaran, sila hubungi admin@php.cn

Artikel sebelumnya：bagaimana copilot berfungsi dalam vscodeArtikel seterusnya：bagaimana copilot berfungsi dalam vscode

Artikel berkaitan

Lihat lagi