Rumah >Peranti teknologi >AI >Treler GTA6 telah dimainkan lebih daripada 1 bilion kali, dan gergasi AI boleh dengan cepat memasuki peranan gangster GTA
Pernahkah anda melihat treler permainan GTA baharu? Dikatakan bahawa treler ini telah memecahkan tiga Rekod Dunia Guinness dan telah ditonton lebih 100 juta kali.
Jika saya memberitahu anda bahawa tiga gergasi AI juga boleh memainkan peranan dalam permainan "Grand Theft Auto", adakah anda masih boleh membezakan mereka?
Tiga Besar AI: Yann LeCun, Geoffrey Hinton dan Yoshua Bengio.
Foto ini disintesis menggunakan model FaceStudio AI Tencent, menunjukkan kesan gaya GTA. Keunikan model AI ini terletak pada pengecaman wataknya yang sangat baik, yang mendorong teknologi "foto AI" yang digunakan secara meluas ke tahap yang lebih tinggi
Dalam perkembangan pesat teknologi kecerdasan buatan hari ini, pemotretan AI telah menjadi AI A arah popular untuk teknologi aplikasi. Dalam bidang aplikasi imej AI +, produk foto AI seperti Miaoya Camera telah menunjukkan potensi dan populariti yang besar. Kamera Miaoya telah menarik banyak perhatian di media sosial hanya beberapa minggu selepas pelancarannya, dan pertumbuhan pesatnya menyerlahkan potensi besar pasaran ini. Walaupun begitu, banyak produk pengambilan foto AI masih mempunyai had teknikal tertentu Sebagai contoh, pengguna perlu memuat naik berbilang foto dengan perbezaan yang besar dan perlu menunggu lama untuk mendapatkan kesan komposit, yang sudah pasti mempengaruhi pengalaman pengguna.
Dalam gelombang inovasi imej yang diterajui oleh kecerdasan buatan ini, hasil penyelidikan terbaharu Tencent FaceStudio menunjukkan penemuan teknologi selanjutnya. Penyelidikan ini bukan sahaja tertumpu kepada mensintesis potret dengan cepat, tetapi juga lebih memfokuskan pada mengekalkan maklumat identiti potret untuk memenuhi keperluan estetik di samping mengekalkan keunikan dan pengiktirafan watak. Ia bukan sahaja mewarisi kelebihan teras algoritma sumber terbuka StableDiffusion, tetapi juga membuat penambahbaikan inovatif dalam berbilang fungsi utama. Yang paling menarik perhatian ialah keupayaannya untuk menggunakan panduan hibrid untuk penjanaan imej, terutamanya dalam memproses foto berbilang orang dan imej yang digayakan. Teknologi teras FaceStudio terletak pada keupayaannya untuk mencipta imej tanpa mengorbankan identiti peribadi sintesis imej watak tercapai. Teknologi sintesis imej AI tradisional sering mengorbankan keunikan dan pengiktirafan watak semasa mengejar keindahan visual. Walau bagaimanapun, melalui mekanisme panduan hibrid lanjutan, FaceStudio dapat mempertimbangkan secara serentak isyarat teks, imej gaya dan imej identiti apabila menjana imej, dengan itu mencapai pemindahan gaya yang pelbagai sambil mengekalkan ciri individu. Ini bukan sahaja satu kejayaan besar dalam teknologi, tetapi juga menyediakan pengguna dengan pilihan sintesis imej yang lebih kaya dan diperibadikan.
Selain itu, mekanisme perhatian silang berbilang identiti unik FaceStudio menjadikannya sangat baik dalam memproses imej yang mengandungi berbilang orang. Kaedah tradisional sering menghadapi masalah membezakan dan mengekalkan ciri-ciri setiap orang dengan tepat apabila memproses imej tersebut. Tetapi mekanisme FaceStudio ini boleh memetakan maklumat ciri identiti berbeza dengan tepat ke bahagian imej yang sepadan, yang sangat baik dalam mengekalkan keunikan setiap watak dan penyelarasan gaya keseluruhan.
FaceStudio menyokong pelbagai aplikasi berkaitan muka yang menarik
Alamat kertas: https://arxiv.org/abs.
Ikhtisar KaedahReka Bentuk Tali Boot Hibrid
🎜🎜 bagi reka bentuk muka hibridnya. Pasukan itu menggunakan pendekatan unik yang membolehkan model menerima kedua-dua imej dan isyarat teks secara serentak, dengan itu menghasilkan imej dengan ciri identiti tertentu. Modul panduan berasaskan gesaan imej mengandungi dua sub-modul: 🎜🎜
Selepas mengekstrak ciri visual imej yang digayakan dan ciri identiti imej muka, kedua-dua set ciri ini digabungkan bersama. Langkah ini dicapai melalui lapisan linear yang menggabungkan kedua-dua ciri untuk mencipta ciri panduan yang komprehensif. Kelebihan kaedah ini ialah ia bukan sahaja mengekalkan identiti watak, tetapi juga menggabungkan gaya dan kandungan tertentu ke dalam proses penjanaan imej
FaceStudio bukan sahaja mempunyai fungsi panduan imej, tetapi juga menyepadukan fungsi panduan teks. Ciri ini dicapai dengan menggunakan model PriorTransformer yang telah terlatih. Model ini dapat memetakan ciri teks CLIP kepada ciri visual CLIP yang sepadan. Kemudian, sama dengan modul panduan gesaan imej, ciri visual ini digabungkan dengan ciri modul pengecaman identiti untuk membentuk ciri panduan komprehensif yang boleh bertindak balas kepada gesaan teks. Akhir sekali, kedua-dua ciri segera ditimbang dan digabungkan untuk mencapai bimbingan hibrid
Kandungan yang perlu ditulis semula ialah: gambar rajah seni bina Facebook Studio
Sintesis imej berbilang orang
Dalam rangka kerja FaceStudio yang dibangunkan oleh pasukan Tencent, terdapat inovasi utama, iaitu bahagian "pemprosesan imej berbilang orang". Bahagian ini memfokuskan pada penggubahan potret berbilang orang dalam satu imej untuk memastikan setiap orang mengekalkan identiti unik mereka dalam imej akhir. Berhadapan dengan imej yang mengandungi berbilang orang, FaceStudio menggunakan mekanisme perhatian khas. Mekanisme ini memastikan bahawa semasa proses sintesis imej, ciri setiap kawasan aksara hanya mengakses maklumat identiti yang sepadan. Ini bermakna model boleh mengawal identiti setiap watak dengan tepat, memastikan ia muncul dengan betul dalam imej akhir. Untuk mencapai kawalan tepat ini, pasukan Tencent menggunakan model pembahagian contoh watak. Model ini dapat mengenal pasti orang yang berbeza dalam imej dan mengaitkan rantau setiap orang dengan ciri identiti yang sepadan. Dengan cara ini, model boleh memastikan maklumat identiti setiap watak dibimbing dengan betul semasa mensintesis imej
Membandingkan kesan FaceStudio dan algoritma garis dasar pada penjanaan imej berbilang orang
Strategi latihan
Pasukan Tencent mereka bentuk strategi latihan untuk FaceStudio yang menyasarkan pembinaan semula imej manusia. Dengan pendekatan ini, mereka menggunakan imej asal dengan kawasan muka bertopeng sebagai input kepada imej manusia yang digayakan, dan pada masa yang sama menggunakan wajah yang dipotong daripada imej yang sama sebagai input kepada identiti. Dengan cara ini, model dapat mengekalkan identiti orang tersebut dengan lebih tepat apabila menjana imej bimbingan. Berbeza daripada kaedah latihan model generatif sedia ada, kaedah ini hanya bergantung pada potret sebagai data latihan dan tidak memerlukan anotasi teks, yang mengurangkan pergantungan pada data beranotasi. Ia boleh menyesuaikan diri dengan lebih baik kepada pelbagai gaya potret
FaceStudio menunjukkan kelebihan uniknya dengan menilai persamaan wajah dan masa penjanaan potret. Keputusan percubaan menunjukkan bahawa FaceStudio mengambil masa kurang daripada 4 saat untuk menjana satu potret, manakala DreamBooth, algoritma popular berdasarkan pengoptimuman, mengambil masa sehingga 6 minit. Pada masa yang sama, FaceStudio lebih baik mengekalkan ciri potret dan mempunyai persamaan wajah yang lebih baik. Keputusan percubaan dibandingkan seperti berikut:
Para penyelidik membandingkan FaceStudio dengan algoritma model penjanaan potret terbaik semasa, menggunakan imej yang sama seperti sampel. Hasil perbandingan menunjukkan bahawa FaceStudio mencapai tahap keputusan yang lebih baik atau sama pada hampir semua sampel. Ini seterusnya membuktikan bahawa FaceStudio mempunyai prestasi keteguhan dan generalisasi yang kuat. Keputusan perbandingan khusus adalah seperti berikut:
🎜Di samping itu, pelbagai aplikasi penjanaan imej wajah yang unik ditunjukkan dalam eksperimen FaceStudo, termasuk penjanaan berpandu pengadunan identiti dan penggabungan imej teks
Eksperimen penjanaan imej berpandu teks dan imej
Sampel potret yang dihasilkan oleh FaceStudio mempunyai pelbagai gaya
Ringkasan
Atas ialah kandungan terperinci Treler GTA6 telah dimainkan lebih daripada 1 bilion kali, dan gergasi AI boleh dengan cepat memasuki peranan gangster GTA. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!