Rumah > Artikel > Peranti teknologi > Gajah P berpusing dan bekerja terus dari kotak! HKU, NTU, Universiti Tsinghua, dsb. ialah yang pertama membuka sumber versi "replika" DragGAN
Adakah anda masih ingat DragGAN dikeluarkan beberapa hari lalu?
Ya, ini adalah alat yang membolehkan anda mengedit gambar dalam masa dua saat sahaja.
Foto yang anda ambil mempunyai ekspresi yang buruk? bina! Bentuk muka tak cukup kurus? bina! Adakah wajah anda menghadap kamera pada sudut yang salah? bina!
Mungkin, jenaka PS kuno "Biar gajah berpusing", Mungkin menjadi kenyataan
Sebaik sahaja video demonstrasi alat penyunting foto AI ini dikeluarkan, ia menjadi popular segera di dalam dan luar negara.
Ramai netizen berkata, "PS tidak wujud lagi."
Hanya dalam beberapa hari, pelaksanaan tidak rasmi DragGAN telah tersedia untuk kegunaan percubaan. Fungsi ini telah disepadukan ke dalam InternGPT, dan antara muka kelihatan seperti ini↓
Alamat pengalaman: https: //igpt.opengvlab.com/
Tanpa disangka, sebaik sahaja pintu masuk demo dibuka, langsung sesak.
Berdasarkan video demonstrasi rasmi, kesan DragGAN yang diterbitkan semula adalah menakjubkan.
Tersenyum
Pertama sekali, bagaimana untuk membuat seseorang tersenyum yang tidak tersenyum? Hanya pilih dua sudut mulut dan seretnya terus.
Seperti yang anda lihat, keputusan akhir tidak mempunyai rasa pelanggaran. Kerana otot muka juga berubah bersama, bukan hanya senyuman.
Tutup mulut
Suntingan Muka
Semua orang sangat mengenali fungsi pelangsingan muka ini Anda boleh memilih dua muka dan memerahnya, dan hasilnya akan menjadi sangat semula jadi.
Melangsingkan muka lelaki. Tetapi yang ini agak terlalu nipis, keluarannya palsu pada pandangan pertama, dan dagu terlalu runcing.
Ini mesti sangat disyorkan! Pemindahan rambut! Alangkah bahagianya orang botak.
Namun, jika dilihat dari hasil keluaran, walaupun dahi dipilih, rambut akan tumbuh sama rata di semua tempat.
Memusing muka
Memusing muka juga merupakan fungsi yang sangat praktikal, dan bahagian pengisiannya sangat semula jadi.
Selain penyuntingan foto berskala kecil, InternGPT sendiri mempunyai banyak lagi operasi menarik yang boleh dilakukan.
Alih keluar objek bertutup
Klik pada bahagian gambar yang anda ingin kendalikan, Hanya masukkan "alih keluar" dalam gesaan.
Penjanaan imej
Fungsi ini lebih menarik mula-mula muat naik imej, masukkan gesaan untuk membenarkan DragGAN Pisahkannya, dan kemudian masukkan gesaan untuk menjana gambar yang diingini.
Kaki hitam terdedah? (Tidak)
Anda juga boleh mengedit video dengan satu klik menggunakan gesaan.
Soal jawab visual interaktif
Walaupun selepas mengenali maklumat mengenai gambar Anda juga boleh bertanya secara terus dalam talian.
Penjanaan imej interaktif
Anda boleh mencoret dengan hanya satu klik Menjadi gambar yang cantik.
Apa pun, editor benar-benar terkejut selepas melihat fungsi-fungsi ini. Semua fungsi menyerlahkan dua ciri: "operasi seperti bodoh dan utiliti muktamad."
Siapa yang tidak suka ini?
Selepas melihat begitu banyak ciri hebat, apakah sebenarnya InternGPT?
InternGPT (pendek kata iGPT)/InternChat (pendek kata iChat) ialah sistem interaksi visual yang didorong oleh bahasa penunjuk. Pengguna boleh berinteraksi dengan ChatGPT dengan mengklik, menyeret dan melukis.
Berbeza dengan sistem interaksi sedia ada yang bergantung pada bahasa tulen, dengan menyepadukan arahan penunjuk, iGPT meningkatkan kecekapan komunikasi antara pengguna dan chatbot dengan ketara, serta keupayaan chatbots untuk melaksanakan vision-centric ketepatan tugas, terutamanya dalam adegan visual yang kompleks.
Alamat kertas: https://arxiv.org/pdf/2305.05662.pdf
Gambar di bawah menunjukkan keseluruhan seni bina InternGPT.
Kita dapat lihat bahawa GPT ini boleh memproses bukan sahaja imej dan video, tetapi juga suara dan teks.
Untuk input imej atau video, InternGPT akan menggunakan SAM (model segmentasi imej), OCR (model pengecaman imej), dll. untuk memprosesnya.
Selepas mengenal pasti lokasi geografi, objek atau garisan, terdapat seluruh kotak alat untuk pemprosesan selanjutnya, termasuk alatan biasa.
Seperti BLIP (audio), Stable Diffusion (imej), Pix2Pix (terjemahan imej), dsb.
Begitu juga, untuk input teks atau suara, InternGPT akan memanggil GPT-4, LLaMA dan model atau alatan lain untuk pemprosesan, dan juga akan ada keseluruhan kotak alat kemudian.
Seni bina keseluruhan InternGPT
Keseluruhan proses juga sangat mudah semasa digunakan.
Selepas imej berjaya dimuat naik, pengguna boleh menghantar mesej berikut untuk mengadakan perbualan berkaitan pelbagai mod dengan iGPT:
"what is it in the image?" or "what is the background color of image?".
Begitu juga , pengguna juga boleh Anda boleh mengendalikan, mengedit atau menjana gambar secara interaktif, seperti berikut:
· Klik mana-mana sahaja pada gambar, dan kemudian tekan butang Pilih untuk pratonton kawasan yang dibahagikan. Anda juga boleh menekan butang OCR untuk mengenal pasti semua perkataan yang terdapat di lokasi tertentu
· Untuk mengalih keluar kawasan bertopeng daripada imej, hantar mesej berikut:
“remove the masked region”;
· Untuk menggantikan objek bertopeng dalam imej dengan objek lain, anda boleh menghantar mesej berikut:
“replace the masked region with {your prompt}”
· Untuk menjana imej baharu, anda boleh menghantar mesej berikut:
“generate a new image based on its segmentation describing {your prompt}”
· Untuk mencipta imej baharu dengan mencoret, tekan Papan Putih dan lukis pada papan putih. Selepas lukisan selesai, anda perlu menekan butang simpan dan hantar mesej berikut:
“generate a new image based on this scribble describing {your prompt}”
Itu DragGAN yang mengejutkan Terdapat versi tidak rasmi sekarang. Versi rasmi akan dikeluarkan pada bulan Jun, ini hanyalah pratonton masa depan.
DragGAN telah disepadukan ke dalam InternGPT, dan ia keluar dengan begitu pantas.
Atas ialah kandungan terperinci Gajah P berpusing dan bekerja terus dari kotak! HKU, NTU, Universiti Tsinghua, dsb. ialah yang pertama membuka sumber versi "replika" DragGAN. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!