Rumah >Peranti teknologi >AI >Keupayaan AI visual bersatu! Pengesanan dan pembahagian imej automatik, dan imej Vincentian yang boleh dikawal, yang dihasilkan oleh pasukan China

Keupayaan AI visual bersatu! Pengesanan dan pembahagian imej automatik, dan imej Vincentian yang boleh dikawal, yang dihasilkan oleh pasukan China

王林ke hadapan: 2023-04-12 17:31:171195semak imbas

Artikel ini dicetak semula dengan kebenaran AI New Media Qubit (ID akaun awam: QbitAI Sila hubungi sumber untuk mencetak semula).

Kini tiba masanya untuk bulatan AI bersaing dengan kelajuan tangan.

Tidak, SAM Meta baru sahaja dilancarkan beberapa hari yang lalu, dan pengaturcara domestik telah datang dengan gelombang tindanan buff, termasuk pengesanan sasaran, pembahagian dan penjanaan fungsi AI visual semuanya dalam satu!

Sebagai contoh, berdasarkan Stable Diffusion dan SAM, anda boleh menggantikan kerusi dalam foto dengan sofa dengan lancar:

Keupayaan AI visual bersatu! Pengesanan dan pembahagian imej automatik, dan imej Vincentian yang boleh dikawal, yang dihasilkan oleh pasukan China

Ia juga sangat mudah untuk tukar baju dan warna rambut :

Keupayaan AI visual bersatu! Pengesanan dan pembahagian imej automatik, dan imej Vincentian yang boleh dikawal, yang dihasilkan oleh pasukan China

Sebaik sahaja projek itu dikeluarkan, ramai yang berseru: Laju tangan terlalu laju!

Keupayaan AI visual bersatu! Pengesanan dan pembahagian imej automatik, dan imej Vincentian yang boleh dikawal, yang dihasilkan oleh pasukan China

Orang lain berkata: Ada gambar perkahwinan baharu saya dan Yui Aragaki.

Keupayaan AI visual bersatu! Pengesanan dan pembahagian imej automatik, dan imej Vincentian yang boleh dikawal, yang dihasilkan oleh pasukan China

Di atas ialah kesan yang dibawa oleh Gounded-SAM Projek ini telah menerima 1.8k bintang di GitHub.

Ringkasnya, ini adalah aplikasi penglihatan sifar tangkapan yang hanya perlu memasukkan imej untuk mengesan dan membahagikan imej secara automatik.

Penyelidikan ini datang daripada Institut Penyelidikan IDEA (Institut Penyelidikan Ekonomi Digital Kawasan Teluk Guangdong-Hong Kong-Macao), yang pengasas dan pengerusinya ialah Shun Xiangyang.

Tiada latihan tambahan diperlukan

Grounded SAM terutamanya terdiri daripada dua model: Grounding DINO dan SAM.

Antaranya SAM (Segmen Anything) ialah model segmentasi sampel sifar yang baru dilancarkan oleh Meta 4 hari lalu.

Ia boleh menjana topeng untuk sebarang objek dalam imej/video, termasuk objek dan imej yang belum muncul semasa proses latihan.

Dengan meminta SAM memulangkan topeng yang sah untuk sebarang gesaan, model boleh mengeluarkan topeng yang munasabah di antara semua kemungkinan, walaupun gesaan itu samar-samar atau menunjuk kepada berbilang objek. Tugasan ini digunakan untuk melatih model dan menyelesaikan tugasan segmentasi hiliran umum melalui pembayang.

Rangka kerja model terutamanya terdiri daripada pengekod imej, pengekod pembayang dan penyahkod topeng pantas. Selepas mengira pembenaman imej, SAM dapat menjana pembahagian berdasarkan sebarang gesaan dalam web dalam masa 50 milisaat.

Keupayaan AI visual bersatu! Pengesanan dan pembahagian imej automatik, dan imej Vincentian yang boleh dikawal, yang dihasilkan oleh pasukan China

Grounding DINO ialah pencapaian sedia ada pasukan penyelidik ini.

Ini ialah model pengesanan sifar tangkapan yang boleh menjana kotak objek dan label dengan penerangan teks.

Keupayaan AI visual bersatu! Pengesanan dan pembahagian imej automatik, dan imej Vincentian yang boleh dikawal, yang dihasilkan oleh pasukan China

Selepas menggabungkan kedua-duanya, anda boleh menemui sebarang objek dalam gambar melalui penerangan teks, dan kemudian menggunakan keupayaan segmentasi berkuasa SAM untuk membahagikan topeng dalam butiran halus cara.

Keupayaan AI visual bersatu! Pengesanan dan pembahagian imej automatik, dan imej Vincentian yang boleh dikawal, yang dihasilkan oleh pasukan China

Selain kebolehan ini, mereka juga menambah keupayaan Stable Diffusion, iaitu penjanaan imej terkawal yang ditunjukkan pada mulanya.

Perlu dinyatakan bahawa Stable Diffusion telah dapat mencapai fungsi yang sama sebelum ini. Hanya padamkan elemen imej yang ingin anda gantikan dan masukkan gesaan teks.

Kali ini, Grounded SAM boleh menyimpan langkah pemilihan manual dan mengawalnya terus melalui penerangan teks.

Selain itu, digabungkan dengan BLIP (Bootstrapping Language-Image Pra-latihan), ia menjana tajuk imej, mengekstrak label, dan kemudian menjana kotak objek dan topeng.

Pada masa ini, terdapat lebih banyak ciri menarik yang sedang dibangunkan.

Contohnya, beberapa pengembangan watak: menukar pakaian, warna rambut, warna kulit, dsb.

Keupayaan AI visual bersatu! Pengesanan dan pembahagian imej automatik, dan imej Vincentian yang boleh dikawal, yang dihasilkan oleh pasukan China

Kaedah makan khusus mempunyai juga telah Diberikan pada GitHub. Projek ini memerlukan Python 3.8 ke atas, pytorch 1.7 ke atas, torchvision 0.8 ke atas dan kebergantungan yang berkaitan mesti dipasang. Sila lihat halaman projek GitHub untuk kandungan tertentu.

Pasukan penyelidik adalah daripada Institut Penyelidikan IDEA (Institut Penyelidikan Ekonomi Digital Kawasan Teluk Guangdong-Hong Kong-Macao).

Maklumat awam menunjukkan bahawa institut itu ialah sebuah institusi penyelidikan inovatif antarabangsa untuk kecerdasan buatan, industri ekonomi digital dan teknologi canggih bekas ketua saintis Microsoft Asia Research Institute dan bekas naib presiden Microsoft Global Intelligence Shen Xiangyang Dr. . berkhidmat sebagai pengasas dan pengerusi.

One More Thing

Untuk kerja masa depan Grounded SAM, pasukan mempunyai beberapa prospek:

Menjana imej secara automatik untuk membentuk set data baharu
Model asas yang berkuasa dengan pra-latihan segmentasi
bekerjasama dengan (Chat-)GPT
untuk membentuk saluran paip yang menjana label imej, kotak dan topeng secara automatik serta boleh menjana imej baharu .

Perlu dinyatakan bahawa ramai ahli pasukan projek ini adalah responden aktif dalam bidang AI pada Zhihu Kali ini mereka juga menjawab soalan mengenai Grounded SAM pada Zhihu boleh tinggalkan mesej untuk nasihat~

Keupayaan AI visual bersatu! Pengesanan dan pembahagian imej automatik, dan imej Vincentian yang boleh dikawal, yang dihasilkan oleh pasukan China

Atas ialah kandungan terperinci Keupayaan AI visual bersatu! Pengesanan dan pembahagian imej automatik, dan imej Vincentian yang boleh dikawal, yang dihasilkan oleh pasukan China. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!

Python 对象 github idea 人工智能 pytorch stable diffusion 自动化 gpt

Kenyataan：

Artikel ini dikembalikan pada:51cto.com. Jika ada pelanggaran, sila hubungi admin@php.cn Padam

Artikel sebelumnya：Dalam satu ayat, model 3D boleh menjana gaya penampilan yang realistik, sehingga butiran peringkat foto.Artikel seterusnya：Dalam satu ayat, model 3D boleh menjana gaya penampilan yang realistik, sehingga butiran peringkat foto.

Artikel berkaitan

Lihat lagi