Rumah >Peranti teknologi >AI >Apabila 'membahagikan segala-galanya' memenuhi pembaikan imej: tidak perlu penandaan halus, klik pada objek untuk mencapai penyingkiran objek, pengisian kandungan dan penggantian pemandangan

Apabila 'membahagikan segala-galanya' memenuhi pembaikan imej: tidak perlu penandaan halus, klik pada objek untuk mencapai penyingkiran objek, pengisian kandungan dan penggantian pemandangan

WBOY
WBOYke hadapan
2023-04-30 14:49:06827semak imbas

Pada awal April, Meta mengeluarkan model pembahagian imej asas pertama dalam sejarah - SAM (Model Apa-apa Segmen) [1]. Sebagai model segmentasi, SAM mempunyai keupayaan berkuasa dan sangat mesra pengguna Contohnya, jika pengguna hanya mengklik untuk memilih objek yang sepadan, objek akan dibahagikan serta-merta, dan hasil segmentasi adalah sangat tepat. Mulai 15 April, repositori GitHub SAM mempunyai kiraan bintang sebanyak 26k.

Apabila membahagikan segala-galanya memenuhi pembaikan imej: tidak perlu penandaan halus, klik pada objek untuk mencapai penyingkiran objek, pengisian kandungan dan penggantian pemandangan

Cara memanfaatkan model "split everything" yang begitu berkuasa dan mengembangkannya kepada senario aplikasi dengan keperluan yang lebih praktikal adalah penting. . Sebagai contoh, apakah jenis percikan api yang akan muncul apabila SAM memenuhi tugasan praktikal dalam lukisan imej (Image Inpainting)?

Pasukan penyelidik dari Universiti Sains dan Teknologi China dan Institut Pengajian Lanjutan Sains dan Teknologi Timur memberikan jawapan yang menakjubkan. Berdasarkan SAM, mereka mencadangkan model "Inpaint Anything" (IA). Berbeza daripada model pembaikan imej tradisional, model IA tidak memerlukan operasi terperinci untuk menjana topeng dan menyokong penandaan objek terpilih dengan satu klik IA boleh mencapai Alih Keluar Apa-apa dan isi semua kandungan ( Isi Apa-apa) dan Ganti. Apa-apa sahaja , meliputi pelbagai senario aplikasi pembaikan imej biasa termasuk penyingkiran sasaran, pengisian sasaran, penggantian latar belakang, dsb.

Apabila membahagikan segala-galanya memenuhi pembaikan imej: tidak perlu penandaan halus, klik pada objek untuk mencapai penyingkiran objek, pengisian kandungan dan penggantian pemandangan

  • Pautan kertas: http://arxiv.org/abs/2304.06790
  • Pautan perpustakaan kod: https://github.com/geekyutao/Inpaint-Anything

Pengenalan kaedah

Walaupun sistem pengecatan imej semasa telah mencapai kemajuan yang ketara, mereka masih menghadapi kesukaran dalam memilih imej topeng dan mengisi lubang. Berdasarkan SAM, penyelidik mencuba buat kali pertama pembaikan imej Tanpa Topeng dan membina "Mengklik dan Mengisi" Paradigma baharu dalam tampalan imej, yang mereka panggil Inpaint Anything (IA). Idea teras di sebalik IA adalah untuk menggabungkan kelebihan model yang berbeza untuk membina sistem pembaikan imej yang berkuasa dan mesra pengguna .

IA mempunyai tiga fungsi utama: (i) Alih Keluar Apa-apa: Pengguna hanya perlu klik pada objek yang ingin dialih keluar, dan IA akan mengeluarkannya tanpa meninggalkan jejak Objek untuk mencapai kecekapan "penyingkiran ajaib"; (ii) Isi Apa-apa: Pada masa yang sama, pengguna boleh memberitahu IA lagi apa yang mereka mahu isikan objek melalui gesaan teks (Text Prompt), dan IA kemudiannya akan memacu AIGC (AI-Generated). Kandungan) model (seperti Stable Diffusion [2]) menjana objek penuh kandungan yang sepadan untuk merealisasikan "penciptaan kandungan" sesuka hati (iii) Gantikan Apa-apa: Pengguna juga boleh mengklik untuk memilih objek yang perlu dikekalkan dan menggunakan gesaan teks; untuk memberitahu IA apa yang anda ingin gantikan latar belakang objek, maka anda boleh menggantikan latar belakang objek dengan kandungan yang ditentukan untuk mencapai "transformasi persekitaran" yang jelas. Rangka kerja keseluruhan IA ditunjukkan dalam rajah di bawah:

Apabila membahagikan segala-galanya memenuhi pembaikan imej: tidak perlu penandaan halus, klik pada objek untuk mencapai penyingkiran objek, pengisian kandungan dan penggantian pemandangan

Inpaint Anything (IA) gambar rajah. Pengguna boleh memilih mana-mana objek dalam imej dengan mengklik padanya. Memanfaatkan model penglihatan yang berkuasa seperti SAM [1], LaMa [3] dan Stable Diffusion (SD) [3], IA dapat mengalih keluar objek terpilih dengan lancar (iaitu, Alih Keluar Apa-apa). Selanjutnya, dengan memasukkan gesaan teks ke dalam IA, pengguna boleh mengisi objek dengan apa-apa kandungan yang dikehendaki (iaitu, Isi Apa-apa) atau sewenang-wenangnya menggantikan objek objek (iaitu, Gantikan Apa-apa).

Alih keluar semuanya

Apabila membahagikan segala-galanya memenuhi pembaikan imej: tidak perlu penandaan halus, klik pada objek untuk mencapai penyingkiran objek, pengisian kandungan dan penggantian pemandangan

Alih Keluar Apa-apa rajah

Langkah-langkah "Alih Keluar Semuanya" adalah seperti berikut :

  • Langkah 1: Pengguna mengklik pada objek yang ingin dialih keluar;
  • Langkah 3: Model lukisan imej (LaMa) mengisi objek.
  • Isi segalanya

Apabila membahagikan segala-galanya memenuhi pembaikan imej: tidak perlu penandaan halus, klik pada objek untuk mencapai penyingkiran objek, pengisian kandungan dan penggantian pemandangan

Isi rajah Apa-apa, gesaan teks yang digunakan dalam gambar: teddy bear di atas bangku

Langkah "Isi Apa-apa" Seperti berikut:

Langkah 1: Pengguna mengklik pada objek yang ingin dialih keluar; keluar;

  • Langkah 3: Pengguna menunjukkan kandungan yang ingin mereka isi melalui teks; model tampalan (Stable Diffusion) mengisi objek berdasarkan teks yang dibekalkan pengguna.
  • Ganti Semuanya
  • Gantikan Apa-apa rajah, gesaan teks yang digunakan dalam gambar: seorang lelaki dalam pejabat

Langkah-langkah untuk "mengisi segalanya" adalah seperti berikut:

Langkah 1: Klik pengguna Objek yang anda ingin alih keluar; ingin menggantikan; Langkah 4: Model tampalan imej (Stable Diffusion) berdasarkan gesaan teks menggantikan latar belakang objek berdasarkan teks yang disediakan oleh pengguna.

Hasil model

  • Para penyelidik kemudian menggunakan set data COCO [4], set data ujian LaMa [3] dan foto definisi tinggi 2K mereka sendiri diambil dengan telefon bimbit mereka Uji Inpaint Anything pada imej. Perlu diingat bahawa Model penyelidik juga menyokong imej definisi tinggi 2K dan sebarang nisbah aspek, yang membolehkan sistem IA mencapai aplikasi migrasi yang cekap dalam pelbagai persekitaran penyepaduan dan rangka kerja sedia ada
  • .
  • Alih keluar semua hasil percubaan

Isi semua keputusan percubaan

Gesaan teks: a kanta kamera di tanganApabila membahagikan segala-galanya memenuhi pembaikan imej: tidak perlu penandaan halus, klik pada objek untuk mencapai penyingkiran objek, pengisian kandungan dan penggantian pemandangan

Apabila membahagikan segala-galanya memenuhi pembaikan imej: tidak perlu penandaan halus, klik pada objek untuk mencapai penyingkiran objek, pengisian kandungan dan penggantian pemandangan

Gesaan teks: kapal pengangkut pesawat di laut

Apabila membahagikan segala-galanya memenuhi pembaikan imej: tidak perlu penandaan halus, klik pada objek untuk mencapai penyingkiran objek, pengisian kandungan dan penggantian pemandangan

Gesaan teks: kereta sukan di jalan raya

Apabila membahagikan segala-galanya memenuhi pembaikan imej: tidak perlu penandaan halus, klik pada objek untuk mencapai penyingkiran objek, pengisian kandungan dan penggantian pemandangan

Gesaan teks: lukisan Picasso di dinding

Gantikan semua keputusan percubaan

Apabila membahagikan segala-galanya memenuhi pembaikan imej: tidak perlu penandaan halus, klik pada objek untuk mencapai penyingkiran objek, pengisian kandungan dan penggantian pemandangan

Gesaan teks: duduk di buaian

Apabila membahagikan segala-galanya memenuhi pembaikan imej: tidak perlu penandaan halus, klik pada objek untuk mencapai penyingkiran objek, pengisian kandungan dan penggantian pemandangan

Gesaan teks: sarapan pagi

Apabila membahagikan segala-galanya memenuhi pembaikan imej: tidak perlu penandaan halus, klik pada objek untuk mencapai penyingkiran objek, pengisian kandungan dan penggantian pemandangan

Gesaan teks: bas, di tengah jalan desa , musim panas

Apabila membahagikan segala-galanya memenuhi pembaikan imej: tidak perlu penandaan halus, klik pada objek untuk mencapai penyingkiran objek, pengisian kandungan dan penggantian pemandangan

Gesaan teks: persimpangan di bandar

Ringkasan

Para penyelidik mewujudkan projek yang menarik untuk menunjukkan keupayaan berkuasa yang boleh diperolehi dengan menggunakan sepenuhnya model kecerdasan buatan berskala besar sedia ada, dan untuk mendedahkan potensi tanpa had "kepintaran buatan boleh dikomposisi" (Composable AI ). Inpaint Anything (IA) yang dicadangkan oleh projek itu ialah sistem pembaikan imej pelbagai fungsi yang menyepadukan penyingkiran objek, pengisian kandungan, penggantian pemandangan dan fungsi lain (lebih banyak fungsi sedang dalam perjalanan, jadi nantikan).

IA menggabungkan model asas visual seperti SAM, model lukisan dalam imej (seperti LaMa) dan model AIGC (seperti Stable Diffusion) untuk mencapai pembaikan imej tanpa topeng mesra pengguna, dan juga menyokong "gaya bodoh" operasi mesra pengguna seperti "klik untuk memadam dan gesa untuk mengisi". Selain itu, IA boleh memproses imej dengan nisbah aspek sewenang-wenangnya dan resolusi 2K HD, tanpa mengira kandungan asal imej tersebut.

Pada masa ini, projek telah menjadi sumber terbuka sepenuhnya . Akhir sekali, semua orang dialu-alukan untuk berkongsi dan mempromosikan Inpaint Anything (IA), dan saya tidak sabar untuk melihat lebih banyak projek baharu berdasarkan IA. Pada masa hadapan, penyelidik akan meneroka lebih lanjut potensi Inpaint Anything (IA) untuk menyokong fungsi baharu yang lebih praktikal, seperti potongan imej yang halus, pengeditan, dsb., dan menerapkannya pada lebih banyak aplikasi dunia nyata.

Atas ialah kandungan terperinci Apabila 'membahagikan segala-galanya' memenuhi pembaikan imej: tidak perlu penandaan halus, klik pada objek untuk mencapai penyingkiran objek, pengisian kandungan dan penggantian pemandangan. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!

Kenyataan:
Artikel ini dikembalikan pada:51cto.com. Jika ada pelanggaran, sila hubungi admin@php.cn Padam