Rumah > Artikel > Peranti teknologi > "Menggunakan teknologi Stable Diffusion untuk menghasilkan semula imej, penyelidikan berkaitan telah diterima oleh persidangan CVPR"
Bagaimana jika kecerdasan buatan dapat membaca imaginasi anda dan mengubah imej dalam kepala anda menjadi realiti?
Namun ini kedengaran agak cyberpunk. Tetapi kertas kerja yang diterbitkan baru-baru ini telah menyebabkan kekecohan dalam kalangan AI.
Kertas kerja ini mendapati bahawa mereka menggunakan Stable Diffusion yang sangat popular baru-baru ini untuk membina semula aktiviti otak resolusi tinggi Kecekapan tinggi, imej berketepatan tinggi. Penulis menulis bahawa tidak seperti kajian terdahulu, mereka tidak perlu melatih atau memperhalusi model kecerdasan buatan untuk mencipta imej ini.
Bagaimana mereka melakukannya?
Dalam kajian ini, penulis menggunakan Stable Diffusion untuk membina semula imej aktiviti otak manusia yang diperoleh melalui pengimejan resonans magnetik berfungsi (fMRI). Penulis juga menyatakan bahawa ia juga berguna untuk memahami mekanisme model resapan terpendam dengan mengkaji pelbagai komponen fungsi berkaitan otak (seperti vektor terpendam imej Z, dsb.).
Kertas kerja ini juga telah diterima oleh CVPR 2023.
Sumbangan utama kajian ini termasuk:
Rajah 2 (bawah) ialah gambarajah skematik analisis pengekodan kajian ini. Kami membina model pengekodan untuk meramal isyarat fMRI daripada komponen LDM yang berbeza, termasuk z, c dan z_c.
Saya tidak akan memperkenalkan terlalu banyak tentang Stable Diffusion di sini, saya percaya ramai yang sudah biasa dengannya.
Keputusan
Mari kita lihat hasil pembinaan semula visual kajian ini.
Rajah 3 di bawah menunjukkan hasil pembinaan semula visual bagi subjek (subj01). Kami menghasilkan lima imej untuk setiap imej ujian dan memilih imej dengan PSM tertinggi. Di satu pihak, imej yang dibina semula hanya menggunakan z adalah konsisten secara visual dengan imej asal tetapi gagal menangkap kandungan semantiknya. Sebaliknya, imej yang dibina semula dengan hanya c menghasilkan imej dengan kesetiaan semantik yang tinggi tetapi tidak konsisten secara visual. Akhir sekali, menggunakan imej z_c yang dibina semula boleh menghasilkan imej resolusi tinggi dengan kesetiaan semantik yang tinggi.
Rajah 4 menunjukkan imej yang dibina semula bagi imej yang sama oleh semua penguji (semua imej dijana dengan z_c) . Secara keseluruhannya, kualiti pembinaan semula merentas penguji adalah stabil dan tepat.
Rajah 5 ialah hasil penilaian kuantitatif:
Model pengekodan
Rajah 6 menunjukkan pasangan model pengekodan yang berkaitan dengan LDM Ketepatan ramalan bagi tiga imej terpendam: z, imej terpendam bagi imej asal c, imej terpendam anotasi teks imej dan z_c, perwakilan imej terpendam yang bising selepas proses resapan belakang perhatian silang dengan c.
Rajah 7 menunjukkan bahawa z meramalkan aktiviti voxel merentas korteks lebih baik daripada z_c apabila sejumlah kecil hingar ditambah. Menariknya, z_c meramalkan aktiviti voxel dalam korteks visual tinggi lebih baik daripada z apabila meningkatkan tahap hingar, menunjukkan bahawa kandungan semantik imej ditekankan secara beransur-ansur.
Bagaimanakah gambaran asas bunyi tambahan berubah semasa penyahnosan berulang? Rajah 8 menunjukkan bahawa pada peringkat awal proses denoising, isyarat z mendominasi ramalan isyarat fMRI. Pada peringkat pertengahan proses denoising, z_c meramalkan aktiviti dalam korteks visual tinggi jauh lebih baik daripada z, menunjukkan bahawa kebanyakan kandungan semantik muncul pada peringkat ini. Hasilnya menunjukkan cara LDM menapis dan menjana imej daripada hingar.
Akhir sekali, penyelidik meneroka maklumat yang diproses oleh setiap lapisan U-Net. Rajah 9 menunjukkan keputusan langkah yang berbeza bagi proses penyahnosan (awal, pertengahan, lewat) dan model pengekodan lapisan berbeza U-Net. Pada peringkat awal proses denoising, lapisan bottleneck U-Net (oren) menghasilkan prestasi ramalan tertinggi di seluruh korteks. Walau bagaimanapun, apabila denoising berterusan, lapisan awal U-Net (biru) meramalkan aktiviti dalam korteks visual awal, manakala lapisan kesesakan beralih kepada kuasa ramalan yang unggul untuk korteks visual yang lebih tinggi.
Untuk butiran penyelidikan lanjut, sila lihat kertas asal.
Atas ialah kandungan terperinci "Menggunakan teknologi Stable Diffusion untuk menghasilkan semula imej, penyelidikan berkaitan telah diterima oleh persidangan CVPR". Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!