cari
RumahPeranti teknologiAI'Portal Kawalan Adegan: Teleportasi Objek Empat dalam satu, Dihantar & Dihasilkan Semut'

Dalam operasi pengeditan imej biasa, sintesis imej merujuk kepada proses menggabungkan objek latar depan satu imej dengan imej latar belakang yang lain untuk menghasilkan imej komposit. Imej gabungan secara visual serupa dengan memindahkan objek latar depan dari satu imej ke imej latar belakang yang lain, seperti yang ditunjukkan di bawah

Portal Kawalan Adegan: Teleportasi Objek Empat dalam satu, Dihantar & Dihasilkan Semut

Sintesis imej digunakan secara meluas dalam penciptaan seni, reka bentuk poster, e-dagang, realiti maya, penambahan data dan bidang lain

Mungkin terdapat banyak masalah dalam imej komposit yang diperolehi dengan potong dan tampal ringkas. Dalam kerja penyelidikan terdahulu, sintesis imej memperoleh subtugas yang berbeza untuk menyelesaikan submasalah yang berbeza masing-masing. Pengadunan imej, sebagai contoh, bertujuan untuk menyelesaikan sempadan luar tabii antara latar depan dan latar belakang. Pengharmonian imej bertujuan untuk melaraskan pencahayaan latar depan supaya ia selaras dengan latar belakang. Pelarasan perspektif bertujuan untuk melaraskan pose latar depan supaya sepadan dengan latar belakang. Peletakan objek bertujuan untuk meramalkan lokasi, saiz dan sudut perspektif yang sesuai untuk objek latar depan. Penjanaan bayang-bayang bertujuan untuk menghasilkan bayang-bayang yang munasabah untuk objek latar depan di latar belakang

Seperti yang ditunjukkan dalam rajah di bawah, kerja penyelidikan terdahulu melaksanakan sub-tugas di atas secara bersiri atau selari untuk mendapatkan imej sintesis yang realistik dan semula jadi . Dalam rangka kerja bersiri, kami boleh melaksanakan beberapa subtugas secara terpilih mengikut keperluan sebenar

Dalam rangka kerja selari, kaedah yang popular pada masa ini ialah menggunakan model resapan. Ia menerima imej latar belakang dengan kotak sempadan latar depan dan imej objek latar depan sebagai input dan secara langsung menjana imej komposit akhir. Ini boleh menjadikan objek latar depan dan imej latar belakang digabungkan dengan lancar, kesan pencahayaan dan bayang-bayang adalah munasabah, dan postur disesuaikan dengan latar belakang

Rangka kerja selari ini adalah bersamaan dengan melaksanakan berbilang subtugas pada masa yang sama dan tidak boleh. laksanakan beberapa subtugas secara terpilih. Tugas itu tidak boleh dikawal dan mungkin membawa perubahan yang tidak perlu atau tidak munasabah pada postur atau warna objek latar depan

Apa yang perlu ditulis semula ialah:

# 🎜 🎜#Portal Kawalan Adegan: Teleportasi Objek Empat dalam satu, Dihantar & Dihasilkan Semut
Untuk meningkatkan kebolehkawalan rangka kerja selari dan secara terpilih melaksanakan beberapa sub-tugas, kami mencadangkan model gubahan imej terkawal Komposisi Imej Terkawal (ControlCom). Seperti yang ditunjukkan dalam rajah di bawah, kami menggunakan vektor penunjuk sebagai maklumat keadaan model resapan untuk mengawal sifat objek latar depan dalam imej komposit. Vektor petunjuk ialah vektor perduaan dua dimensi, di mana setiap dimensi mengawal sama ada untuk melaraskan atribut pencahayaan dan atribut postur objek latar depan masing-masing, dengan 1 bermaksud pelarasan dan 0 bermaksud pengekalan. (0 ,0) bermaksud tidak mengubah pencahayaan latar depan mahupun postur latar depan, tetapi hanya menyepadukan objek dengan lancar ke dalam imej latar belakang, yang bersamaan dengan pengadunan imej. (1,0) bermakna hanya menukar pencahayaan latar depan untuk menjadikannya harmoni dengan latar belakang dan mengekalkan postur latar depan, yang bersamaan dengan penyelarasan imej. (0,1) bermakna hanya menukar postur latar depan untuk dipadankan dengan latar belakang dan mengekalkan pencahayaan latar depan, yang bersamaan dengan pelarasan perspektif (sintesis paparan). (1,1) bermaksud menukar pencahayaan dan postur latar depan pada masa yang sama, yang bersamaan dengan sintesis imej selari yang tidak terkawal semasa

Kami menggabungkan empat tugasan ke dalam rangka kerja yang sama dan merealisasikan empat- dalam-satu objek melalui vektor penunjuk Fungsi portal boleh mengangkut objek ke lokasi tertentu di tempat kejadian. Kerja ini telah disiapkan oleh Shanghai Jiao Tong University dan Ant Group Kod dan model akan menjadi sumber terbuka tidak lama lagi. /bcmi/ControlCom-Image-Composition

Dalam gambar di bawah, kami Menunjukkan fungsi sintesis imej yang boleh dikawal

Portal Kawalan Adegan: Teleportasi Objek Empat dalam satu, Dihantar & Dihasilkan Semut
Dalam lajur kiri, postur objek latar depan pada asalnya disesuaikan dengan imej latar belakang, dan pengguna mungkin mahu mengekalkan sikap postur objek latar depan. Kaedah sebelumnya PbE [1] dan ObjectStitch [2] akan membuat perubahan yang tidak perlu dan tidak terkawal pada pose objek latar depan. Versi (1,0) kaedah kami dapat mengekalkan pose objek latar depan, menggabungkan objek latar depan dengan lancar ke dalam imej latar belakang dengan pencahayaan harmoni

Dalam lajur di sebelah kanan, pencahayaan objek latar depan harus konsisten dengan pencahayaan latar belakang yang sama. Kaedah sebelumnya boleh menyebabkan perubahan yang tidak dijangka dalam warna objek latar depan, seperti kenderaan dan pakaian. Kaedah kami (versi 0.1) dapat mengekalkan warna objek latar depan sambil melaraskan posenya secara serentak supaya ia sebati secara semula jadi ke dalam imej latar belakang

Portal Kawalan Adegan: Teleportasi Objek Empat dalam satu, Dihantar & Dihasilkan Semut

Seterusnya, kami menunjukkan lebih banyak hasil daripada empat versi kaedah kami (0,0), (1,0), (0,1), (1,1). Dapat dilihat bahawa apabila menggunakan vektor penunjuk yang berbeza, kaedah kami boleh melaraskan secara selektif beberapa sifat objek latar depan, mengawal kesan imej komposit dengan berkesan, dan memenuhi keperluan pengguna yang berbeza.

Portal Kawalan Adegan: Teleportasi Objek Empat dalam satu, Dihantar & Dihasilkan Semut

Apa yang perlu kita tulis semula ialah: Apakah struktur model yang boleh merealisasikan empat fungsi? Kaedah kami menggunakan struktur model berikut Input model termasuk imej latar belakang dengan kotak sempadan latar depan dan imej objek latar depan. objek latar depan dan ciri tempatan, dan pertama menggabungkan ciri global dan kemudian ciri tempatan. Semasa proses gabungan tempatan, kami menggunakan peta ciri latar depan yang dijajarkan untuk modulasi ciri bagi mencapai pemeliharaan butiran yang lebih baik. Pada masa yang sama, vektor penunjuk digunakan dalam kedua-dua gabungan global dan gabungan tempatan untuk mengawal sepenuhnya sifat objek latar depan

Kami menggunakan algoritma resapan stabil yang telah terlatih untuk melatih model berdasarkan 1.9 juta imej daripada OpenImage. Untuk melatih empat subtugas secara serentak, kami mereka bentuk satu set pemprosesan data dan proses peningkatan. Untuk butiran tentang data dan latihan, sila lihat kertas kerja

Portal Kawalan Adegan: Teleportasi Objek Empat dalam satu, Dihantar & Dihasilkan Semut Kami telah menguji set data COCOEE dan set data yang kami bina sendiri. Memandangkan kaedah sebelumnya hanya boleh mencapai sintesis imej yang tidak terkawal, kami membandingkan dengan versi (1,1) dan kaedah sebelumnya. Hasil perbandingan ditunjukkan dalam rajah di bawah. PCTNet ialah kaedah penyelarasan imej yang boleh mengekalkan butiran objek, tetapi tidak boleh melaraskan postur latar depan, dan ia juga tidak dapat melengkapkan objek latar depan. Kaedah lain boleh menghasilkan objek yang sama, tetapi kurang berkesan untuk mengekalkan butiran, seperti gaya pakaian, tekstur cawan, warna bulu burung, dll.

Kaedah kami lebih baik untuk mengekalkan butiran latar depan Perincian, lengkapkan objek latar depan yang tidak lengkap, dan laraskan pencahayaan, postur dan penyesuaian objek latar depan ke latar belakang

Portal Kawalan Adegan: Teleportasi Objek Empat dalam satu, Dihantar & Dihasilkan SemutKerja ini adalah percubaan pertama untuk sintesis imej yang boleh dikawal dan masih banyak kelemahan, bagaimanapun, prestasi model tidak stabil dan cukup teguh. Di samping itu, sebagai tambahan kepada pencahayaan dan postur, sifat objek latar depan boleh diperhalusi lagi Bagaimana untuk mencapai sintesis imej terkawal yang lebih halus adalah tugas yang lebih mencabar

Untuk mengekalkan niat asal tidak berubah, ia perlu. ditulis semula Kandungannya ialah: Rujukan

Yang, Gu, Zhang, Zhang, Chen, Sun, Chen, Wen (2023). Penyuntingan imej berasaskan contoh dan model penyebaran. Dalam CVPR

[2] Song Yongzhong, Zhang Zhi, Lin Zhilong, Cohen, S. D., Price, B. L., Zhang Jing, Jin Suying, Arriaga, D. G. 2023. ObjectStitch: Sintesis objek generatif. Dalam CVPR

Atas ialah kandungan terperinci 'Portal Kawalan Adegan: Teleportasi Objek Empat dalam satu, Dihantar & Dihasilkan Semut'. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!

Kenyataan
Artikel ini dikembalikan pada:机器之心. Jika ada pelanggaran, sila hubungi admin@php.cn Padam
Llama 4 vs GPT-4O: Mana yang lebih baik untuk kain?Llama 4 vs GPT-4O: Mana yang lebih baik untuk kain?Apr 26, 2025 am 09:37 AM

Artikel ini membandingkan prestasi Meta's Llama 4 Scout dan Openai's GPT-4O dalam sistem generasi pengambilan semula (RAG). Penilaian menggunakan rangka kerja Ragas, menyediakan metrik untuk kesetiaan, menjawab relevan, dan konteks pra

AI Generatif dan Sambungan Manusia Mengubah Hubungan - Analisis VidhyaAI Generatif dan Sambungan Manusia Mengubah Hubungan - Analisis VidhyaApr 26, 2025 am 09:36 AM

2025: AI generatif berkembang dari alat produktiviti kepada teman peribadi Peranan AI generatif telah berkembang secara dramatik pada tahun 2025, bergerak melampaui tugas produktiviti yang mudah untuk menjadi kehadiran yang signifikan dalam kehidupan peribadi. Manakala meningkatkan kecekapannya

Bagaimana cara menggunakan Gemini di Helaian Google?Bagaimana cara menggunakan Gemini di Helaian Google?Apr 26, 2025 am 09:34 AM

Helaian Google mendapat peningkatan yang signifikan dengan pengenalan fungsi Gemini's = AI, mengautomasikan tugas data yang sebelum ini memerlukan usaha manual. Formula berkuasa AI ini memudahkan pengkategorian, ringkasan, dan pembangunan formula melalui SIMPLE

Pembersihan Data Python One Liners: Panduan Cepat - Analitik VidhyaPembersihan Data Python One Liners: Panduan Cepat - Analitik VidhyaApr 26, 2025 am 09:33 AM

Pembersihan data dibuat mudah dengan python one-liners Menyelaraskan proses pembersihan data anda dengan python yang kuat satu-liners! Panduan ini mempamerkan teknik Pandas penting untuk mengendalikan nilai -nilai yang hilang, pendua, isu pemformatan, dan banyak lagi, semuanya dalam a

Panduan untuk memilih chatbot AI terbaik untuk tugas andaPanduan untuk memilih chatbot AI terbaik untuk tugas andaApr 26, 2025 am 09:31 AM

Bagaimana anda menjejaki LLM yang terbaik dan terkini? Jika anda telah menjejaki berita maka saya pasti anda telah dibanjiri oleh model -model di luar sana, terutama dalam beberapa bulan terakhir. Hari ini, kami mempunyai lebih banyak chatbots AI daripada FI

14 Teknik yang kuat yang menentukan evolusi embedding - Analytics Vidhya14 Teknik yang kuat yang menentukan evolusi embedding - Analytics VidhyaApr 26, 2025 am 09:29 AM

Artikel ini meneroka evolusi embedding teks, dari kaedah berasaskan kiraan mudah kepada model konteks yang canggih. Ia menyoroti peranan papan pendahulu seperti MTEB dalam menilai prestasi membenamkan dan kebolehcapaian canggih

O3 vs O4 -Mini vs Gemini 2.5 Pro: Pertempuran Penaakulan Ultimate - Analytics VidhyaO3 vs O4 -Mini vs Gemini 2.5 Pro: Pertempuran Penaakulan Ultimate - Analytics VidhyaApr 26, 2025 am 09:28 AM

Blog ini mengetuk tiga model AI terkemuka-O3, O4-Mini, dan Gemini 2.5 Pro-menentang satu sama lain dalam cabaran penalaran yang ketat. Kami menguji keupayaan mereka di seluruh fizik, matematik, pengekodan, reka bentuk web, dan analisis imej, mendedahkan kekuatan mereka

Penjejakan dengan id semula yang cekap di Yolo - Analytics VidhyaPenjejakan dengan id semula yang cekap di Yolo - Analytics VidhyaApr 26, 2025 am 09:26 AM

Alat pengesanan objek masa nyata seperti YOLO, SSD, dan DETR adalah penting untuk memantau pergerakan dan tindakan objek. Industri seperti pengurusan lalu lintas dan memanfaatkan keselamatan alat ini untuk menjejaki dan analisis. Walau bagaimanapun, cabaran utama ialah mengekalkan

See all articles

Alat AI Hot

Undresser.AI Undress

Undresser.AI Undress

Apl berkuasa AI untuk mencipta foto bogel yang realistik

AI Clothes Remover

AI Clothes Remover

Alat AI dalam talian untuk mengeluarkan pakaian daripada foto.

Undress AI Tool

Undress AI Tool

Gambar buka pakaian secara percuma

Clothoff.io

Clothoff.io

Penyingkiran pakaian AI

Video Face Swap

Video Face Swap

Tukar muka dalam mana-mana video dengan mudah menggunakan alat tukar muka AI percuma kami!

Alat panas

DVWA

DVWA

Damn Vulnerable Web App (DVWA) ialah aplikasi web PHP/MySQL yang sangat terdedah. Matlamat utamanya adalah untuk menjadi bantuan bagi profesional keselamatan untuk menguji kemahiran dan alatan mereka dalam persekitaran undang-undang, untuk membantu pembangun web lebih memahami proses mengamankan aplikasi web, dan untuk membantu guru/pelajar mengajar/belajar dalam persekitaran bilik darjah Aplikasi web keselamatan. Matlamat DVWA adalah untuk mempraktikkan beberapa kelemahan web yang paling biasa melalui antara muka yang mudah dan mudah, dengan pelbagai tahap kesukaran. Sila ambil perhatian bahawa perisian ini

Versi Mac WebStorm

Versi Mac WebStorm

Alat pembangunan JavaScript yang berguna

Muat turun versi mac editor Atom

Muat turun versi mac editor Atom

Editor sumber terbuka yang paling popular

EditPlus versi Cina retak

EditPlus versi Cina retak

Saiz kecil, penyerlahan sintaks, tidak menyokong fungsi gesaan kod

MinGW - GNU Minimalis untuk Windows

MinGW - GNU Minimalis untuk Windows

Projek ini dalam proses untuk dipindahkan ke osdn.net/projects/mingw, anda boleh terus mengikuti kami di sana. MinGW: Port Windows asli bagi GNU Compiler Collection (GCC), perpustakaan import yang boleh diedarkan secara bebas dan fail pengepala untuk membina aplikasi Windows asli termasuk sambungan kepada masa jalan MSVC untuk menyokong fungsi C99. Semua perisian MinGW boleh dijalankan pada platform Windows 64-bit.