Rumah > Artikel > Peranti teknologi > Hanya satu ayat untuk membuat gambar bergerak Apple menggunakan animasi model besar untuk menjana, dan hasilnya boleh diedit terus.
Pada masa ini, keupayaan inovatif yang menakjubkan bagi model berskala besar terus memberi impak kepada bidang kreatif, terutamanya wakil teknologi penjanaan video seperti Sora. Walaupun Sora telah menerajui trend generasi baharu, ia mungkin patut diberi perhatian kepada hasil penyelidikan terkini Apple sekarang.
Para penyelidik Apple baru-baru ini mengeluarkan rangka kerja yang dipanggil "Keyframer", yang boleh menggunakan model bahasa yang besar untuk menjana animasi. Rangka kerja ini membolehkan pengguna membuat animasi dengan mudah untuk imej 2D statik melalui gesaan bahasa semula jadi. Penyelidikan ini menunjukkan potensi model bahasa dalam mereka bentuk animasi, menyediakan pereka animasi dengan alat yang lebih cekap dan intuitif. Alamat kertas: https://arxiv.org/pdf/2402.06071.pdf alat animasi dipacu AI baharu Keyframer. Keyframer membenarkan pengguna mencipta ilustrasi animasi daripada imej 2D statik melalui gesaan bahasa semula jadi. Dengan GPT-4, Keyframer boleh menjana kod animasi CSS untuk menghidupkan input SVG (Grafik Vektor Boleh Skala).
Selain itu, Keyframer menyokong pengguna untuk terus mengedit animasi yang dihasilkan melalui pelbagai jenis editor.
Pengguna boleh menambah baik reka bentuk mereka secara berterusan menggunakan varian reka bentuk yang dijana oleh LLM melalui gesaan dan permintaan berulang, dengan itu berfikir dalam arah reka bentuk baharu. Bagaimanapun, Keyframer masih belum didedahkan kepada umum.
Sebab untuk melakukan penyelidikan ini adalah kerana Apple menyatakan bahawa aplikasi LLM dalam animasi belum diterokai sepenuhnya dan membawa cabaran baharu, seperti bagaimana pengguna boleh menerangkan gerakan secara berkesan dalam bahasa semula jadi. Walaupun alat grafik Vincentian seperti Dall・E dan Midjourney pada masa ini hebat, reka bentuk animasi memerlukan pertimbangan yang lebih kompleks, seperti masa dan penyelarasan, yang sukar untuk diringkaskan sepenuhnya dalam satu gesaan.
Pengguna hanya memuat naik imej, masukkan sesuatu seperti "biar bintang berkelip" dalam kotak gesaan, dan klik jana untuk melihat kesan kajian ini.
Pengguna boleh menjana berbilang reka bentuk animasi dalam satu kelompok dan melaraskan sifat seperti kod warna dan tempoh animasi dalam tetingkap berasingan. Tiada pengalaman pengekodan diperlukan kerana Keyframer menukar perubahan ini kepada CSS secara automatik dan kod itu sendiri boleh diedit sepenuhnya. Pendekatan berasaskan penerangan ini jauh lebih mudah daripada bentuk animasi janaan AI yang lain, yang selalunya memerlukan beberapa aplikasi berbeza dan beberapa pengalaman pengekodan.
Pengenalan kepada Keyframer
Keyframer ialah aplikasi berkuasa LLM yang direka untuk mencipta animasi daripada imej statik. Keyframer memanfaatkan keupayaan penjanaan kod LLM dan struktur semantik grafik vektor statik (SVG) untuk menjana animasi berdasarkan isyarat bahasa semula jadi yang disediakan oleh pengguna.
: Sistem ini menyediakan kawasan input di mana pengguna boleh menampal kod imej SVG yang mereka mahu animasikan (SVG ialah format imej standard dan popular yang digunakan dalam ilustrasi yang biasa digunakan untuk skala dan keserasiannya pada pelbagai platform). Dalam Keyframer, pemaparan SVG dipaparkan di sebelah editor kod supaya pengguna boleh pratonton reka bentuk visual imej Seperti yang ditunjukkan dalam Rajah 2, kod SVG untuk ilustrasi Zuhal mengandungi pengecam seperti langit, cincin, dsb. .
GPT Tips: Sistem ini membenarkan pengguna memasukkan gesaan bahasa semula jadi untuk mencipta animasi. Pengguna boleh meminta satu reka bentuk (membuat planet berputar) atau berbilang variasi reka bentuk (cipta reka bentuk dengan 3 bintang berkelip), dan kemudian klik butang Jana Animasi untuk memulakan permintaan. Sebelum menghantar permintaan pengguna kepada GPT, kajian memperhalusi gesaannya dengan XML SVG mentah penuh dan menentukan format respons LLM.
GPT Output: Sebaik sahaja permintaan segera bermula, GPT menghantar respons, yang terdiri daripada satu atau lebih serpihan CSS, seperti yang ditunjukkan dalam Rajah 3.
Rendering: Bahagian rendering termasuk (1) rendering visual setiap animasi dan penjelasan 1 ayat yang dihasilkan oleh LLM (2) siri editor untuk mengubah suai reka bentuk.
Editor kod dilaksanakan menggunakan CodeMirror; editor hartanah menyediakan UI khusus harta untuk mengedit kod, contohnya, untuk mengedit warna, kajian menyediakan pemilih warna. Rajah 5 menunjukkan editor kod dan ikon editor harta.
Lelaran: Untuk menyokong pengguna meneroka lebih mendalam dalam proses penciptaan animasi (DG1), kajian itu juga menyediakan ciri yang membolehkan pengguna membina secara berulang pada animasi yang dijana menggunakan gesaan . Terdapat butang " + Tambah Prompt Baharu " di bawah setiap reka bentuk yang dijana dengan mengklik butang ini membuka borang baharu di bahagian bawah halaman untuk pengguna melanjutkan reka bentuk mereka dengan gesaan baharu.
Simpan bar sisi dan ringkasan anda yang direka bentuk. Sistem ini membenarkan pengguna membintangi reka bentuk dan menambahkannya pada bar sisi, seperti yang ditunjukkan di sebelah kanan Rajah 6. Selain itu, sistem ini mempunyai mod ringkasan yang menyembunyikan semua editor teks dan memaparkan animasi serta gesaannya, membolehkan pengguna menyemak semula gesaan dan reka bentuk sebelumnya dengan pantas.
Semasa percubaan, pasukan Apple memilih 13 peserta (6 wanita, 7 lelaki) untuk mencuba Keyframer. Jadual 1 menyediakan beberapa maklumat tentang peserta dan kemahiran yang mereka kuasai.
Malah pereka gerakan profesional "EP13" juga melihat potensi Keyframer untuk mengembangkan keupayaannya: "Saya agak bimbang alat ini akan menggantikan kerja kami kerana potensinya sangat besar. Tetapi jika anda memikirkannya dengan teliti, penyelidikan ini Ia hanya akan meningkatkan kemahiran kita. Ia sepatutnya menjadi sesuatu yang menggembirakan."
Secara keseluruhannya, para peserta berpuas hati dengan pengalaman menggunakan Keyframer. Para peserta memberikan skor purata 3.9, antara berpuas hati (4) dan neutral (3). Peserta menghasilkan 223 reka bentuk. Secara purata, setiap peserta menghasilkan 17.2 reka bentuk. Rajah 8 menunjukkan contoh animasi akhir untuk dua peserta.
Sila rujuk kertas asal untuk butiran lanjut teknikal.
Atas ialah kandungan terperinci Hanya satu ayat untuk membuat gambar bergerak Apple menggunakan animasi model besar untuk menjana, dan hasilnya boleh diedit terus.. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!