cari
RumahPeranti teknologiAIMollick membentangkan makna model penjanaan imej baru

Mollick membentangkan makna model penjanaan imej baru

Baru -baru ini, model generasi imej baru yang dikeluarkan oleh Google dan Openai telah menarik perhatian yang meluas, dan teknologi terasnya sama sekali berbeza dengan model sebelumnya. Artikel Ethan Mollick dalam satu perkara yang berguna meneroka mekanisme kerja model -model baru ini dan kesannya kepada pengguna manusia. Artikel ini akan menafsirkan pandangan Mollick.

Potensi generasi imej multimodal

Mollick menegaskan bahawa sistem penjanaan imej tradisional adalah hasil kerja kolaboratif pelbagai model, dan bukan satu model melengkapkan semua tugas.

"Pada masa lalu, model bahasa yang besar (LLM) yang dihasilkan tidak dilakukan secara langsung oleh LLM. AI akan menghantar teks kepada alat penjanaan imej bebas dan kemudian memaparkan hasilnya.

Model penyebaran telah menjadi perkara masa lalu

Model lama bergantung terutamanya pada kerja model penyebaran. Prinsip kerja model penyebaran adalah: memperkenalkan imej ke dalam bunyi bising, melakukan pemprosesan abstraksi, dan kemudian keluarkan bunyi untuk menghasilkan imej yang sepadan dengan prompt di perpustakaan imej komputer yang diketahui.

Walau bagaimanapun, batasan kaedah ini adalah bahawa imej yang dihasilkan tidak mempunyai alasan dan penghakiman model sendiri, dan hanya gabungan mudah perpustakaan imej yang sedia ada dan tidak dapat memberikan maklumat yang berharga.

Kelebihan kawalan multimodal

Hari ini, kemunculan teknologi kawalan multimodal telah mengubah keadaan ini sepenuhnya.

Mollick memberikan contoh: mendorong model untuk menghasilkan "bilik tanpa gajah dan menandakan sebabnya". Model tradisional menghasilkan imej yang mengandungi gajah kerana ia tidak dapat memahami konteks prompt. Teks yang dihasilkan juga mungkin tidak bermakna atau bahkan mengandungi aksara fiksyen, kerana pemahaman model tentang huruf juga berpunca daripada data latihan.

Model multimodal dapat menghasilkan imej yang memenuhi keperluan dan menambah komen, seperti "pintu terlalu kecil", menjelaskan mengapa tidak ada gajah di dalam bilik.

Cabaran hujung dari model tradisional

Kelemahan model tradisional yang signifikan ialah apabila ia diperlukan untuk mengecualikan elemen, ia akan mengandungi elemen itu kerana ia tidak dapat memahami arahan. Di samping itu, setiap pengubahsuaian atau pelarasan mengubah struktur asas imej. Sebagai contoh, mengubahsuai topi watak boleh membawa kepada perubahan lengkap dalam imej watak.

Model penjanaan imej multimodal boleh membuat pelarasan halus berdasarkan mengekalkan hasil asal.

Penyelenggaraan alam sekitar

Mollick juga menunjukkan satu lagi contoh: Otter memegang item tertentu dalam satu tangan dan kemudian muncul dalam konteks yang berbeza dan dalam gaya yang berbeza. Ini menunjukkan keupayaan integrasi halus penjana imej multimodal.

Persembahan lengkap

Mollick juga menunjukkan cara merancang persembahan lengkap menggunakan model multimodal, seperti cadangan mengenai guacamole. Hanya berikan arahan mudah, dan model boleh mencari maklumat yang relevan di Internet, mengintegrasikannya, dan menghasilkan hasil akhir.

Seperti yang dikatakan Mollick, ini dengan cepat akan membawa kepada penggantian banyak kerja manusia. Kita perlu mempertimbangkan untuk mewujudkan rangka kerja yang sama.

Atas ialah kandungan terperinci Mollick membentangkan makna model penjanaan imej baru. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!

Kenyataan
Kandungan artikel ini disumbangkan secara sukarela oleh netizen, dan hak cipta adalah milik pengarang asal. Laman web ini tidak memikul tanggungjawab undang-undang yang sepadan. Jika anda menemui sebarang kandungan yang disyaki plagiarisme atau pelanggaran, sila hubungi admin@php.cn
Carta 10 kuasa bi yang paling banyak digunakan - Analytics VidhyaCarta 10 kuasa bi yang paling banyak digunakan - Analytics VidhyaApr 16, 2025 pm 12:05 PM

Memanfaatkan kekuatan visualisasi data dengan carta Microsoft Power BI Dalam dunia yang didorong oleh data hari ini, dengan berkesan menyampaikan maklumat yang rumit kepada penonton bukan teknikal adalah penting. Visualisasi data jambatan jurang ini, mengubah data mentah i

Sistem Pakar di AISistem Pakar di AIApr 16, 2025 pm 12:00 PM

Sistem Pakar: menyelam yang mendalam ke dalam kuasa membuat keputusan AI Bayangkan mempunyai akses kepada nasihat pakar mengenai apa -apa, dari diagnosis perubatan kepada perancangan kewangan. Itulah kuasa sistem pakar dalam kecerdasan buatan. Sistem ini meniru pro

Tiga coder getaran terbaik memecahkan revolusi AI ini dalam kodTiga coder getaran terbaik memecahkan revolusi AI ini dalam kodApr 16, 2025 am 11:58 AM

Pertama sekali, jelas bahawa ini berlaku dengan cepat. Pelbagai syarikat bercakap mengenai perkadaran kod mereka yang kini ditulis oleh AI, dan ini semakin meningkat pada klip pesat. Terdapat banyak anjakan pekerjaan

Runway AI's Gen-4: Bagaimanakah montaj AI boleh melampaui kebodohanRunway AI's Gen-4: Bagaimanakah montaj AI boleh melampaui kebodohanApr 16, 2025 am 11:45 AM

Industri filem, bersama semua sektor kreatif, dari pemasaran digital ke media sosial, berdiri di persimpangan teknologi. Sebagai kecerdasan buatan mula membentuk semula setiap aspek bercerita visual dan mengubah landskap hiburan

Bagaimana untuk mendaftar selama 5 hari kursus percuma ISRO AI? - Analytics VidhyaBagaimana untuk mendaftar selama 5 hari kursus percuma ISRO AI? - Analytics VidhyaApr 16, 2025 am 11:43 AM

Kursus Online AI/ML percuma ISRO: Gerbang ke Inovasi Teknologi Geospatial Pertubuhan Penyelidikan Angkasa India (ISRO), melalui Institut Pengesan Jauh India (IIRS), menawarkan peluang yang hebat untuk pelajar dan profesional

Algoritma Carian Tempatan di AIAlgoritma Carian Tempatan di AIApr 16, 2025 am 11:40 AM

Algoritma Carian Tempatan: Panduan Komprehensif Merancang acara berskala besar memerlukan pengagihan beban kerja yang cekap. Apabila pendekatan tradisional gagal, algoritma carian tempatan menawarkan penyelesaian yang kuat. Artikel ini meneroka pendakian bukit dan simul

Terbuka beralih fokus dengan GPT-4.1, mengutamakan pengekodan dan kecekapan kosTerbuka beralih fokus dengan GPT-4.1, mengutamakan pengekodan dan kecekapan kosApr 16, 2025 am 11:37 AM

Pelepasan ini termasuk tiga model yang berbeza, GPT-4.1, GPT-4.1 Mini dan GPT-4.1 Nano, menandakan langkah ke arah pengoptimuman khusus tugas dalam landskap model bahasa yang besar. Model-model ini tidak segera menggantikan antara muka yang dihadapi pengguna seperti

Prompt: CHATGPT menjana pasport palsuPrompt: CHATGPT menjana pasport palsuApr 16, 2025 am 11:35 AM

Gergasi Chip Nvidia berkata pada hari Isnin ia akan memulakan pembuatan superkomputer AI - mesin yang boleh memproses sejumlah besar data dan menjalankan algoritma kompleks - sepenuhnya dalam A.S. untuk kali pertama. Pengumuman itu datang selepas Presiden Trump Si

See all articles

Alat AI Hot

Undresser.AI Undress

Undresser.AI Undress

Apl berkuasa AI untuk mencipta foto bogel yang realistik

AI Clothes Remover

AI Clothes Remover

Alat AI dalam talian untuk mengeluarkan pakaian daripada foto.

Undress AI Tool

Undress AI Tool

Gambar buka pakaian secara percuma

Clothoff.io

Clothoff.io

Penyingkiran pakaian AI

AI Hentai Generator

AI Hentai Generator

Menjana ai hentai secara percuma.

Artikel Panas

R.E.P.O. Kristal tenaga dijelaskan dan apa yang mereka lakukan (kristal kuning)
4 minggu yang laluBy尊渡假赌尊渡假赌尊渡假赌
R.E.P.O. Tetapan grafik terbaik
4 minggu yang laluBy尊渡假赌尊渡假赌尊渡假赌
R.E.P.O. Cara Memperbaiki Audio Jika anda tidak dapat mendengar sesiapa
1 bulan yang laluBy尊渡假赌尊渡假赌尊渡假赌
R.E.P.O. Arahan sembang dan cara menggunakannya
1 bulan yang laluBy尊渡假赌尊渡假赌尊渡假赌

Alat panas

MantisBT

MantisBT

Mantis ialah alat pengesan kecacatan berasaskan web yang mudah digunakan yang direka untuk membantu dalam pengesanan kecacatan produk. Ia memerlukan PHP, MySQL dan pelayan web. Lihat perkhidmatan demo dan pengehosan kami.

Penyesuai Pelayan SAP NetWeaver untuk Eclipse

Penyesuai Pelayan SAP NetWeaver untuk Eclipse

Integrasikan Eclipse dengan pelayan aplikasi SAP NetWeaver.

VSCode Windows 64-bit Muat Turun

VSCode Windows 64-bit Muat Turun

Editor IDE percuma dan berkuasa yang dilancarkan oleh Microsoft

SublimeText3 versi Inggeris

SublimeText3 versi Inggeris

Disyorkan: Versi Win, menyokong gesaan kod!

ZendStudio 13.5.1 Mac

ZendStudio 13.5.1 Mac

Persekitaran pembangunan bersepadu PHP yang berkuasa