Rumah  >  Artikel  >  Peranti teknologi  >  Universiti Harvard kacau: DALL-E 2 hanyalah "raksasa gam", dan ketepatan penjanaannya hanya 22%

Universiti Harvard kacau: DALL-E 2 hanyalah "raksasa gam", dan ketepatan penjanaannya hanya 22%

WBOY
WBOYke hadapan
2023-04-15 17:40:031116semak imbas

​Apabila DALL-E 2 mula-mula dikeluarkan, lukisan yang dihasilkan hampir dapat menghasilkan semula teks input dengan resolusi definisi tinggi dan imaginasi lukisan yang kuat juga membuatkan pelbagai netizen memanggilnya "sangat keren".

Universiti Harvard kacau: DALL-E 2 hanyalah

Tetapi kertas penyelidikan baharu dari Universiti Harvard baru-baru ini menunjukkan bahawa walaupun imej yang dihasilkan oleh DALL-E 2 adalah indah, ia mungkin hanya melekatkan beberapa entiti dalam teks Diambil bersama , hubungan spatial yang dinyatakan dalam teks tidak juga difahami!

Universiti Harvard kacau: DALL-E 2 hanyalah

Pautan kertas: https://arxiv.org/pdf/2208.00005.pdf

Pautan data: https://osf.io/sm68h/

Sebagai contoh, diberi gesaan teks "A cup on a spoon", anda boleh melihat bahawa dalam imej yang dijana oleh DALL-E 2, anda boleh melihat bahawa sesetengah imej tidak memenuhi perhubungan "on" .

Universiti Harvard kacau: DALL-E 2 hanyalah

Tetapi dalam set latihan, gabungan cawan teh dan sudu yang DALL-E 2 mungkin nampak semuanya "masuk", manakala "hidup" agak jarang, jadi antara keduanya Dari segi penjanaan perhubungan ini, kadar ketepatan juga berbeza.

Universiti Harvard kacau: DALL-E 2 hanyalah

Jadi untuk meneroka sama ada DALL-E 2 benar-benar boleh memahami hubungan semantik dalam teks, penyelidik memilih 15 jenis hubungan, 8 daripadanya adalah hubungan ruang ( hubungan fizikal) ), termasuk dalam, pada, bawah, selimut, dekat, terhalang oleh, tergantung dan terikat kepada 7 hubungan tindakan (hubungan agen), termasuk menolak, menarik, menyentuh, memukul, menendang, membantu dan menyembunyikan.

Set entiti dalam teks adalah terhad kepada 12, dan item yang dipilih adalah item ringkas dan biasa dalam pelbagai set data, iaitu: kotak, silinder, selimut, mangkuk, cawan teh, pisau, lelaki, wanita, kanak-kanak , monyet dan iguana (iguana).

Universiti Harvard kacau: DALL-E 2 hanyalah

Untuk setiap jenis perhubungan, 5 gesaan dibuat dan 2 entiti dipilih secara rawak untuk diganti setiap kali, akhirnya menghasilkan 75 gesaan teks . Selepas penyerahan kepada enjin pemaparan DALL-E 2, 18 imej terjana pertama telah dipilih, menghasilkan 1350 imej.

Para penyelidik kemudian memilih 169 daripada 180 anotasi melalui ujian penaakulan akal untuk mengambil bahagian dalam proses anotasi.

Hasil eksperimen mendapati bahawa konsistensi purata antara imej yang dihasilkan oleh DALL-E 2 dan gesaan teks yang digunakan untuk menjana imej hanya 22.2% antara 75 gesaan

Universiti Harvard kacau: DALL-E 2 hanyalah

Walau bagaimanapun, adalah sukar untuk mengatakan sama ada DALL-E 2 benar-benar "memahami" perhubungan dalam teks Dengan memerhatikan skor ketekalan pencatat, berdasarkan ambang konsensus 0%, 25% dan 50%, Ujian keertian satu sampel yang diperbetulkan oleh Holm untuk setiap perhubungan menunjukkan bahawa persetujuan peserta adalah lebih tinggi secara signifikan daripada 0% pada α = 0.95 (pHolm

Jadi walaupun tanpa membetulkan beberapa perbandingan, hakikatnya imej yang dihasilkan oleh DALL-E 2 tidak memahami hubungan antara dua objek dalam teks.

Universiti Harvard kacau: DALL-E 2 hanyalah

Keputusan juga menunjukkan bahawa keupayaan DALL-E untuk menyambung dua objek yang tidak berkaitan mungkin tidak sekuat yang dibayangkan, seperti "Seorang kanak-kanak menyentuh mangkuk" Konsistensi adalah 87 % kerana dalam imej dunia sebenar, kanak-kanak dan mangkuk kelihatan bersama dengan kerap.

Universiti Harvard kacau: DALL-E 2 hanyalah

Kadar ketekalan akhir imej yang dijana oleh "Monyet menyentuh iguana" hanya 11%, malah mungkin terdapat ralat spesies dalam imej yang diberikan.

Universiti Harvard kacau: DALL-E 2 hanyalah

Oleh itu, beberapa kategori imej dalam DALL-E 2 dibangunkan dengan agak baik, seperti kanak-kanak dan makanan, tetapi beberapa kategori data masih memerlukan latihan berterusan.

Walau bagaimanapun, pada masa ini DALL-E 2 masih memaparkan gaya definisi tinggi dan realistiknya di tapak web rasmi Ia masih belum jelas sama ada ia "menggabungkan dua objek" atau benar-benar memahami maklumat teks menjana imej.

Penyelidik menyatakan bahawa pemahaman hubungan ialah komponen asas kecerdasan manusia, dan prestasi lemah DALL-E 2 dalam hubungan ruang asas (seperti pada, daripada) menunjukkan bahawa ia belum lagi fleksibel dan fleksibel seperti manusia. Membina dan memahami dunia dengan teguh.

Namun, netizen berkata bahawa dapat membangunkan "gam" untuk melekatkan sesuatu sudah menjadi pencapaian yang hebat! DALL-E 2 bukan AGI dan masih banyak ruang untuk penambahbaikan pada masa hadapan Sekurang-kurangnya kami telah membuka pintu untuk menjana imej secara automatik!

Universiti Harvard kacau: DALL-E 2 hanyalah

Apakah masalah lain yang ada pada DALL-E 2?

Malah, sebaik sahaja DALL-E 2 dikeluarkan, sebilangan besar pengamal menjalankan analisis mendalam tentang kelebihan dan kekurangannya.

Universiti Harvard kacau: DALL-E 2 hanyalah

Pautan blog: https://www.lesswrong.com/posts/uKp6tBFStnsvrot5t/what-dall-e-2-can-and-cannot-do

Menulis novel dengan GPT-3 agak membosankan DALL-E 2 boleh menghasilkan beberapa ilustrasi untuk teks dan juga menghasilkan jalur komik untuk teks yang panjang.

Contohnya, DALL-E 2 boleh menambah ciri pada gambar, seperti "Seorang wanita di kedai kopi bekerja pada komputer ribanya dan memakai fon kepala, lukisan oleh Alphonse Mucha", yang boleh menjana gaya lukisan, kedai kopi dengan tepat , dan memakai fon kepala , komputer riba, dsb.

Universiti Harvard kacau: DALL-E 2 hanyalah

Tetapi jika perihalan ciri dalam teks melibatkan dua orang, DALL-E 2 mungkin terlupa ciri mana yang dimiliki oleh orang yang mana Contohnya, teks input ialah:

seorang budak lelaki muda berambut gelap berehat di atas katil, dan seorang wanita tua berambut kelabu duduk di kerusi di sebelah katil di bawah tingkap dengan matahari mengalir melalui, seni digital gaya Pixar.

Seorang budak lelaki muda berambut gelap berbaring di atas katil dan seorang wanita tua berambut kelabu duduk di atas kerusi di sebelah katil di bawah tingkap dengan cahaya matahari mengalir melalui, seni digital gaya Pixar.

Universiti Harvard kacau: DALL-E 2 hanyalah

Dapat dilihat bahawa DALL-E 2 boleh menjana tingkap, kerusi dan katil dengan betul, tetapi imej yang dihasilkan sedikit berbeza dalam kombinasi ciri umur, jantina dan rambut keliru.

Contoh lain ialah membiarkan "Captain America dan Iron Man berdiri berdampingan. Anda dapat melihat bahawa hasil yang dihasilkan jelas mempunyai ciri-ciri Captain America dan Iron Man, tetapi elemen khusus diletakkan pada orang yang berbeza". (Sebagai contoh, Iron Man memakai perisai Captain America).

Universiti Harvard kacau: DALL-E 2 hanyalah

Jika latar depan dan latar belakang sangat terperinci, model mungkin tidak dijana.

Sebagai contoh, teks input ialah:

Dua ekor anjing berpakaian seperti askar Rom di atas kapal lanun melihat New York City melalui kaca mata.

Dua anjing Anjing melihat New York City melalui kaca mata seperti askar Rom di atas kapal lanun.

Kali ini DALL-E 2 baru sahaja berhenti bekerja Pengarang blog mengambil masa setengah jam untuk memikirkannya Akhirnya, dia perlu bermain di "New York City dan kapal lanun" atau "a anjing dengan teleskop dan pakaian seragam askar Rom" Pilih antara.

Dall-E 2 boleh menjana imej menggunakan latar belakang generik, seperti bandar atau rak buku di perpustakaan, tetapi jika itu bukan fokus utama imej, mendapatkan butiran yang lebih halus selalunya menjadi sangat Bencana .

Walaupun DALL-E 2 boleh menjana objek biasa, seperti pelbagai kerusi mewah, jika anda memintanya menjana "basikal Alto", gambar yang terhasil akan agak serupa dengan basikal, tetapi tidak betul-betul.

Universiti Harvard kacau: DALL-E 2 hanyalah

Carian Basikal Otto di bawah Imej Google adalah seperti berikut.

Universiti Harvard kacau: DALL-E 2 hanyalah

DALL-E 2 juga tidak dapat mengeja, tetapi kadangkala akan mengeja perkataan dengan betul secara kebetulan, seperti memintanya menulis STOP pada tanda henti

Walaupun model itu sememangnya boleh menjana beberapa huruf Inggeris yang "boleh dikenali", semantik yang disambungkan masih berbeza daripada perkataan yang dijangkakan. Di sinilah DALL-E 2 tidak sebaik DALL-E generasi pertama.

Universiti Harvard kacau: DALL-E 2 hanyalah

Apabila menghasilkan imej yang berkaitan dengan alat muzik, DALL-E 2 seolah-olah mengingati kedudukan tangan manusia ketika bermain, tetapi tanpa tali, bermain agak janggal.

Universiti Harvard kacau: DALL-E 2 hanyalah

DALL-E 2 juga menyediakan fungsi penyuntingan Sebagai contoh, selepas menghasilkan imej, anda boleh menggunakan kursor untuk menyerlahkan kawasannya dan menambah penerangan lengkap pengubahsuaian. .

Namun, fungsi ini tidak selalu berfungsi Sebagai contoh, jika anda ingin menambah "rambut pendek" pada imej asal, fungsi penyuntingan akan sentiasa menambah sesuatu di tempat yang pelik.

Universiti Harvard kacau: DALL-E 2 hanyalah

Teknologi masih dikemas kini dan dibangunkan, menantikan DALL-E 3!

Atas ialah kandungan terperinci Universiti Harvard kacau: DALL-E 2 hanyalah "raksasa gam", dan ketepatan penjanaannya hanya 22%. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!

Kenyataan:
Artikel ini dikembalikan pada:51cto.com. Jika ada pelanggaran, sila hubungi admin@php.cn Padam