


AI baharu Google sedang hangat! Anda boleh melukis perkataan terpanjang di dunia
Kawan, adakah anda tahu apa itu perkataan Inggeris?
Pneumonoultramicroscopicsilicovolcanoconiosis.
Ini adalah perkataan yang paling lama dikenali di dunia - terdiri daripada 45 huruf, yang bermaksud "penyakit yang disebabkan oleh pemendapan zarah silika gunung berapi dalam paru-paru" (biasanya dikenali sebagai silikosis gunung berapi).
Tetapi bagaimana jika, daripada meminta anda mengeja perkataan, anda... melukisnya?
(Anda tidak boleh membaca pun, tetapi anda masih melukis???)
Parti, AI terbaharu yang dicadangkan oleh Google, boleh mengendalikan perkara ini dengan mudah.
Selepas "menyuapkan" perkataan ini kepada Parti, ia akan dapat menghasilkan beberapa gambaran munasabah tentang penyakit paru-paru:
Tetapi ini hanyalah ujian kecil daripada keupayaan Parti Menurut Google, ia kini merupakan AI "teks-ke-imej" yang paling maju.
Sebagai contoh, jika anda memberitahunya: "Gabungkan Sydney Opera House dengan Menara Eiffel," outputnya adalah seperti berikut:
(Saya tidak 't know) (Saya benar-benar fikir ia adalah bergambar)
Selain itu, dari segi algoritma, ia berbeza daripada Imagen Parti Google sendiri boleh dikatakan telah membawa "lukisan AI" ke tahap yang baru.
Malah Jeff Dean, ketua Google AI, tweet beberapa kali dan berseronok:
Dapat Diperluaskan kepada 20 bilion parameter: lebih realistik dan "lebih bijak"
Malah, keupayaan Parti tidak terhenti di situ.
Terima kasih kepada skalabiliti model kepada 20 bilion parameter, di satu pihak, imej yang dihasilkannya lebih terperinci dan realistik.
Sama ada hanya beberapa perkataan atau perenggan pendek lebih daripada lima puluh perkataan, ia boleh dipaparkan dengan jelas.
Contohnya, Bahagian belakang biola, bahagian belakang biola.
Atau mungkin ia adalah adegan malam yang diterangkan berdasarkan "Starry Night" Van Gogh. ps, terdapat 67 perkataan dalam perenggan ini.
Parti tiada masalah, dan saya telah melukis semua gambar pelbagai gaya untuk anda dalam satu pakej~
Ini juga merupakan keupayaan kedua terbesar Parti Bukan sahaja perincian yang sempurna, tetapi gayanya juga boleh dipelbagaikan.
Terdapat juga perihalan aneh seperti "raccoon memakai sut formal, topi atas, rotan dan beg sampah", yang juga boleh mencipta karya berbunga-bunga tanpa melupakan butirannya.
Dari segi gaya, terdapat gaya Van Gogh, gaya Firaun Mesir, gaya piksel, gaya lukisan tradisional Cina, gaya abstrak...
Malah kadang-kadang Ia juga membuat jenaka.
(Toad'ay, toad)
Khususnya dari segi keputusan ujian, MS-COCO, Localized Narrative (LN, huraian 4 kali lebih panjang) FID markah, Parti kedua-duanya mencapai keputusan terkini.
Terutamanya skor FID bagi sampel sifar MS-COCO hanya 7.23, dan skor FID yang diperhalusi ialah 3.22, melebihi Imagen dan DALL-E 2 sebelumnya.
Semua komponen adalah Transformers
Selepas sebulan, Google telah membawa lukisan AI ke tahap yang baru, tetapi penulis berkata: rahsianya mudah.
Sebahagian terutamanya menganggap imej yang dijana teks sebagai pemodelan urutan ke jujukan. Ini agak serupa dengan terjemahan mesin, di mana token teks diberikan sebagai input kepada pengekod, dan output sasaran berubah daripada teks kepada imej.
Secara struktur, semua komponennya hanya mempunyai tiga bahagian: pengekod, penyahkod dan penanda imej, dan semuanya berdasarkan Transformer standard.
Pertama, imej dikodkan ke dalam urutan diskret teg menggunakan penanda imej berasaskan Transformer ViT-VQGAN.
Kemudian parameter dikembangkan kepada 20 bilion melalui struktur pengekodan-penyahkodan Transformer.
Penyelidikan terdahulu tentang penjanaan imej daripada teks, kecuali GAN terawal, boleh dibahagikan secara kasar kepada dua idea.
Satu adalah berdasarkan model autoregresif Pertama, ciri teks dipetakan kepada ciri imej, dan kemudian seni bina jujukan yang serupa dengan Transformer digunakan untuk mempelajari hubungan antara input bahasa dan output imej.
Komponen utama pendekatan ini ialah penanda imej, yang menukarkan setiap imej kepada jujukan unit diskret. Sebagai contoh, DALL-E dan CogView menerima pakai idea ini.
Laluan lain ialah laluan yang kerap mengalami kemajuan dalam tempoh ini - model teks-ke-imej berdasarkan resapan, seperti DALL-E 2 dan Imagen.
Mereka meninggalkan penanda imej dan sebaliknya menggunakan model resapan untuk menjana imej secara langsung. Apa yang boleh dilihat ialah model ini menghasilkan imej berkualiti tinggi dan mendapat skor yang lebih baik pada FID tangkapan sifar MS-COCO.
Kejayaan model Parti membuktikan bahawa model autoregresif boleh digunakan untuk meningkatkan kesan imej yang dihasilkan teks.
Pada masa yang sama, Parti turut memperkenalkan dan mengeluarkan ujian penanda aras baharu - PartiPrompts, yang digunakan untuk mengukur keupayaan model dalam 12 kategori dan 11 cabaran.
Tetapi Parti masih mempunyai batasan tertentu, dan penyelidik juga menunjukkan beberapa pepijat:
Sebagai contoh, perihalan penafian tidak berguna~
Pinggan tanpa pisang, dan segelas tanpa jus oren di sebelahnya.
Juga membuat beberapa kesilapan akal, seperti menskala secara tidak munasabah. Sebagai contoh, dalam gambar ini, robot itu beberapa kali lebih tinggi daripada kereta lumba.
Robot berkilat memakai sut lumba dan visor hitam berdiri dengan bangga di hadapan kereta F1. Matahari terbenam di atas landskap bandar. Ilustrasi buku komik.
Google "bergerak sendiri"
Kajian ini datang daripada Google Research dan kebanyakan ahli pasukan adalah orang Cina.
Kakitangan penyelidikan teras termasuk Yuanzhong Xu, Thang Luong, dsb., yang kini bekerja di Google dalam penyelidikan berkaitan AI.
(Thang Luong telah disebut sehingga 20,000+ kali di Google Scholar)
△Kiri: Yuanzhong Xu Kanan: Thang Luong
Tetapi apa yang menarik ialah Imagen, yang kedua-duanya "sebut satu perkataan dan biarkan AI melukis" dan dihasilkan oleh Google, mempunyai kaitan yang tidak dapat dipisahkan dengan Parti.
Ia disebut dalam dokumentasi projek GitHub Parti:
Terima kasih kepada pasukan Imagen kerana berkongsinya dengan kami sebelum mengeluarkan Imagen yang lengkap terkini keputusan.
Penemuan penting mereka dalam panduan CF sangat membantu untuk model Parti akhir.
Dan Burcu Karagol Ayan, salah seorang pengarang Imagen, turut mengambil bahagian dalam projek Parti.
(Ia seperti Google "gulung sendiri")
Bukan itu sahaja, malah Aditya Ramesh, pengarang "Next Door" DALL-E 2, juga menilai Parti dalam kerja Perbincangan MS-COCO telah dilakukan pada aspek ini.
dan pengarang DALL-Eval juga memberikan bantuan dengan kerja data Parti.
One More Thing
Dikatakan bahawa "imej janaan teks" bukan sekadar kegemaran penyelidik.
Netizen tidak pernah jemu "bermain" dengannya (jangan terlalu berimaginasi).
Sebentar tadi, saya meminta Imagen melukis Dinasti Song "Tiger wearing VR", yang secara langsung berkembang menjadi pertempuran lukisan AI.
△Gambar: Seni oleh Imagen
DALL·E, MidJourney dan lain-lain "datang selepas mendengar berita" untuk mengambil bahagian.
△ Dilukis oleh DALL·E
Malah ada orang yang menggabungkan Wordle dan DALL-E 2:
......
Tetapi kembali ke Parti kali ini memang seronok, namun segelintir netizen masih menimbulkan persoalan yang "menyentuh terus ke jiwa":
Bilakah ia akan dikomersialkan? Tidak ada gunanya "bermain di belakang pintu tertutup" sendiri.
Alamat kertas bahagian:
https://parti.research.google/
Alamat projek GitHub :
https://github.com/google-research/parti
Pautan rujukan:
[1]https:/ /twitter.com/lmthang/status/1539664610596225024[2]https://gizmodo.com/new-browser-game-combines-dall-e-mini-and-wordle-1849105289[3]https://imagen.research .google/
Atas ialah kandungan terperinci AI baharu Google sedang hangat! Anda boleh melukis perkataan terpanjang di dunia. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!

Memanfaatkan kekuatan visualisasi data dengan carta Microsoft Power BI Dalam dunia yang didorong oleh data hari ini, dengan berkesan menyampaikan maklumat yang rumit kepada penonton bukan teknikal adalah penting. Visualisasi data jambatan jurang ini, mengubah data mentah i

Sistem Pakar: menyelam yang mendalam ke dalam kuasa membuat keputusan AI Bayangkan mempunyai akses kepada nasihat pakar mengenai apa -apa, dari diagnosis perubatan kepada perancangan kewangan. Itulah kuasa sistem pakar dalam kecerdasan buatan. Sistem ini meniru pro

Pertama sekali, jelas bahawa ini berlaku dengan cepat. Pelbagai syarikat bercakap mengenai perkadaran kod mereka yang kini ditulis oleh AI, dan ini semakin meningkat pada klip pesat. Terdapat banyak anjakan pekerjaan

Industri filem, bersama semua sektor kreatif, dari pemasaran digital ke media sosial, berdiri di persimpangan teknologi. Sebagai kecerdasan buatan mula membentuk semula setiap aspek bercerita visual dan mengubah landskap hiburan

Kursus Online AI/ML percuma ISRO: Gerbang ke Inovasi Teknologi Geospatial Pertubuhan Penyelidikan Angkasa India (ISRO), melalui Institut Pengesan Jauh India (IIRS), menawarkan peluang yang hebat untuk pelajar dan profesional

Algoritma Carian Tempatan: Panduan Komprehensif Merancang acara berskala besar memerlukan pengagihan beban kerja yang cekap. Apabila pendekatan tradisional gagal, algoritma carian tempatan menawarkan penyelesaian yang kuat. Artikel ini meneroka pendakian bukit dan simul

Pelepasan ini termasuk tiga model yang berbeza, GPT-4.1, GPT-4.1 Mini dan GPT-4.1 Nano, menandakan langkah ke arah pengoptimuman khusus tugas dalam landskap model bahasa yang besar. Model-model ini tidak segera menggantikan antara muka yang dihadapi pengguna seperti

Gergasi Chip Nvidia berkata pada hari Isnin ia akan memulakan pembuatan superkomputer AI - mesin yang boleh memproses sejumlah besar data dan menjalankan algoritma kompleks - sepenuhnya dalam A.S. untuk kali pertama. Pengumuman itu datang selepas Presiden Trump Si


Alat AI Hot

Undresser.AI Undress
Apl berkuasa AI untuk mencipta foto bogel yang realistik

AI Clothes Remover
Alat AI dalam talian untuk mengeluarkan pakaian daripada foto.

Undress AI Tool
Gambar buka pakaian secara percuma

Clothoff.io
Penyingkiran pakaian AI

AI Hentai Generator
Menjana ai hentai secara percuma.

Artikel Panas

Alat panas

Muat turun versi mac editor Atom
Editor sumber terbuka yang paling popular

PhpStorm versi Mac
Alat pembangunan bersepadu PHP profesional terkini (2018.2.1).

Hantar Studio 13.0.1
Persekitaran pembangunan bersepadu PHP yang berkuasa

Versi Mac WebStorm
Alat pembangunan JavaScript yang berguna

SublimeText3 versi Mac
Perisian penyuntingan kod peringkat Tuhan (SublimeText3)