Sub-jurnal Nature dari Sekolah Kecerdasan Buatan Hillhouse Universiti Renmin cuba menggunakan model asas berbilang modal untuk bergerak ke arah kecerdasan buatan umum-AI-php.cn

Sub-jurnal Nature dari Sekolah Kecerdasan Buatan Hillhouse Universiti Renmin cuba menggunakan model asas berbilang modal untuk bergerak ke arah kecerdasan buatan umum

王林

May 09, 2023 pm 02:34 PM

rangkaian sarafModel

Baru-baru ini, Profesor Lu Zhiwu, Profesor Madya Perennial Sun Hao, dan Dekan Profesor Wen Jirong dari Sekolah Kecerdasan Buatan Hillhouse Universiti Renmin China menerbitkan artikel sebagai pengarang yang sepadan dalam jurnal komprehensif antarabangsa "Nature Communications" (nama Inggeris : Nature Communications, dirujuk sebagai Nat Commun) ) menerbitkan kertas penyelidikan bertajuk "Ke Arah Kecerdasan Umum Buatan melalui Model Asas Multimodal Pengarang pertama artikel itu ialah pelajar kedoktoran Fei Nanyi. Kerja ini cuba memanfaatkan model asas multimodal ke arah kecerdasan buatan am dan akan mempunyai implikasi yang luas untuk pelbagai bidang AI+ seperti neurosains dan penjagaan kesihatan. Artikel ini adalah tafsiran kertas ini.

Sub-jurnal Nature dari Sekolah Kecerdasan Buatan Hillhouse Universiti Renmin cuba menggunakan model asas berbilang modal untuk bergerak ke arah kecerdasan buatan umum

Pautan kertas: https://www.nature.com/articles /s41467-022-30761-2
Pautan kod: https://github.com/neilfei/brivl-nmi

Matlamat asas kecerdasan buatan adalah untuk meniru aktiviti kognitif teras manusia, seperti persepsi, ingatan, penaakulan, dll. Walaupun banyak algoritma atau model kecerdasan buatan telah mencapai kejayaan besar dalam pelbagai bidang penyelidikan, kebanyakan penyelidikan kecerdasan buatan masih terhad oleh pemerolehan sejumlah besar data berlabel atau sumber pengkomputeran yang tidak mencukupi untuk menyokong latihan mengenai data berskala besar satu keupayaan kognitif.

Untuk mengatasi batasan ini dan mengambil langkah ke arah kecerdasan buatan am, kami membangunkan model asas multimodal (Bahasa visual), iaitu model yang telah dilatih. Di samping itu, untuk model memperoleh keupayaan generalisasi yang kuat, kami mencadangkan bahawa gambar dan teks dalam data latihan harus mengikut hipotesis korelasi semantik yang lemah (seperti yang ditunjukkan dalam Rajah 1b), dan bukannya padanan halus kawasan gambar dan perkataan. (korelasi semantik yang kuat), kerana korelasi semantik yang kuat Andaian korelasi semantik akan menyebabkan model kehilangan emosi dan pemikiran yang kompleks yang dibayangkan oleh orang apabila memberi kapsyen pada gambar.

Sub-jurnal Nature dari Sekolah Kecerdasan Buatan Hillhouse Universiti Renmin cuba menggunakan model asas berbilang modal untuk bergerak ke arah kecerdasan buatan umum

Rajah 1: Model BriVL berdasarkan andaian korelasi semantik yang lemah. a. Perbandingan antara model BriVL kami dan otak manusia dalam memproses maklumat bahasa visual. b. Perbandingan memodelkan data berkaitan semantik yang lemah dan memodelkan data berkaitan semantik yang kuat.

Dengan melatih data imej dan teks berskala besar yang dirangkak dari Internet, model asas berbilang modal yang kami perolehi menunjukkan keupayaan generalisasi dan imaginasi yang kukuh . Kami percaya bahawa kerja kami mewakili langkah penting (walaupun berpotensi kecil) ke arah kecerdasan buatan am dan akan mempunyai implikasi yang luas untuk pelbagai bidang AI+ seperti neurosains dan penjagaan kesihatan.

Kaedah

Kami membangunkan model asas berbilang modal berskala besar untuk latihan penyeliaan sendiri mengenai data berbilang modal besar, dan menamakannya BriVL (Bridging-Vision -dan-Bahasa).

Pertama, kami menggunakan set data imej dan teks berbilang sumber berskala besar yang dibina daripada Internet, dipanggil Weak Semantic Correlation Dataset (WSCD). WSCD mengumpul pasangan teks imej Cina daripada pelbagai sumber di web, termasuk berita, ensiklopedia dan media sosial. Kami hanya menapis data lucah dan sensitif dalam WSCD tanpa sebarang bentuk pengeditan atau pengubahsuaian pada data asal untuk mengekalkan pengedaran data semula jadinya. Secara keseluruhan, WSCD mempunyai kira-kira 650 juta pasangan teks gambar yang meliputi banyak topik seperti sukan, kehidupan harian dan filem.

Kedua, untuk seni bina rangkaian kami, memandangkan padanan perkataan serantau yang halus tidak semestinya wujud antara imej dan teks, kami membuang pengesan objek yang memakan masa dan menggunakan seni bina Menara berganda yang ringkas , dengan itu dapat mengekod input imej dan teks melalui dua pengekod bebas (Rajah 2). Struktur menara berkembar mempunyai kelebihan kecekapan yang jelas dalam proses inferens kerana ciri set calon boleh dikira dan diindeks sebelum membuat pertanyaan, memenuhi keperluan masa nyata aplikasi dunia sebenar. Ketiga, dengan pembangunan teknologi latihan teragih berskala besar dan pembelajaran penyeliaan sendiri, ia telah menjadi mungkin untuk melatih model dengan data berbilang modal besar tanpa label.

Khususnya, untuk memodelkan korelasi lemah pasangan teks imej dan mempelajari ruang semantik bersatu, kami mereka bentuk algoritma pembelajaran kontrastif merentas mod berdasarkan kaedah pembelajaran kontrastif mod tunggal MoCo. Seperti yang ditunjukkan dalam Rajah 2, model BriVL kami menggunakan mekanisme momentum untuk mengekalkan baris gilir sampel negatif secara dinamik dalam kelompok latihan yang berbeza. Dengan cara ini, kami mempunyai bilangan sampel negatif yang agak besar (kritikal untuk pembelajaran kontrastif) sambil menggunakan saiz kelompok yang agak kecil untuk mengurangkan penggunaan memori GPU (iaitu penjimatan sumber GPU).

Sub-jurnal Nature dari Sekolah Kecerdasan Buatan Hillhouse Universiti Renmin cuba menggunakan model asas berbilang modal untuk bergerak ke arah kecerdasan buatan umum

Rajah 2: Gambar rajah skema model BriVL untuk latihan pra-latihan berbilang modal berskala besar.

Hasil Utama

Visualisasi Rangkaian Neural

Apabila kita mendengar perkataan atau ayat deskriptif, sesuatu terlintas di fikiran kita. Untuk BriVL kami, selepas ia dilatih terlebih dahulu pada sebilangan besar pasangan teks imej yang berkorelasi lemah, kami sangat ingin tahu tentang apa yang dibayangkan apabila teks diberikan.

Secara khusus, kami mula-mula memasukkan sekeping teks dan mendapatkan pembenaman teksnya melalui pengekod teks BriVL. Kemudian kami secara rawak memulakan imej yang bising dan mendapatkan pembenaman cirinya melalui pengekod imej. Memandangkan imej input dimulakan secara rawak, cirinya mestilah tidak konsisten dengan teks input. Oleh itu, kami menentukan matlamat memadankan dua pembenaman ciri dan mengemas kini imej input melalui perambatan belakang. Imej yang terhasil jelas menunjukkan bagaimana BriVL membayangkan teks input. Di sini kami tidak menggunakan sebarang modul atau data tambahan, dan BriVL yang telah dilatih juga dibekukan sepanjang proses visualisasi.

Kami mula-mula memperkenalkan keupayaan BriVL untuk membayangkan beberapa konsep semantik peringkat tinggi (Rajah 3). Seperti yang anda lihat, walaupun konsep ini sangat abstrak, visualisasi dapat menunjukkannya dalam bentuk konkrit (cth., "alam semula jadi": tumbuhan seperti rumput; "masa": jam; "sains": wajah dengan gelas dan kelalang Erlenmeyer; "Dreamland": awan, jambatan ke pintu, dan suasana seperti mimpi). Keupayaan untuk menyamaratakan konsep abstrak kepada satu siri objek konkrit menunjukkan keberkesanan pra-latihan multimodal kami hanya menggunakan data berkaitan semantik yang lemah.

Sub-jurnal Nature dari Sekolah Kecerdasan Buatan Hillhouse Universiti Renmin cuba menggunakan model asas berbilang modal untuk bergerak ke arah kecerdasan buatan umum

Rajah 3: Imaginasi model BriVL tentang konsep abstrak.

Dalam Rajah 4, kami menunjukkan imaginasi BriVL untuk ayat. Imaginasi BriVL tentang "Terdapat cahaya matahari di sebalik awan" bukan sahaja merangkumi cahaya matahari di sebalik awan, tetapi juga nampaknya menunjukkan keadaan berbahaya di laut (terdapat objek seperti kapal dan ombak di sebelah kiri), menyatakan maksud tersirat ini ayat . Dalam visualisasi "Mekar sebagai Bunga Musim Panas" kita dapat melihat sekumpulan bunga. Input teks yang lebih kompleks untuk dua senario seterusnya adalah kedua-duanya daripada puisi Cina purba, dan sintaksnya berbeza sama sekali daripada kebanyakan teks dalam set latihan. Nampaknya BriVL juga boleh memahaminya dengan baik: untuk "Tiga atau dua dahan bunga pic di luar buluh", kita dapat melihat bahawa terdapat buluh dan bunga merah jambu untuk "Matahari di atas pergunungan, Sungai Kuning mengalir ke dalam laut", kita dapat melihat pokok-pokok di atas gunung menutupi matahari terbenam, dan terdapat sebuah bot kecil di sungai di hadapan. Secara keseluruhannya, kami mendapati bahawa BriVL kekal sangat imaginatif walaupun digesa oleh ayat yang kompleks.

Sub-jurnal Nature dari Sekolah Kecerdasan Buatan Hillhouse Universiti Renmin cuba menggunakan model asas berbilang modal untuk bergerak ke arah kecerdasan buatan umum

Rajah 4: Imaginasi model BriVL tentang ayat bahasa Cina.

Dalam Rajah 5, beberapa teks yang serupa digunakan untuk visualisasi rangkaian saraf BriVL. Untuk "Gunung dengan Hutan" terdapat lebih banyak kawasan hijau dalam imej; untuk "Gunung dengan Batu" terdapat lebih banyak batu dalam imej; untuk "Gunung dengan Salji" tanah di sekeliling pokok tengah sama ada putih atau Biru; dengan Air Terjun" air biru boleh dilihat jatuh ke bawah dan juga beberapa wap air. Visualisasi ini menunjukkan bahawa BriVL boleh memahami dan membayangkan pengubah gunung dengan tepat.

Sub-jurnal Nature dari Sekolah Kecerdasan Buatan Hillhouse Universiti Renmin cuba menggunakan model asas berbilang modal untuk bergerak ke arah kecerdasan buatan umum

Rajah 5: Imaginasi model BriVL tentang “gunung dengan…”.

Graf janaan teks

Penggambaran rangkaian saraf sangat mudah, tetapi kadangkala sukar untuk ditafsirkan. Oleh itu, kami membangunkan pendekatan visualisasi/tafsiran alternatif supaya kandungan BriVL yang dibayangkan dapat difahami dengan lebih baik oleh kita manusia. Khususnya, kami memanfaatkan VQGAN untuk menjana imej di bawah bimbingan BriVL kerana VQGAN, yang telah dilatih pada set data ImageNet, sangat baik dalam menjana imej yang realistik. Kami mula-mula secara rawak mendapatkan jujukan token dan mendapatkan imej yang dijana daripada VQGAN yang telah terlatih. Seterusnya, kami memasukkan imej yang dijana ke dalam pengekod imej BriVL dan sekeping teks ke dalam pengekod teks. Akhir sekali, kami mentakrifkan sasaran padanan antara pembenaman imej dan teks dan mengemas kini jujukan token awal melalui perambatan belakang. Seperti visualisasi rangkaian saraf, kedua-dua VQGAN dan BriVL dibekukan semasa proses penjanaan. Sebagai perbandingan, kami juga menunjukkan imej yang dijana oleh model CLIP OpenAI dan bukannya BriVL.

Kami mula-mula memilih empat input teks, menunjukkan hasil graf penjanaan teks CLIP dan BriVL kami masing-masing dalam Rajah 6 dan Rajah 7. Kedua-dua CLIP dan BriVL memahami teks dengan baik, namun kami juga melihat dua perbezaan utama. Pertama, elemen gaya kartun akan muncul dalam imej yang dihasilkan oleh CLIP, manakala imej yang dihasilkan oleh BriVL adalah lebih realistik dan semula jadi. Kedua, CLIP cenderung untuk meletakkan elemen bersama-sama, manakala BriVL menghasilkan imej yang lebih bersatu secara global. Perbezaan pertama mungkin disebabkan oleh data latihan berbeza yang digunakan oleh CLIP dan BriVL. Imej dalam data latihan kami dikikis daripada Internet (kebanyakannya foto sebenar), sementara mungkin terdapat beberapa imej kartun dalam data latihan CLIP. Perbezaan kedua mungkin disebabkan oleh fakta bahawa CLIP menggunakan pasangan teks imej dengan korelasi semantik yang kuat (melalui penapisan perkataan), manakala kami menggunakan data berkorelasi lemah. Ini bermakna semasa pralatihan berbilang modal, CLIP lebih berkemungkinan mempelajari kesesuaian antara objek tertentu dan perkataan/frasa, manakala BriVL cuba memahami setiap imej dengan teks yang diberikan secara keseluruhan.

Sub-jurnal Nature dari Sekolah Kecerdasan Buatan Hillhouse Universiti Renmin cuba menggunakan model asas berbilang modal untuk bergerak ke arah kecerdasan buatan umum

Rajah 6: CLIP (w/ ResNet-50x4) menggunakan VQGAN untuk melaksanakan contoh graf penjanaan teks .

Sub-jurnal Nature dari Sekolah Kecerdasan Buatan Hillhouse Universiti Renmin cuba menggunakan model asas berbilang modal untuk bergerak ke arah kecerdasan buatan umum

Rajah 7: BriVL Kami Contoh pelaksanaan VQGAN untuk menjana graf.

Kami juga menganggap tugas yang lebih mencabar untuk menghasilkan jujukan imej berdasarkan berbilang ayat berturut-turut. Seperti yang ditunjukkan dalam Rajah 8, walaupun setiap imej dijana secara bebas, kita dapat melihat bahawa empat imej adalah koheren secara visual dan mempunyai gaya yang sama. Ini menunjukkan satu lagi kelebihan model BriVL: walaupun persekitaran dan latar belakang dalam imej sukar untuk disebut secara eksplisit dalam teks yang berkaitan, ia tidak diabaikan dalam pra-latihan berbilang modal berskala besar kami.

Sub-jurnal Nature dari Sekolah Kecerdasan Buatan Hillhouse Universiti Renmin cuba menggunakan model asas berbilang modal untuk bergerak ke arah kecerdasan buatan umum

Rajah 8: Contoh BriVL kami menggunakan VQGAN untuk menjana satu siri kandungan yang koheren.

Dalam Rajah 9, kami telah memilih beberapa konsep/senario yang jarang dilihat oleh manusia (seperti "laut terbakar" dan "hutan bercahaya"), malah yang tidak wujud dalam Konsep/senario kehidupan sebenar (cth. " bandar cyberpunk" dan "istana di awan"). Ini membuktikan bahawa prestasi unggul BriVL tidak datang dari overfitting kepada data pra-latihan, kerana input konsep/senario di sini bahkan tidak wujud dalam kehidupan sebenar (sudah tentu, kemungkinan besar tiada dalam set data pra-latihan ). Tambahan pula, contoh yang dijana ini mengesahkan semula kelebihan pra-latihan BriVL pada data berkaitan semantik yang lemah (kerana penjajaran kata serantau yang halus akan menjejaskan keupayaan imaginasi BriVL).

Sub-jurnal Nature dari Sekolah Kecerdasan Buatan Hillhouse Universiti Renmin cuba menggunakan model asas berbilang modal untuk bergerak ke arah kecerdasan buatan umum

Rajah 9: Lebih banyak hasil penjanaan teks BriVL, konsep/senarionya Ia adalah sesuatu yang manusia tidak sering melihat atau bahkan tidak wujud dalam kehidupan sebenar.

Selain itu, kami juga telah menggunakan BriVL pada berbilang tugas hiliran seperti pengelasan tangkapan sifar imej penderiaan jauh, klasifikasi tangkapan sifar berita Cina, soal jawab visual, dsb. ., dan telah mencapai beberapa keputusan yang menarik Sila lihat teks asal kertas kami untuk butiran.

Kesimpulan dan Perbincangan

Kami membangunkan model asas multimodal berskala besar yang dipanggil BriVL, yang beroperasi pada 650 juta imej dan teks yang berkaitan dengan semantik lemah. Kami secara intuitif menunjukkan ruang pembenaman teks imej yang sejajar melalui visualisasi rangkaian saraf dan graf yang dijana teks. Di samping itu, eksperimen pada tugas hiliran lain juga menunjukkan keupayaan pembelajaran/pemindahan merentas domain BriVL dan kelebihan pembelajaran pelbagai mod berbanding pembelajaran mod tunggal. Khususnya, kami mendapati bahawa BriVL nampaknya telah memperoleh beberapa keupayaan untuk membayangkan dan menaakul. Kami percaya kelebihan ini terutamanya datang daripada andaian korelasi semantik yang lemah diikuti oleh BriVL. Iaitu, dengan melombong emosi dan pemikiran manusia yang kompleks dalam pasangan teks imej yang berkorelasi lemah, BriVL kami menjadi lebih kognitif.

Kami percaya bahawa langkah yang kami ambil ke arah kecerdasan buatan am ini akan memberi impak yang luas bukan sahaja pada bidang kecerdasan buatan itu sendiri, tetapi juga pada pelbagai bidang AI +. Untuk penyelidikan kecerdasan buatan, berdasarkan rangka kerja pra-latihan berbilang modal penjimatan sumber GPU kami, penyelidik boleh dengan mudah memanjangkan BriVL kepada magnitud yang lebih besar dan lebih banyak modaliti untuk mendapatkan model asas yang lebih umum. Dengan bantuan model asas berbilang modal berskala besar, ia juga lebih mudah bagi penyelidik untuk meneroka tugas baharu (terutamanya yang tidak mempunyai sampel anotasi manusia yang mencukupi). Untuk medan AI+, model asas boleh menyesuaikan diri dengan pantas kepada persekitaran kerja tertentu kerana keupayaan generalisasi yang kukuh. Sebagai contoh, dalam bidang penjagaan kesihatan, model asas multimodal boleh menggunakan sepenuhnya data multimodal kes untuk meningkatkan ketepatan diagnostik dalam bidang neurosains, model asas multimodal mungkin membantu mengetahui cara maklumat multimodal digunakan dalam Mekanisme gabungan; dalam otak manusia, kerana rangkaian saraf tiruan lebih mudah dipelajari daripada sistem saraf sebenar dalam otak manusia.

Walau bagaimanapun, model asas multimodal masih menghadapi beberapa risiko dan cabaran. Model asas mungkin mempelajari bias dan stereotaip tentang perkara tertentu, dan isu ini harus ditangani dengan teliti sebelum latihan model dan dipantau dan ditangani dalam aplikasi hiliran. Di samping itu, apabila model asas memperoleh lebih banyak keupayaan, kita mesti berhati-hati bahawa ia disalahgunakan oleh orang yang berniat jahat untuk mengelak daripada memberi kesan negatif kepada masyarakat. Selain itu, terdapat juga beberapa cabaran dalam penyelidikan masa depan tentang model asas: cara membangunkan alat kebolehtafsiran model yang lebih mendalam, cara membina set data pra-latihan dengan lebih banyak modaliti, dan cara menggunakan teknik penalaan halus yang lebih berkesan untuk mengubah model asas. . Digunakan untuk pelbagai tugas hiliran.

Penulis makalah ini ialah: Fei Nanyi, Lu Zhiwu, Gao Yizhao, Yang Guoxing, Huo Yuqi, Wen Jingyuan, Lu Haoyu, Song Ruihua, Gao Xin, Xiang Tao, Sun Hao, Wen Jirong ; Pengarang yang sepadan ialah Profesor Lu Zhiwu, Profesor Madya Tetap Sun Hao, dan Profesor Wen Jirong dari Sekolah Kecerdasan Buatan Hillhouse, Universiti Renmin China. Makalah itu diterbitkan dalam jurnal komprehensif antarabangsa "Nature Communications" (nama Inggeris: Nature Communications, disingkat sebagai Nat Commun). Makalah ini telah ditafsirkan oleh Fei Nanyi.

Atas ialah kandungan terperinci Sub-jurnal Nature dari Sekolah Kecerdasan Buatan Hillhouse Universiti Renmin cuba menggunakan model asas berbilang modal untuk bergerak ke arah kecerdasan buatan umum. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!

Kenyataan

Artikel ini dikembalikan pada:51CTO.COM. Jika ada pelanggaran, sila hubungi admin@php.cn Padam

Artikel Berkaitan

Anda mesti membina tempat kerja ai di belakang tudung kejahilanApr 29, 2025 am 11:15 AM

Dalam buku seminal John Rawls pada tahun 1971 The Theory of Justice, beliau mencadangkan percubaan pemikiran yang harus kita ambil sebagai inti reka bentuk AI hari ini dan menggunakan keputusan: tudung kejahilan. Falsafah ini menyediakan alat yang mudah untuk memahami ekuiti dan juga menyediakan pelan tindakan untuk pemimpin untuk menggunakan pemahaman ini untuk mereka bentuk dan melaksanakan AI dengan cara yang saksama. Bayangkan anda membuat peraturan untuk masyarakat baru. Tetapi ada premis: anda tidak tahu terlebih dahulu apa peranan yang akan anda mainkan dalam masyarakat ini. Anda mungkin menjadi kaya atau miskin, sihat atau kurang upaya, milik majoriti atau minoriti marginal. Beroperasi di bawah "VEIL OF KETIGA" ini menghalang pembuat peraturan daripada membuat keputusan yang memberi manfaat kepada diri mereka sendiri. Sebaliknya, orang akan lebih bermotivasi untuk merumuskan orang ramai

Keputusan, Keputusan ... Langkah seterusnya untuk Praktikal Gunaan AIApr 29, 2025 am 11:14 AM

Banyak syarikat yang mengkhususkan diri dalam Automasi Proses Robot (RPA), menawarkan bot untuk mengautomasikan tugas berulang -UIPATH, Automasi di mana sahaja, Prism Blue, dan lain -lain. Sementara itu, proses perlombongan, orkestrasi, dan pemprosesan dokumen pintar Special

Ejen akan datang - lebih banyak mengenai apa yang akan kita lakukan di sebelah rakan kongsi AIApr 29, 2025 am 11:13 AM

Masa depan AI bergerak melampaui ramalan kata mudah dan simulasi perbualan; Ejen AI muncul, mampu tindakan bebas dan penyelesaian tugas. Peralihan ini sudah jelas dalam alat seperti Claude Anthropic. Ejen AI: Penyelidikan a

Mengapa empati lebih penting daripada mengawal pemimpin dalam masa depan yang didorong oleh AIApr 29, 2025 am 11:12 AM

Kemajuan teknologi yang pesat memerlukan perspektif yang berpandangan ke hadapan pada masa depan kerja. Apa yang berlaku apabila AI melampaui peningkatan produktiviti semata -mata dan mula membentuk struktur masyarakat kita? Buku yang akan datang Topher McDougal, Gaia Wakes:

AI untuk Klasifikasi Produk: Bolehkah Mesin Undang -undang Cukai Master?Apr 29, 2025 am 11:11 AM

Klasifikasi produk, sering melibatkan kod kompleks seperti "HS 8471.30" dari sistem seperti sistem harmoni (HS), adalah penting untuk perdagangan antarabangsa dan jualan domestik. Kod ini memastikan permohonan cukai yang betul, memberi kesan kepada setiap inv

Bolehkah Pusat Data menuntut mencetuskan pemulihan teknologi iklim?Apr 29, 2025 am 11:10 AM

Masa Depan Penggunaan Tenaga di Pusat Data dan Pelaburan Teknologi Iklim Artikel ini menerangkan lonjakan penggunaan tenaga di pusat data yang didorong oleh AI dan kesannya terhadap perubahan iklim, dan menganalisis penyelesaian inovatif dan cadangan dasar untuk menangani cabaran ini. Cabaran Permintaan Tenaga: Pusat data besar-besaran dan ultra-besar menggunakan kuasa besar, setanding dengan jumlah beratus-ratus ribu keluarga Amerika Utara yang biasa, dan pusat-pusat skala ultra-besar AI yang muncul menggunakan puluhan kali lebih banyak kuasa daripada ini. Dalam lapan bulan pertama 2024, Microsoft, Meta, Google dan Amazon telah melabur kira -kira AS $ 125 bilion dalam pembinaan dan operasi pusat data AI (JP Morgan, 2024) (Jadual 1). Permintaan tenaga yang semakin meningkat adalah satu cabaran dan peluang. Menurut Canary Media, elektrik yang menjulang

Ai dan Hollywood's Next Golden AgeApr 29, 2025 am 11:09 AM

AI Generatif merevolusi pengeluaran filem dan televisyen. Model Ray 2 Luma, serta Runway's Gen-4, Openai's Sora, Veo Google dan model-model baru yang lain, meningkatkan kualiti video yang dihasilkan pada kelajuan yang belum pernah terjadi sebelumnya. Model-model ini dengan mudah boleh mewujudkan kesan khas yang kompleks dan adegan yang realistik, walaupun klip video pendek dan kesan gerakan yang diperolehi oleh kamera telah dicapai. Walaupun manipulasi dan konsistensi alat -alat ini masih perlu diperbaiki, kelajuan kemajuan adalah menakjubkan. Video generatif menjadi medium bebas. Sesetengah model baik pada pengeluaran animasi, sementara yang lain baik pada imej aksi langsung. Perlu diingat bahawa Firefly Adobe dan Moonvalley's Ma

Adakah Chatgpt perlahan-lahan menjadi Yes-Man terbesar AI?Apr 29, 2025 am 11:08 AM

Pengalaman Pengguna CHATGPT Menolak: Adakah Degradasi Model atau Harapan Pengguna? Baru -baru ini, sebilangan besar pengguna berbayar ChatGPT telah mengadu tentang kemerosotan prestasi mereka, yang telah menarik perhatian yang meluas. Pengguna melaporkan tindak balas yang lebih perlahan terhadap model, jawapan yang lebih pendek, kekurangan bantuan, dan lebih banyak halusinasi. Sesetengah pengguna menyatakan rasa tidak puas hati di media sosial, menunjukkan bahawa ChatGPT telah menjadi "terlalu menyanjung" dan cenderung untuk mengesahkan pandangan pengguna dan bukannya memberikan maklum balas kritikal. Ini bukan sahaja memberi kesan kepada pengalaman pengguna, tetapi juga membawa kerugian sebenar kepada pelanggan korporat, seperti mengurangkan produktiviti dan pembaziran sumber pengkomputeran. Bukti kemerosotan prestasi Ramai pengguna telah melaporkan kemerosotan yang ketara dalam prestasi CHATGPT, terutamanya dalam model yang lebih lama seperti GPT-4 (yang tidak lama lagi akan dihentikan dari perkhidmatan pada akhir bulan ini). ini

See all articles

Alat AI Hot

Undresser.AI Undress

Apl berkuasa AI untuk mencipta foto bogel yang realistik

AI Clothes Remover

Alat AI dalam talian untuk mengeluarkan pakaian daripada foto.

Undress AI Tool

Gambar buka pakaian secara percuma

Clothoff.io

Penyingkiran pakaian AI

Video Face Swap

Tukar muka dalam mana-mana video dengan mudah menggunakan alat tukar muka AI percuma kami!

Tunjukkan Lagi

Artikel Panas

Apa yang Baru di Windows 11 KB5054979 & Cara Memperbaiki Masalah Kemas Kini

3 minggu yang laluByDDD

Bagaimana untuk memperbaiki KB5055523 gagal dipasang di Windows 11?

2 minggu yang laluByDDD

Inzoi: Cara Memohon ke Sekolah dan Universiti

3 minggu yang laluByDDD

Bagaimana untuk memperbaiki KB5055518 gagal dipasang di Windows 10?

2 minggu yang laluByDDD

Roblox: Rails Dead - Cara Memanggil dan Mengalahkan Nikola Tesla

4 minggu yang laluBy尊渡假赌尊渡假赌尊渡假赌

Tunjukkan Lagi

Alat panas

MinGW - GNU Minimalis untuk Windows

Projek ini dalam proses untuk dipindahkan ke osdn.net/projects/mingw, anda boleh terus mengikuti kami di sana. MinGW: Port Windows asli bagi GNU Compiler Collection (GCC), perpustakaan import yang boleh diedarkan secara bebas dan fail pengepala untuk membina aplikasi Windows asli termasuk sambungan kepada masa jalan MSVC untuk menyokong fungsi C99. Semua perisian MinGW boleh dijalankan pada platform Windows 64-bit.