Model pembelajaran multi-modal bukan invasif yang dibangunkan oleh Institut Automasi merealisasikan penyahkodan isyarat otak dan analisis semantik-AI-php.cn

Model pembelajaran multi-modal bukan invasif yang dibangunkan oleh Institut Automasi merealisasikan penyahkodan isyarat otak dan analisis semantik

PHPz

May 08, 2023 am 10:40 AM

Modelpenyahkodan

Model pembelajaran multi-modal bukan invasif yang dibangunkan oleh Institut Automasi merealisasikan penyahkodan isyarat otak dan analisis semantik

Alamat kertas: https://ieeexplore.ieee.org/document/10089190
Alamat kod: https://github.com/ChangdeDu/BraVL
Alamat data: https:// figshare.com/articles/dataset/BraVL/17024591

Terlalu panjang untuk dibaca

Kajian iniPertama Kali Menggabungkan pengetahuan otak, visual dan bahasa, melalui pembelajaran pelbagai mod, adalah mungkin untuk menyahkod kategori visual baharu daripada rekod aktiviti otak manusia dengan sampel sifar . Artikel ini turut menyumbang tiga set data padanan tiga mod "teks imej otak" .

Hasil eksperimen menunjukkan beberapa kesimpulan yang menarik dan pandangan kognitif: 1) Menyahkod kategori visual baharu daripada aktiviti otak manusia boleh dicapai dengan ketepatan yang tinggi 2) Menggunakan model Penyahkodan yang menggabungkan ciri visual dan linguistik melakukan lebih baik daripada model menggunakan hanya satu daripadanya; 3) persepsi visual mungkin disertai dengan pengaruh linguistik untuk mewakili semantik rangsangan visual. Penemuan ini bukan sahaja memberi penerangan tentang pemahaman sistem visual manusia, tetapi juga memberikan idea baharu untuk teknologi antara muka otak-komputer masa hadapan. Kod dan set data untuk kajian ini adalah sumber terbuka.

Latar belakang penyelidikan

Menyahkod perwakilan saraf visual manusia ialah satu cabaran yang mempunyai kepentingan saintifik yang penting, yang boleh mendedahkan mekanisme pemprosesan visual dan menggalakkan perkembangan sains otak dan kecerdasan buatan . Walau bagaimanapun, kaedah penyahkodan saraf semasa sukar untuk digeneralisasikan kepada kategori baharu selain daripada data latihan Terdapat dua sebab utama: Pertama, kaedah sedia ada tidak menggunakan sepenuhnya banyak ciri di sebalik data saraf .

Penyelidikan menunjukkan bahawa persepsi dan pengecaman manusia terhadap rangsangan visual dipengaruhi oleh ciri visual dan pengalaman orang sebelum ini. Sebagai contoh, apabila kita melihat objek biasa, otak kita secara semula jadi mendapatkan semula pengetahuan yang berkaitan dengan objek itu. Seperti yang ditunjukkan dalam Rajah 1 di bawah, penyelidikan neurosains kognitif mengenai teori dwi pengekodan [9] percaya bahawa konsep khusus dikodkan dalam otak secara visual dan linguistik, di mana bahasa, sebagai pengalaman terdahulu yang berkesan, membantu membentuk Perwakilan yang dihasilkan oleh penglihatan.

Oleh itu, penulis percaya bahawa untuk menyahkod isyarat otak yang direkodkan dengan lebih baik, bukan sahaja ciri semantik visual yang dibentangkan sebenar harus digunakan, tetapi juga ciri yang lebih kaya yang berkaitan dengan objek sasaran visual harus digunakan. disertakan Penyahkodan dilakukan dengan gabungan ciri semantik linguistik.

Model pembelajaran multi-modal bukan invasif yang dibangunkan oleh Institut Automasi merealisasikan penyahkodan isyarat otak dan analisis semantik

Rajah 1. Pengekodan dwi pengetahuan dalam otak manusia. Apabila kita melihat gambar gajah, kita secara semula jadi akan mendapatkan semula pengetahuan berkaitan gajah dalam fikiran kita (seperti belalai panjang, gigi panjang, telinga besar, dll.). Pada ketika ini, konsep gajah dikodkan dalam otak secara visual dan lisan, dengan bahasa berfungsi sebagai pengalaman terdahulu yang sah yang membantu membentuk perwakilan yang dihasilkan oleh penglihatan.

Seperti yang ditunjukkan dalam Rajah 2 di bawah, kerana sangat mahal untuk mengumpul aktiviti otak manusia dari pelbagai kategori visual, penyelidik biasanya hanya mempunyai aktiviti visual otak yang sangat terhad. kategori. Walau bagaimanapun, data imej dan teks adalah banyak dan boleh memberikan maklumat berguna tambahan. Kaedah dalam artikel ini boleh menggunakan sepenuhnya semua jenis data (trimodal, bimodal dan unimodal) untuk meningkatkan keupayaan generalisasi penyahkodan saraf.

Model pembelajaran multi-modal bukan invasif yang dibangunkan oleh Institut Automasi merealisasikan penyahkodan isyarat otak dan analisis semantik

Rajah 2. Rangsangan imej, aktiviti otak yang ditimbulkan dan data teks yang sepadan. Kami hanya boleh mengumpul data aktiviti otak untuk beberapa kategori, tetapi data imej dan/atau teks boleh dikumpulkan dengan mudah untuk hampir semua kategori. Oleh itu, untuk kategori yang diketahui, kami menganggap bahawa aktiviti otak, imej visual dan penerangan teks yang sepadan semuanya tersedia untuk latihan, manakala untuk kategori baharu, hanya imej visual dan penerangan teks tersedia untuk latihan. Data ujian adalah data aktiviti otak daripada kategori baharu.

Pembelajaran pelbagai mod "Brain-Picture-Teks"

Seperti yang ditunjukkan dalam Rajah 3A di bawah, kunci kepada kaedah ini adalah menggabungkan setiap modaliti Pengagihan yang dipelajari diselaraskan ke dalam ruang terpendam kongsi yang mengandungi maklumat pelbagai modal penting yang berkaitan dengan kategori baharu.

Secara khusus, penulis mencadangkan Rangka kerja pembelajaran Bayesian variasi pengekodan auto berbilang mod , di mana Campuran Model -Products-of-Experts (MoPoE) digunakan untuk membuat kesimpulan pengekodan terpendam untuk mencapai penjanaan bersama ketiga-tiga modaliti. Untuk mempelajari perwakilan bersama yang lebih relevan dan meningkatkan kecekapan data apabila data aktiviti otak adalah terhad, penulis seterusnya memperkenalkan istilah penyelarasan maklumat bersama antara modal dan antara modal. Tambahan pula, model BraVL boleh dilatih di bawah pelbagai senario pembelajaran separa penyeliaan untuk menggabungkan ciri visual dan tekstual tambahan bagi kategori imej berskala besar.

Dalam Rajah 3B, pengarang melatih pengelas SVM . Perlu diingatkan bahawa pengekod E_v dan E_t dibekukan dalam langkah ini dan hanya pengelas SVM (modul kelabu) akan dioptimumkan.

Dalam aplikasi, seperti yang ditunjukkan dalam Rajah 3C, input kaedah ini hanyalah kategori isyarat otak yang baharu dan tidak memerlukan data lain , jadi ia boleh digunakan dengan mudah pada aplikasi berskala besar kebanyakan senario penyahkodan saraf. Pengelas SVM dapat membuat generalisasi daripada (B) kepada (C) kerana perwakilan asas bagi ketiga-tiga modaliti ini sudah diselaraskan dalam A.

Model pembelajaran multi-modal bukan invasif yang dibangunkan oleh Institut Automasi merealisasikan penyahkodan isyarat otak dan analisis semantik

Rajah 3 Rangka kerja pembelajaran bersama tiga mod "teks gambar otak" yang dicadangkan dalam artikel ini , dirujuk sebagai BraVL.

Selain itu, isyarat otak berubah dari percubaan ke percubaan, walaupun untuk rangsangan visual yang sama. Untuk meningkatkan kestabilan penyahkodan saraf, penulis menggunakan kaedah pemilihan kestabilan untuk memproses data fMRI. Skor kestabilan semua voxel ditunjukkan dalam Rajah 4 di bawah. Penulis memilih 15% voxel teratas dengan kestabilan terbaik untuk mengambil bahagian dalam proses penyahkodan saraf. Operasi ini secara berkesan boleh mengurangkan dimensi data fMRI dan menyekat gangguan yang disebabkan oleh bunyi bising tanpa menjejaskan keupayaan diskriminatif ciri otak secara serius.

Model pembelajaran multi-modal bukan invasif yang dibangunkan oleh Institut Automasi merealisasikan penyahkodan isyarat otak dan analisis semantik

Rajah 4. Peta skor kestabilan aktiviti Voxel korteks visual otak.

Pengekodan neural dan penyahkodan set data yang sedia ada selalunya hanya mempunyai rangsangan imej dan tindak balas otak. Untuk mendapatkan penerangan linguistik yang sepadan dengan konsep visual, penulis menggunakan kaedah pengekstrakan artikel Wikipedia separa automatik . Secara khusus, pengarang mula-mula mencipta padanan automatik kelas ImageNet dan halaman Wikipedia yang sepadan dengannya adalah berdasarkan persamaan antara kelas ImageNet dan perkataan synset tajuk Wikipedia kategori induk mereka. Seperti yang ditunjukkan dalam Rajah 5 di bawah, malangnya, padanan jenis ini kadangkala boleh menghasilkan positif palsu kerana kelas yang dinamakan serupa mungkin mewakili konsep yang sangat berbeza. Semasa membina set data trimodal, untuk memastikan padanan berkualiti tinggi antara ciri visual dan ciri linguistik, pengarang memadamkan artikel yang tidak sepadan secara manual.

Rajah 5. Pemerolehan penerangan konsep visual separa automatik

Hasil eksperimen

Pengarang telah diterbitkan dalam berbilang Eksperimen penyahkodan saraf tangkapan sifar yang meluas telah dijalankan pada set data padanan tiga mod "teks gambar otak" Keputusan eksperimen ditunjukkan dalam jadual di bawah. Seperti yang dapat dilihat, model yang menggunakan gabungan ciri visual dan teks (V&T) berprestasi jauh lebih baik daripada model yang menggunakan salah satu daripadanya sahaja. Terutama, BraVL berdasarkan ciri V&T meningkatkan purata ketepatan 5 teratas dengan ketara pada kedua-dua set data. Keputusan ini mencadangkan bahawa, walaupun rangsangan yang dikemukakan kepada subjek hanya mengandungi maklumat visual, adalah boleh difikirkan bahawa subjek secara tidak sedar menggunakan perwakilan linguistik yang sesuai, dengan itu menjejaskan pemprosesan visual.

Bagi setiap kategori konsep visual, penulis juga menunjukkan keuntungan ketepatan penyahkodan saraf selepas menambah ciri teks, seperti ditunjukkan dalam Rajah 6 di bawah. Dapat dilihat bahawa untuk kebanyakan kelas ujian, penambahan ciri teks mempunyai kesan positif, dengan purata ketepatan penyahkodan Top-1 meningkat kira-kira 6%.

Model pembelajaran multi-modal bukan invasif yang dibangunkan oleh Institut Automasi merealisasikan penyahkodan isyarat otak dan analisis semantik

Rajah 6. Keuntungan ketepatan penyahkodan saraf selepas menambah ciri teks

Selain analisis penyahkodan saraf, penulis juga menganalisis sumbangan ciri teks dalam pengekodan saraf peringkat voxel (meramalkan otak yang sepadan berdasarkan visual atau teks menampilkan aktiviti Voxel), hasilnya ditunjukkan dalam Rajah 7. Dapat dilihat bahawa bagi kebanyakan korteks visual peringkat tinggi (HVC, seperti FFA, LOC dan IT), gabungan ciri teks berdasarkan ciri visual boleh meningkatkan ketepatan ramalan aktiviti otak, manakala bagi kebanyakan korteks visual peringkat rendah. (LVC, seperti V1, V2 dan V3), menggabungkan ciri teks tidak berfaedah malah berbahaya.

Dari perspektif neurosains kognitif, keputusan kami adalah munasabah, kerana secara amnya dipercayai bahawa HVC bertanggungjawab untuk memproses maklumat semantik peringkat lebih tinggi seperti maklumat kategori dan maklumat gerakan objek. LVC bertanggungjawab untuk memproses maklumat peringkat rendah seperti arah dan garis besar. Di samping itu, kajian saintifik baru-baru ini mendapati bahawa perwakilan semantik visual dan linguistik diselaraskan pada sempadan korteks visual manusia (iaitu, "hipotesis penjajaran semantik")[10], dan hasil eksperimen pengarang juga menyokong hipotesis ini

Model pembelajaran multi-modal bukan invasif yang dibangunkan oleh Institut Automasi merealisasikan penyahkodan isyarat otak dan analisis semantik

Rajah 7. Unjuran sumbangan ciri teks kepada korteks visual

Untuk lebih banyak hasil percubaan, sila lihat teks asal.

Secara keseluruhannya, kertas kerja ini membuat beberapa kesimpulan dan pandangan kognitif yang menarik: 1) Menyahkod kategori visual baharu daripada aktiviti otak manusia boleh dicapai dengan ketepatan yang tinggi 2) Menyahkod model menggunakan gabungan visual dan ciri linguistik berprestasi jauh lebih baik daripada model penyahkodan menggunakan sama ada secara bersendirian; 3) Persepsi visual mungkin disertai dengan pengaruh linguistik untuk mewakili semantik rangsangan visual 4) Menggunakan Bahasa semulajadi sebagai penerangan konsep mempunyai prestasi penyahkodan saraf yang lebih tinggi daripada menggunakan nama kelas; ) Data tambahan dalam kedua-dua unimodaliti dan bimodaliti boleh meningkatkan ketepatan penyahkodan dengan ketara.

Perbincangan dan Tinjauan

Du Changde, pengarang pertama kertas kerja dan pembantu penyelidik khas di Institut Automasi, Akademi Sains China, berkata: "Ini kerja mengesahkan hasil daripada aktiviti otak, imej visual dan teks Ciri yang diekstrak dalam huraian adalah berkesan untuk menyahkod isyarat saraf Walau bagaimanapun, ciri visual yang diekstrak mungkin tidak menggambarkan dengan tepat semua peringkat pemprosesan visual manusia, dan set ciri yang lebih baik akan membantu untuk. Sebagai contoh, yang lebih besar boleh digunakan Selain itu, walaupun artikel Wikipedia mengandungi maklumat visual yang kaya, maklumat ini mudah dikaburkan oleh sejumlah besar ayat bukan visual penerangan visual melalui pengekstrakan ayat visual atau menggunakan model seperti ChatGPT dan GPT-4 Akhir sekali, walaupun kajian ini menggunakan lebih banyak data tri-modal berbanding dengan kajian berkaitan Satu set data yang lebih besar dan lebih berfaedah kepada penyelidikan masa hadapan.”

Pengarang kertas yang sepadan, penyelidik He Huiguang dari Institut Automasi, Akademi Sains China, menegaskan: "Kaedah yang dicadangkan dalam artikel ini mempunyai tiga aplikasi yang berpotensi: 1) Sebagai alat penyahkod semantik saraf , kaedah ini akan digunakan dalam jenis baru membaca maklumat semantik otak manusia Walaupun aplikasi ini belum matang, kaedah kami menyediakan asas teknikal untuknya 2) Dengan membuat kesimpulan aktiviti otak merentasi modaliti, kaedah kami juga boleh digunakan sebagai alat pengekodan saraf Untuk mengkaji bagaimana ciri visual dan linguistik diekspresikan pada korteks serebrum manusia, mendedahkan kawasan otak yang mempunyai sifat multimodal (iaitu, sensitif kepada ciri visual dan linguistik) 3) Kebolehdekodan saraf bagi perwakilan dalaman. model AI boleh dianggap sebagai penunjuk tahap seperti otak Oleh itu, kaedah dalam kertas ini juga boleh digunakan sebagai alat penilaian sifat seperti otak untuk menguji perwakilan model (visual atau bahasa) yang lebih dekat dengan. aktiviti otak manusia, dengan itu memotivasikan penyelidik untuk mereka bentuk lebih banyak model pengiraan seperti otak 》

Pengekodan dan penyahkodan maklumat saraf adalah isu teras dalam bidang antara muka otak-komputer cara yang berkesan untuk meneroka prinsip di sebalik fungsi kompleks otak manusia dan menggalakkan perkembangan kecerdasan seperti otak. Pasukan penyelidikan pengkomputeran saraf dan interaksi otak-komputer Institut Automasi telah bekerja dalam bidang ini selama bertahun-tahun dan telah membuat satu siri kerja penyelidikan, yang diterbitkan dalam TPAMI 2023, TMI2023, TNNLS 2022/2019, TMM 2021, Maklumat Fusion 2021, AAI 2020, dsb. Kerja awal telah dilaporkan dalam tajuk utama Kajian Teknologi MIT dan memenangi Anugerah Naib Juara Kertas Terbaik ICME 2019.

Penyelidikan ini disokong oleh Inovasi Sains dan Teknologi 2030 - projek utama "Generasi Baharu Kecerdasan Buatan", Projek Yayasan Kebangsaan, Projek Institut Automasi 2035 dan China Buatan Persatuan Perisikan-Huawei MindSpore Academic Award Fund and Intelligence Support for pedestals dan projek lain.

Mengenai pengarang

Pengarang pertama: Du Changde, pembantu penyelidik khas di Institut Automasi, Akademi Sains China, terlibat dalam penyelidikan tentang kognisi otak dan kecerdasan buatan , dalam maklumat saraf visual Beliau telah menerbitkan lebih daripada 40 kertas kerja mengenai pengekodan, penyahkodan, pengkomputeran saraf berbilang modal, dsb., termasuk TPAMI/TNNLS/AAAI/KDD/ACMMM, dsb. Beliau telah memenangi Anugerah Naib Juara Kertas Terbaik IEEE ICME 2019 dan 100 Bintang Meningkat AI Cina Teratas 2021. Beliau telah menjalankan beberapa tugas penyelidikan saintifik secara berturut-turut untuk Kementerian Sains dan Teknologi, Yayasan Kebangsaan Sains dan Teknologi, dan Akademi Sains China, dan hasil penyelidikannya dilaporkan dalam tajuk utama Kajian Teknologi MIT.

Model pembelajaran multi-modal bukan invasif yang dibangunkan oleh Institut Automasi merealisasikan penyahkodan isyarat otak dan analisis semantik

Halaman utama peribadi: https://changdedu.github.io/

Pengarang yang sepadan: He Huiguang, penyelidik di Institut Automasi, Akademi Sains China, penyelia kedoktoran, jawatan profesor di Universiti Akademi Sains China, profesor terkenal di Universiti Sains dan Teknologi Shanghai, ahli cemerlang Promosi Belia Persatuan Akademi Sains China, dan pemenang pingat peringatan untuk ulang tahun ke-70 penubuhan Republik Rakyat China. Beliau telah menjalankan 7 projek Dana Asli Nasional (termasuk dana utama dan projek kerjasama antarabangsa), 2 863 projek, dan projek rancangan penyelidikan utama negara. Beliau telah memenangi dua Anugerah Kemajuan Sains dan Teknologi Kebangsaan kelas kedua (masing-masing menduduki tempat kedua dan ketiga), dua Anugerah Kemajuan Sains dan Teknologi Beijing, Anugerah Kemajuan Sains dan Teknologi kelas pertama Kementerian Pendidikan, Anugerah Tesis Kedoktoran Cemerlang pertama daripada Akademi Sains China, Bintang Kebangkitan Sains dan Teknologi Beijing, dan Akademi Sains China "Anugerah Bakat Muda Lu Jiaxi", Profesor Pengerusi "Ulama Minjiang" Wilayah Fujian. Bidang penyelidikannya termasuk kecerdasan buatan, antara muka otak-komputer, analisis imej perubatan, dll. Dalam tempoh lima tahun yang lalu, beliau telah menerbitkan lebih daripada 80 artikel dalam jurnal dan persidangan seperti IEEE TPAMI/TNNLS dan ICML. Beliau ialah ahli lembaga editorial IEEEE TCDS, Jurnal Automasi dan jurnal lain, ahli CCF yang terkenal, dan ahli CSIG yang terkenal.

Model pembelajaran multi-modal bukan invasif yang dibangunkan oleh Institut Automasi merealisasikan penyahkodan isyarat otak dan analisis semantik

Atas ialah kandungan terperinci Model pembelajaran multi-modal bukan invasif yang dibangunkan oleh Institut Automasi merealisasikan penyahkodan isyarat otak dan analisis semantik. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!

Kenyataan

Artikel ini dikembalikan pada:51CTO.COM. Jika ada pelanggaran, sila hubungi admin@php.cn Padam

Artikel Berkaitan

Anda mesti membina tempat kerja ai di belakang tudung kejahilanApr 29, 2025 am 11:15 AM

Dalam buku seminal John Rawls pada tahun 1971 The Theory of Justice, beliau mencadangkan percubaan pemikiran yang harus kita ambil sebagai inti reka bentuk AI hari ini dan menggunakan keputusan: tudung kejahilan. Falsafah ini menyediakan alat yang mudah untuk memahami ekuiti dan juga menyediakan pelan tindakan untuk pemimpin untuk menggunakan pemahaman ini untuk mereka bentuk dan melaksanakan AI dengan cara yang saksama. Bayangkan anda membuat peraturan untuk masyarakat baru. Tetapi ada premis: anda tidak tahu terlebih dahulu apa peranan yang akan anda mainkan dalam masyarakat ini. Anda mungkin menjadi kaya atau miskin, sihat atau kurang upaya, milik majoriti atau minoriti marginal. Beroperasi di bawah "VEIL OF KETIGA" ini menghalang pembuat peraturan daripada membuat keputusan yang memberi manfaat kepada diri mereka sendiri. Sebaliknya, orang akan lebih bermotivasi untuk merumuskan orang ramai

Keputusan, Keputusan ... Langkah seterusnya untuk Praktikal Gunaan AIApr 29, 2025 am 11:14 AM

Banyak syarikat yang mengkhususkan diri dalam Automasi Proses Robot (RPA), menawarkan bot untuk mengautomasikan tugas berulang -UIPATH, Automasi di mana sahaja, Prism Blue, dan lain -lain. Sementara itu, proses perlombongan, orkestrasi, dan pemprosesan dokumen pintar Special

Ejen akan datang - lebih banyak mengenai apa yang akan kita lakukan di sebelah rakan kongsi AIApr 29, 2025 am 11:13 AM

Masa depan AI bergerak melampaui ramalan kata mudah dan simulasi perbualan; Ejen AI muncul, mampu tindakan bebas dan penyelesaian tugas. Peralihan ini sudah jelas dalam alat seperti Claude Anthropic. Ejen AI: Penyelidikan a

Mengapa empati lebih penting daripada mengawal pemimpin dalam masa depan yang didorong oleh AIApr 29, 2025 am 11:12 AM

Kemajuan teknologi yang pesat memerlukan perspektif yang berpandangan ke hadapan pada masa depan kerja. Apa yang berlaku apabila AI melampaui peningkatan produktiviti semata -mata dan mula membentuk struktur masyarakat kita? Buku yang akan datang Topher McDougal, Gaia Wakes:

AI untuk Klasifikasi Produk: Bolehkah Mesin Undang -undang Cukai Master?Apr 29, 2025 am 11:11 AM

Klasifikasi produk, sering melibatkan kod kompleks seperti "HS 8471.30" dari sistem seperti sistem harmoni (HS), adalah penting untuk perdagangan antarabangsa dan jualan domestik. Kod ini memastikan permohonan cukai yang betul, memberi kesan kepada setiap inv

Bolehkah Pusat Data menuntut mencetuskan pemulihan teknologi iklim?Apr 29, 2025 am 11:10 AM

Masa Depan Penggunaan Tenaga di Pusat Data dan Pelaburan Teknologi Iklim Artikel ini menerangkan lonjakan penggunaan tenaga di pusat data yang didorong oleh AI dan kesannya terhadap perubahan iklim, dan menganalisis penyelesaian inovatif dan cadangan dasar untuk menangani cabaran ini. Cabaran Permintaan Tenaga: Pusat data besar-besaran dan ultra-besar menggunakan kuasa besar, setanding dengan jumlah beratus-ratus ribu keluarga Amerika Utara yang biasa, dan pusat-pusat skala ultra-besar AI yang muncul menggunakan puluhan kali lebih banyak kuasa daripada ini. Dalam lapan bulan pertama 2024, Microsoft, Meta, Google dan Amazon telah melabur kira -kira AS $ 125 bilion dalam pembinaan dan operasi pusat data AI (JP Morgan, 2024) (Jadual 1). Permintaan tenaga yang semakin meningkat adalah satu cabaran dan peluang. Menurut Canary Media, elektrik yang menjulang

Ai dan Hollywood's Next Golden AgeApr 29, 2025 am 11:09 AM

AI Generatif merevolusi pengeluaran filem dan televisyen. Model Ray 2 Luma, serta Runway's Gen-4, Openai's Sora, Veo Google dan model-model baru yang lain, meningkatkan kualiti video yang dihasilkan pada kelajuan yang belum pernah terjadi sebelumnya. Model-model ini dengan mudah boleh mewujudkan kesan khas yang kompleks dan adegan yang realistik, walaupun klip video pendek dan kesan gerakan yang diperolehi oleh kamera telah dicapai. Walaupun manipulasi dan konsistensi alat -alat ini masih perlu diperbaiki, kelajuan kemajuan adalah menakjubkan. Video generatif menjadi medium bebas. Sesetengah model baik pada pengeluaran animasi, sementara yang lain baik pada imej aksi langsung. Perlu diingat bahawa Firefly Adobe dan Moonvalley's Ma

Adakah Chatgpt perlahan-lahan menjadi Yes-Man terbesar AI?Apr 29, 2025 am 11:08 AM

Pengalaman Pengguna CHATGPT Menolak: Adakah Degradasi Model atau Harapan Pengguna? Baru -baru ini, sebilangan besar pengguna berbayar ChatGPT telah mengadu tentang kemerosotan prestasi mereka, yang telah menarik perhatian yang meluas. Pengguna melaporkan tindak balas yang lebih perlahan terhadap model, jawapan yang lebih pendek, kekurangan bantuan, dan lebih banyak halusinasi. Sesetengah pengguna menyatakan rasa tidak puas hati di media sosial, menunjukkan bahawa ChatGPT telah menjadi "terlalu menyanjung" dan cenderung untuk mengesahkan pandangan pengguna dan bukannya memberikan maklum balas kritikal. Ini bukan sahaja memberi kesan kepada pengalaman pengguna, tetapi juga membawa kerugian sebenar kepada pelanggan korporat, seperti mengurangkan produktiviti dan pembaziran sumber pengkomputeran. Bukti kemerosotan prestasi Ramai pengguna telah melaporkan kemerosotan yang ketara dalam prestasi CHATGPT, terutamanya dalam model yang lebih lama seperti GPT-4 (yang tidak lama lagi akan dihentikan dari perkhidmatan pada akhir bulan ini). ini

See all articles

Alat AI Hot

Undresser.AI Undress

Apl berkuasa AI untuk mencipta foto bogel yang realistik

AI Clothes Remover

Alat AI dalam talian untuk mengeluarkan pakaian daripada foto.

Undress AI Tool

Gambar buka pakaian secara percuma

Clothoff.io

Penyingkiran pakaian AI

Video Face Swap

Tukar muka dalam mana-mana video dengan mudah menggunakan alat tukar muka AI percuma kami!

Tunjukkan Lagi

Artikel Panas

Apa yang Baru di Windows 11 KB5054979 & Cara Memperbaiki Masalah Kemas Kini

3 minggu yang laluByDDD

Bagaimana untuk memperbaiki KB5055523 gagal dipasang di Windows 11?

2 minggu yang laluByDDD

Inzoi: Cara Memohon ke Sekolah dan Universiti

3 minggu yang laluByDDD

Bagaimana untuk memperbaiki KB5055518 gagal dipasang di Windows 10?

2 minggu yang laluByDDD

Roblox: Rails Dead - Cara Memanggil dan Mengalahkan Nikola Tesla

4 minggu yang laluBy尊渡假赌尊渡假赌尊渡假赌

Tunjukkan Lagi

Alat panas

MinGW - GNU Minimalis untuk Windows

Projek ini dalam proses untuk dipindahkan ke osdn.net/projects/mingw, anda boleh terus mengikuti kami di sana. MinGW: Port Windows asli bagi GNU Compiler Collection (GCC), perpustakaan import yang boleh diedarkan secara bebas dan fail pengepala untuk membina aplikasi Windows asli termasuk sambungan kepada masa jalan MSVC untuk menyokong fungsi C99. Semua perisian MinGW boleh dijalankan pada platform Windows 64-bit.