Kerja pecah tanah Transformer ditentang, semakan ICLR menimbulkan persoalan! Orang ramai menuduh operasi kotak hitam, LeCun mendedahkan pengalaman serupa-AI-php.cn

Kerja pecah tanah Transformer ditentang, semakan ICLR menimbulkan persoalan! Orang ramai menuduh operasi kotak hitam, LeCun mendedahkan pengalaman serupa

PHPz

Jan 26, 2024 pm 02:57 PM

aidata

Pada Disember tahun lalu, dua penyelidik dari CMU dan Princeton mengeluarkan seni bina Mamba, yang serta-merta mengejutkan komuniti AI!

Akibatnya, kertas kerja yang dijangka "menumbangkan hegemoni Transformer" ini didedahkan hari ini untuk disyaki ditolak? !

Pagi ini, Sasha Rush, profesor madya di Cornell University, mula-mula mendapati bahawa kertas kerja yang dijangka menjadi karya asas ini nampaknya ditolak oleh ICLR 2024.

dan berkata, "Sejujurnya, saya tidak faham. Jika ditolak, apa peluang yang kita ada".

Kerja pecah tanah Transformer ditentang, semakan ICLR menimbulkan persoalan! Orang ramai menuduh operasi kotak hitam, LeCun mendedahkan pengalaman serupa

Seperti yang anda lihat di OpenReview, markah yang diberikan oleh empat pengulas ialah 3, 6, 8 dan 8.

Kerja pecah tanah Transformer ditentang, semakan ICLR menimbulkan persoalan! Orang ramai menuduh operasi kotak hitam, LeCun mendedahkan pengalaman serupa

Walaupun markah ini mungkin tidak menyebabkan kertas ditolak, markah serendah 3 mata juga keterlaluan.

Niu Wen menjaringkan 3 mata, dan LeCun juga keluar untuk menangis

Kertas kerja yang diterbitkan oleh dua penyelidik dari CMU dan Princeton University mencadangkan Mamba seni bina baharu.

Seni bina SSM ini setanding dengan Transformers dalam pemodelan bahasa, dan juga boleh skala secara linear, sambil mempunyai 5 kali daya pemprosesan inferens!

Kerja pecah tanah Transformer ditentang, semakan ICLR menimbulkan persoalan! Orang ramai menuduh operasi kotak hitam, LeCun mendedahkan pengalaman serupa

Alamat kertas: https://arxiv.org/pdf/2312.00752.pdf

Sebaik sahaja kertas itu keluar, ia secara langsung mengejutkan komuniti AI Transformer yang terbalik itu akhirnya dilahirkan.

Kini, kertas Mamba berkemungkinan ditolak, yang tidak dapat difahami oleh ramai orang.

Malah gergasi Turing LeCun turut serta dalam perbincangan ini, mengatakan bahawa dia telah menghadapi "ketidakadilan" yang serupa.

"Saya fikir ketika itu, saya mempunyai paling banyak petikan. Kertas yang saya serahkan di Arxiv sahaja telah dipetik lebih daripada 1880 kali, tetapi ia tidak pernah diterima."

Kerja pecah tanah Transformer ditentang, semakan ICLR menimbulkan persoalan! Orang ramai menuduh operasi kotak hitam, LeCun mendedahkan pengalaman serupa

LeCun terkenal dengan karyanya dalam pengecaman aksara optik dan penglihatan komputer menggunakan rangkaian neural convolutional (CNN), yang mana beliau memenangi Anugerah Turing pada 2019.

Walau bagaimanapun, kertas kerjanya "Deep Convolutional Network Based on Graph Structure Data" yang diterbitkan pada 2015 tidak pernah diterima oleh persidangan itu.

Kerja pecah tanah Transformer ditentang, semakan ICLR menimbulkan persoalan! Orang ramai menuduh operasi kotak hitam, LeCun mendedahkan pengalaman serupa

Alamat kertas: https://arxiv.org/pdf/1506.05163.pdf

Pembelajaran mendalam penyelidik AI Sebastian Raschka berkata walaupun demikian, Mamba telah memberi impak yang mendalam kepada komuniti .

Gelombang besar penyelidikan baru-baru ini diperoleh daripada seni bina Mamba, seperti MoE-Mamba dan Vision Mamba.

Kerja pecah tanah Transformer ditentang, semakan ICLR menimbulkan persoalan! Orang ramai menuduh operasi kotak hitam, LeCun mendedahkan pengalaman serupa

Menariknya, Sasha Rush, yang menyampaikan berita bahawa Mamba diberi markah rendah, turut menerbitkan kertas kerja baharu berdasarkan penyelidikan sedemikian hari ini - MambaByte.

Kerja pecah tanah Transformer ditentang, semakan ICLR menimbulkan persoalan! Orang ramai menuduh operasi kotak hitam, LeCun mendedahkan pengalaman serupa

Malah, seni bina Mamba telah pun mencapai status "satu percikan api boleh memulakan api padang rumput", dan pengaruhnya dalam lingkungan akademik semakin meluas.

Sesetengah netizen berkata bahawa kertas Mamba akan mula menduduki arXiv.

"Sebagai contoh, saya baru saja melihat kertas ini mencadangkan MambaByte, model ruang keadaan terpilih tanpa token. Pada asasnya, ia menyesuaikan Mamba SSM untuk belajar terus daripada token asal." Mamba Papers juga memajukan penyelidikan ini hari ini.

Kerja pecah tanah Transformer ditentang, semakan ICLR menimbulkan persoalan! Orang ramai menuduh operasi kotak hitam, LeCun mendedahkan pengalaman serupa

Makalah yang begitu popular diberi markah rendah Sesetengah orang berkata nampaknya peer review benar-benar tidak mempedulikan pemasaran.

Kerja pecah tanah Transformer ditentang, semakan ICLR menimbulkan persoalan! Orang ramai menuduh operasi kotak hitam, LeCun mendedahkan pengalaman serupa

Sebab kertas Mamba diberi markah 3

Kerja pecah tanah Transformer ditentang, semakan ICLR menimbulkan persoalan! Orang ramai menuduh operasi kotak hitam, LeCun mendedahkan pengalaman serupa Apakah sebab memberi markah rendah kepada kertas Mamba?

Anda boleh lihat bahawa pengulas yang memberikan ulasan skor 3 mempunyai tahap keyakinan 5, bermakna dia sangat yakin dengan skor ini.

Dalam ulasan, soalan yang dibangkitkannya terbahagi kepada dua bahagian: satu mempersoalkan reka bentuk model, dan satu lagi mempersoalkan eksperimen.

Kerja pecah tanah Transformer ditentang, semakan ICLR menimbulkan persoalan! Orang ramai menuduh operasi kotak hitam, LeCun mendedahkan pengalaman serupa

Reka bentuk model

- Motivasi reka bentuk Mamba adalah untuk menyelesaikan kekurangan model gelung sambil meningkatkan kecekapan model berasaskan Transformer. Terdapat banyak kajian sepanjang arah ini: S4-pepenjuru [1], SGConv [2], MEGA [3], SPADE [4], dan banyak model Transformer yang cekap (seperti [5]). Semua model ini mencapai kerumitan hampir linear, dan pengarang perlu membandingkan Mamba dengan karya ini dari segi prestasi dan kecekapan model. Berkenaan prestasi model, beberapa eksperimen mudah (seperti pemodelan bahasa di Wikitext-103) sudah memadai. - Banyak model Transformer berasaskan perhatian mempamerkan keupayaan generalisasi panjang, iaitu model boleh dilatih pada panjang jujukan yang lebih pendek dan kemudian diuji pada panjang jujukan yang lebih panjang. Beberapa contoh termasuk pengekodan kedudukan relatif (T5) dan Alibi [6]. Memandangkan SSM secara amnya berterusan, adakah Mamba mempunyai keupayaan generalisasi panjang ini?

Eksperimen

Kerja pecah tanah Transformer ditentang, semakan ICLR menimbulkan persoalan! Orang ramai menuduh operasi kotak hitam, LeCun mendedahkan pengalaman serupa

- Pengarang perlu membandingkan dengan garis dasar yang lebih kukuh. Penulis mengakui bahawa H3 digunakan sebagai motivasi untuk seni bina model. Walau bagaimanapun, mereka tidak membandingkan dengan H3 secara eksperimen. Seperti yang boleh dilihat daripada Jadual 4 dalam [7], pada set data Pile, ppl H3 masing-masing ialah 8.8 (125M), 7.1 (355M) dan 6.0 (1.3B), yang jauh lebih baik daripada Mamba. Penulis perlu menunjukkan perbandingan dengan H3. - Untuk model pra-latihan, penulis hanya menunjukkan keputusan inferens pukulan sifar. Persediaan ini agak terhad dan hasilnya tidak berfungsi dengan baik untuk menunjukkan keberkesanan Mamba. Saya mengesyorkan pengarang untuk menjalankan lebih banyak eksperimen dengan jujukan yang panjang, seperti ringkasan dokumen, di mana jujukan input secara semula jadi akan menjadi sangat panjang (cth., panjang jujukan purata set data arXiv lebih besar daripada 8k).

- Penulis mendakwa bahawa salah satu sumbangan utamanya ialah pemodelan urutan panjang. Penulis harus membandingkan dengan lebih banyak garis dasar pada LRA (Long Range Arena), yang pada asasnya merupakan penanda aras standard untuk pemahaman urutan panjang.

- Tanda aras ingatan hilang. Walaupun Bahagian 4.5 bertajuk "Tanda Aras Kelajuan dan Memori," ia hanya merangkumi perbandingan kelajuan. Di samping itu, pengarang harus menyediakan tetapan yang lebih terperinci di sebelah kiri Rajah 8, seperti lapisan model, saiz model, butiran konvolusi, dsb. Bolehkah penulis memberikan beberapa penjelasan intuitif tentang mengapa FlashAttention paling perlahan apabila panjang jujukan adalah sangat besar (Rajah 8 kiri)?

Sebagai tindak balas kepada keraguan pengulas, pengarang juga kembali membuat kerja rumahnya dan menghasilkan beberapa data percubaan untuk disangkal.

Sebagai contoh, mengenai soalan pertama mengenai reka bentuk model, penulis menyatakan bahawa pasukan itu berhasrat untuk menumpukan perhatian kepada kerumitan pra-latihan berskala besar dan bukannya penanda aras berskala kecil.

Walau bagaimanapun, Mamba mengatasi semua model yang dicadangkan dengan ketara dan lebih banyak lagi pada WikiText-103, yang kami jangkakan daripada keputusan umum kami dalam bahasa.

Pertama, kami membandingkan Mamba dalam persekitaran yang sama seperti kertas Hyena [Poli, Jadual 4.3]. Sebagai tambahan kepada data yang dilaporkan, kami juga menala garis dasar Transformer kami yang kukuh.

Kemudian, kami menukar model kepada Mamba, yang meningkatkan 1.7 ppl berbanding Transformer kami dan 2.3 ppl berbanding Transformer garis dasar yang asal. Bagi kebanyakan model jujukan dalam (termasuk FlashAttention), penggunaan memori hanya sebesar tensor pengaktifan. Malah, Mamba sangat cekap memori; kami juga mengukur keperluan memori latihan model 125M pada GPU A100 80GB. Setiap kumpulan terdiri daripada urutan panjang 2048. Kami membandingkan ini dengan pelaksanaan Transformer yang paling cekap memori yang kami ketahui (penyatuan kernel dan FlashAttention-2 menggunakan torch.compile).

Kerja pecah tanah Transformer ditentang, semakan ICLR menimbulkan persoalan! Orang ramai menuduh operasi kotak hitam, LeCun mendedahkan pengalaman serupa

Untuk butiran sanggahan lanjut, sila semak https://openreview.net/forum?id=AL1fq05o7H

Secara umum, ulasan pengulas telah diselesaikan oleh pengarang Namun, bantahan ini mereka semua tidak diendahkan oleh pengulas.

Kerja pecah tanah Transformer ditentang, semakan ICLR menimbulkan persoalan! Orang ramai menuduh operasi kotak hitam, LeCun mendedahkan pengalaman serupa Seseorang menemui "titik" pada pendapat pengulas ini: Mungkin dia tidak faham apa itu rnn?

Netizen yang menonton keseluruhan proses itu berkata bahawa keseluruhan proses itu terlalu menyakitkan untuk dibaca oleh penulis kertas itu, tetapi pengulas tidak goyah dan tidak menilai semula.

Nilai 3 dengan tahap keyakinan 5 dan abaikan sanggahan pengarang yang berasas ini terlalu menjengkelkan. Kerja pecah tanah Transformer ditentang, semakan ICLR menimbulkan persoalan! Orang ramai menuduh operasi kotak hitam, LeCun mendedahkan pengalaman serupa

Tiga pengulas yang lain memberikan markah tinggi 6, 8 dan 8. Kerja pecah tanah Transformer ditentang, semakan ICLR menimbulkan persoalan! Orang ramai menuduh operasi kotak hitam, LeCun mendedahkan pengalaman serupa

Pengulas yang mendapat 6 mata menegaskan bahawa kelemahannya ialah "model masih memerlukan memori sekunder seperti Transformer semasa latihan".

Kerja pecah tanah Transformer ditentang, semakan ICLR menimbulkan persoalan! Orang ramai menuduh operasi kotak hitam, LeCun mendedahkan pengalaman serupa

Pengulas yang mendapat 8 mata mengatakan bahawa kelemahan artikel tersebut hanyalah "kekurangan petikan kepada beberapa karya berkaitan".

Seorang lagi pengulas yang memberikan 8 mata memuji kertas tersebut sambil berkata "bahagian empirikalnya sangat teliti dan hasilnya kukuh". Kerja pecah tanah Transformer ditentang, semakan ICLR menimbulkan persoalan! Orang ramai menuduh operasi kotak hitam, LeCun mendedahkan pengalaman serupa

Tak jumpa pun Kelemahan.

Kerja pecah tanah Transformer ditentang, semakan ICLR menimbulkan persoalan! Orang ramai menuduh operasi kotak hitam, LeCun mendedahkan pengalaman serupa

Perlu ada penjelasan untuk klasifikasi yang berbeza secara meluas. Tetapi belum ada ulasan pengulas meta.

Kerja pecah tanah Transformer ditentang, semakan ICLR menimbulkan persoalan! Orang ramai menuduh operasi kotak hitam, LeCun mendedahkan pengalaman serupa

Netizen menjerit: Dunia akademik juga merosot!

Di ruangan komen, ada yang bertanya tentang penyeksaan jiwa Siapa yang mendapat markah 3 yang rendah? ?

Kerja pecah tanah Transformer ditentang, semakan ICLR menimbulkan persoalan! Orang ramai menuduh operasi kotak hitam, LeCun mendedahkan pengalaman serupa

Jelas sekali, kertas ini telah mencapai hasil yang lebih baik dengan parameter yang sangat rendah, dan kod GitHub juga sangat jelas dan semua orang boleh mengujinya, jadi ia telah mendapat pujian di kalangan orang ramai, jadi semua orang Rasanya keterlaluan.

Kerja pecah tanah Transformer ditentang, semakan ICLR menimbulkan persoalan! Orang ramai menuduh operasi kotak hitam, LeCun mendedahkan pengalaman serupa

Sesetengah orang hanya menjerit WTF, walaupun seni bina Mamba tidak dapat mengubah corak LLM, ia adalah model yang boleh dipercayai dengan pelbagai kegunaan pada jujukan panjang. Untuk mendapatkan markah ini, adakah ia bermakna dunia akademik hari ini telah merosot?

Kerja pecah tanah Transformer ditentang, semakan ICLR menimbulkan persoalan! Orang ramai menuduh operasi kotak hitam, LeCun mendedahkan pengalaman serupa

Semua orang berkata dengan penuh emosi bahawa mujurlah ini hanyalah salah satu daripada empat komen Pengulas lain memberikan markah yang tinggi dan keputusan muktamad belum dibuat lagi.

Sesetengah orang membuat spekulasi bahawa pengulas mungkin terlalu letih dan hilang pertimbangannya.

Sebab lain ialah hala tuju penyelidikan baharu seperti model State Space mungkin mengancam beberapa pengulas dan pakar yang telah mencapai pencapaian hebat dalam bidang Transformer Keadaan ini sangat rumit.

Kerja pecah tanah Transformer ditentang, semakan ICLR menimbulkan persoalan! Orang ramai menuduh operasi kotak hitam, LeCun mendedahkan pengalaman serupa

Sesetengah orang mengatakan bahawa kertas Mamba mendapat 3 mata hanyalah gurauan dalam industri.

Mereka begitu tertumpu untuk membandingkan penanda aras yang sangat halus, tetapi bahagian kertas yang benar-benar menarik ialah kejuruteraan dan kecekapan. Penyelidikan hampir mati kerana kami hanya mementingkan SOTA, walaupun pada penanda aras lapuk untuk subset medan yang sangat sempit.

Kerja pecah tanah Transformer ditentang, semakan ICLR menimbulkan persoalan! Orang ramai menuduh operasi kotak hitam, LeCun mendedahkan pengalaman serupa

"Teori tidak mencukupi, terlalu banyak projek."

Atas ialah kandungan terperinci Kerja pecah tanah Transformer ditentang, semakan ICLR menimbulkan persoalan! Orang ramai menuduh operasi kotak hitam, LeCun mendedahkan pengalaman serupa. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!

Kenyataan

Artikel ini dikembalikan pada:51CTO.COM. Jika ada pelanggaran, sila hubungi admin@php.cn Padam

Artikel Berkaitan

Alat panggilan di LLMSApr 14, 2025 am 11:28 AM

Model bahasa yang besar (LLMS) telah melonjak populariti, dengan ciri-ciri alat yang secara dramatik memperluaskan keupayaan mereka di luar penjanaan teks mudah. Sekarang, LLMS dapat mengendalikan tugas automasi yang kompleks seperti penciptaan UI dinamik dan autonomi a

Bagaimana permainan ADHD, alat kesihatan & chatbots AI mengubah kesihatan globalApr 14, 2025 am 11:27 AM

Bolehkah permainan video meringankan kebimbangan, membina fokus, atau menyokong kanak -kanak dengan ADHD? Memandangkan cabaran penjagaan kesihatan melonjak di seluruh dunia - terutamanya di kalangan belia - inovator beralih kepada alat yang tidak mungkin: permainan video. Sekarang salah satu hiburan terbesar di dunia Indus

Input PBB pada AI: Pemenang, Losers, dan PeluangApr 14, 2025 am 11:25 AM

"Sejarah telah menunjukkan bahawa walaupun kemajuan teknologi memacu pertumbuhan ekonomi, ia tidak sendiri memastikan pengagihan pendapatan yang saksama atau menggalakkan pembangunan manusia yang inklusif," tulis Rebeca Grynspan, Setiausaha Agung Unctad, dalam Mukadimah.

Kemahiran rundingan pembelajaran melalui AI generatifApr 14, 2025 am 11:23 AM

Easy-peasy, gunakan AI Generatif sebagai tutor rundingan dan rakan kongsi sparring anda. Mari kita bercakap mengenainya. Analisis terobosan AI yang inovatif ini adalah sebahagian daripada liputan lajur Forbes yang berterusan pada AI terkini, termasuk mengenal pasti dan menjelaskan

Ted mendedahkan dari Openai, Google, Meta Heads to Court, selfie dengan diri sayaApr 14, 2025 am 11:22 AM

Persidangan TED2025, yang diadakan di Vancouver, membungkus edisi ke -36 semalam, 11 April. Ia menampilkan 80 penceramah dari lebih daripada 60 negara, termasuk Sam Altman, Eric Schmidt, dan Palmer Luckey. Tema Ted, "Kemanusiaan Reimagined," telah disesuaikan dibuat

Joseph Stiglitz memberi amaran tentang ketidaksamaan yang menjulang di tengah -tengah kuasa monopoli AIApr 14, 2025 am 11:21 AM

Joseph Stiglitz adalah ahli ekonomi yang terkenal dan penerima Hadiah Nobel dalam Ekonomi pada tahun 2001. Stiglitz berpendapat bahawa AI dapat memburukkan lagi ketidaksamaan dan kuasa yang disatukan di tangan beberapa syarikat dominan, akhirnya menjejaskan ekonomi

Apakah pangkalan data graf?Apr 14, 2025 am 11:19 AM

Pangkalan Data Graf: Merevolusi Pengurusan Data Melalui Hubungan Apabila data berkembang dan ciri -cirinya berkembang di pelbagai bidang, pangkalan data grafik muncul sebagai penyelesaian transformatif untuk menguruskan data yang saling berkaitan. Tidak seperti tradisional

LLM Routing: Strategi, Teknik, dan Pelaksanaan PythonApr 14, 2025 am 11:14 AM

Routing Model Besar (LLM): Mengoptimumkan Prestasi melalui Pengedaran Tugas Pintar Landskap LLM yang pesat berkembang membentangkan pelbagai model, masing -masing dengan kekuatan dan kelemahan yang unik. Beberapa cemerlang di Gen Kandungan Kreatif

See all articles

Alat AI Hot

Undresser.AI Undress

Apl berkuasa AI untuk mencipta foto bogel yang realistik

AI Clothes Remover

Alat AI dalam talian untuk mengeluarkan pakaian daripada foto.

Undress AI Tool

Gambar buka pakaian secara percuma

Clothoff.io

Penyingkiran pakaian AI

AI Hentai Generator

Menjana ai hentai secara percuma.

Tunjukkan Lagi

Artikel Panas

R.E.P.O. Kristal tenaga dijelaskan dan apa yang mereka lakukan (kristal kuning)

3 minggu yang laluBy尊渡假赌尊渡假赌尊渡假赌

R.E.P.O. Tetapan grafik terbaik

3 minggu yang laluBy尊渡假赌尊渡假赌尊渡假赌

Assassin's Creed Shadows: Penyelesaian Riddle Seashell

2 minggu yang laluByDDD

R.E.P.O. Cara Memperbaiki Audio Jika anda tidak dapat mendengar sesiapa

4 minggu yang laluBy尊渡假赌尊渡假赌尊渡假赌

WWE 2K25: Cara Membuka Segala -galanya Di Myrise

1 bulan yang laluBy尊渡假赌尊渡假赌尊渡假赌

Tunjukkan Lagi

Alat panas

SublimeText3 versi Cina

Versi Cina, sangat mudah digunakan

SublimeText3 versi Mac

Perisian penyuntingan kod peringkat Tuhan (SublimeText3)

Penyesuai Pelayan SAP NetWeaver untuk Eclipse

Integrasikan Eclipse dengan pelayan aplikasi SAP NetWeaver.

EditPlus versi Cina retak

Saiz kecil, penyerlahan sintaks, tidak menyokong fungsi gesaan kod

DVWA

Damn Vulnerable Web App (DVWA) ialah aplikasi web PHP/MySQL yang sangat terdedah. Matlamat utamanya adalah untuk menjadi bantuan bagi profesional keselamatan untuk menguji kemahiran dan alatan mereka dalam persekitaran undang-undang, untuk membantu pembangun web lebih memahami proses mengamankan aplikasi web, dan untuk membantu guru/pelajar mengajar/belajar dalam persekitaran bilik darjah Aplikasi web keselamatan. Matlamat DVWA adalah untuk mempraktikkan beberapa kelemahan web yang paling biasa melalui antara muka yang mudah dan mudah, dengan pelbagai tahap kesukaran. Sila ambil perhatian bahawa perisian ini

Tunjukkan Lagi

Topik panas

Di manakah pintu masuk log masuk untuk e-mel gmail?

7500

Tutorial CakePHP

1377

Apakah format nama akaun stim

kunci pengaktifan win11 kekal

Sambungan NYT menunjukkan dan jawapan

Tunjukkan Lagi