Rumah  >  Artikel  >  Peranti teknologi  >  Seni bina masa depan LLM: Siapa yang mungkin menggoncang penguasaan Transformer?

Seni bina masa depan LLM: Siapa yang mungkin menggoncang penguasaan Transformer?

WBOY
WBOYke hadapan
2024-01-01 22:59:53639semak imbas

Dalam bidang model besar, Transformer yang sentiasa teguh di kedudukan C nampaknya mempunyai kecenderungan untuk diatasi kebelakangan ini.

Pencabar ini ialah kajian yang dipanggil "Mamba", yang telah mencapai prestasi SOTA dalam pelbagai modaliti seperti bahasa, audio dan genomik. Dari segi pemodelan bahasa, model Mamba-3B mengatasi model Transformer dengan saiz yang sama dan setanding dengan model Transformer dua kali ganda saiznya, kedua-duanya dalam penilaian pra-latihan dan hiliran.

Seni bina masa depan LLM: Siapa yang mungkin menggoncang penguasaan Transformer?

Setelah kertas itu diterbitkan, ia menimbulkan kekecohan. Selepas kagum, semua orang mendapati bahawa terdapat hanya dua pengarang kertas itu, seorang ialah Albert Gu, penolong profesor Jabatan Pembelajaran Mesin di Universiti Carnegie Mellon, dan seorang lagi ialah Tri, ketua saintis Together.AI dan penolong profesor. sains komputer di Universiti Princeton (jawatan masuk).

Inovasi penting dalam penyelidikan ini ialah pengenalan seni bina yang dipanggil "SSM selektif (model ruang keadaan terpilih)". pada aras persegi Contohnya, apabila konteks meningkat sebanyak 32 kali, jumlah pengiraan boleh meningkat sebanyak 1000 kali ganda apabila panjang konteks meningkat kepada jujukan panjang token dalam data sebenar dan mencapai 5 Menggandakan peningkatan daya inferens. Dan ini tidak dapat dipisahkan daripada SSM terpilih.

Selepas melihat prestasi cemerlang Mamba, ramai penyelidik mula ingin tahu tentang penyelidikan berkaitan SSM (model angkasa lepas).

Dalam temu bual baru-baru ini, Nathan Lambert, seorang penyelidik pembelajaran mesin dari Institut Allen untuk Kecerdasan Buatan (AI2), mengadakan perbincangan mendalam dengan Tri Dao, salah seorang pengarang kertas Mamba, dan Michael Poli, seorang saintis juga dari Together.AI .

Mereka terutamanya membincangkan masa depan seni bina LLM Selain itu, ketiga-tiga penyelidik ini juga membincangkan prospek aplikasi model angkasa lepas (SSM) dalam pasaran LLM yang baru muncul. Titik pengetahuan yang terlibat dalam perbualan juga agak intensif, seperti sebab mekanisme perhatian dalam Transformer berkesan, apakah had pengembangannya, pengenalan kepada Mamba dan pengoptimuman perkakasannya, dan perbincangan tentang ramalan seni bina masa hadapan.

Berikut ialah kandungan perbualan.

Mengapa mekanisme perhatian berkesan

Nathan Lambert: Mari kita bincangkan dahulu mengapa mekanisme perhatian berkesan dan apakah batasan mekanisme perhatian. Berapa banyak Transformer dibina berdasarkan mekanisme perhatian, adakah terdapat mekanisme lain di tempat kerja, dan apakah cabaran yang mungkin dihadapi dalam hal ini?

Tri Dao: Ya, apa yang dipanggil Transformer ialah seni bina yang pada masa ini memacu kebanyakan aplikasi menarik yang kita lihat. Seperti yang anda katakan, mekanisme perhatian ialah lapisan teras. Malah, mekanisme perhatian telah menarik perhatian seawal 2014 hingga 2015, dan kemudian konsep Transformer muncul, mengintegrasikan mekanisme perhatian dan memfokuskan kepada penggunaan perceptron berbilang lapisan (MLP) dan mekanisme perhatian.

Saya rasa banyak kejayaannya ialah model ini kelihatan berskala dengan baik, anda boleh menjadikan model lebih besar dengan menambahkan lebih banyak parameter dan data. Inilah rahsia kejayaan. Walaupun nampaknya jelas sekarang, saya tidak fikir ini adalah konsep yang jelas lima tahun lalu.

Transformer berjaya atas beberapa sebab: Pertama, ia cukup umum untuk dapat belajar banyak daripada jumlah data yang besar. Kedua, ia sangat mesra perkakasan. Tidak seperti rangkaian neural berulang (RNN) sebelumnya, ia tidak mempunyai pergantungan pesanan.

Jadi ia berfungsi dengan baik pada GPU, TPU, boleh berskala, sambil menggunakan perkakasan dengan sangat cekap. Saya juga secara peribadi berusaha untuk menjadikannya lebih cekap dalam menggunakan perkakasan. Jadi, itulah rahsia kejayaan - jadikan seni bina yang serba boleh dan berskala dengan baik. Jika anda meminati NLP, mungkin anda akan mempertimbangkan untuk menambah beberapa bias induktif untuk meningkatkan model. Secara peribadi, saya fikir Transformer ialah seni bina yang sangat umum, sangat berskala, dan sangat mesra perkakasan.

Nathan Lambert: Ya, ya. Jika dilihat semula, semuanya kelihatan jelas. Kini, apabila melihat alternatifnya, dimensi yang menarik ialah panjang konteks. Michael, apa pendapat anda?

Michael Poli: Ya, saya ada beberapa perkara untuk diperkatakan. Pertama sekali, masih terdapat banyak kajian cemerlang yang cuba menerangkan Transformer dari prinsip pertama Mengapa ia boleh mempelajari litar yang menarik ini? Orang akan memecahkan proses pengiraan, seperti kombinasi kepala dalam transformer berbeza, dsb.

Terdapat beberapa kerja untuk memahami Transformer sebagai bahasa pengaturcaraan berkod. Tetapi saya fikir, seperti yang disebutkan oleh Trey, terdapat beberapa pilihan reka bentuk yang sangat menarik dalam Transformer. Penggunaan saling perhatian dan MLP adalah agak penting. Selain itu, Transformer berjaya pada mulanya kerana ia menggunakan beberapa teknik yang telah dibangunkan untuk RNN ​​dan model NLP tradisional lain, seperti menggunakan mekanisme gating untuk mengawal selia maklumat yang diserap oleh model, dan memutuskan sama ada kandungan tertentu harus digunakan dalam bentuk selari ini. . Ia seperti terdapat beberapa permata yang boleh dioptimumkan pada GPU, ia tidak mudah, tetapi ia boleh dioptimumkan.

Pengiraan perhatian berkembang secara kuadratik

Nathan Lambert: Ya, ini hebat. Perkara yang lebih spesifik yang saya ingin nyatakan ialah mekanisme perhatian akhirnya mempamerkan kos pengiraan yang meningkat secara kuadratik dengan panjang jujukan input. Katakan anda mempunyai jujukan input panjang L, dan anda ingin mengeluarkan jujukan juga panjang L. Jika anda menggali butiran matematik dan melihat apa yang berlaku apabila kebanyakan perpustakaan membuat inferens, anda akan mendapati bahawa anda mempunyai matriks perhatian segi tiga atas ini, di mana anda hanya boleh mempertimbangkan bahagian teks yang lalu. Semasa pemprosesan diteruskan, anda akan mendapati bahawa ia membentuk hubungan kuasa dua L, di mana token pertama hanya mengambil kira satu elemen, dan kemudian setiap token berikutnya mengambil kira lebih banyak token lampau secara progresif. Kami baru sahaja membincangkan RNN dan bagaimana beberapa kaedah bukan perhatian boleh melakukan ini tanpa melihat semua sejarah teks dalam urutan. Apabila anda menulis gesaan panjang kepada GPT chatbot anda, adakah anda benar-benar mahukan semua maklumat itu dikodkan di dalamnya? Selain matriks perhatian yang padat ini, apakah pilihan lain yang kita ada?

Tri Dao: Rangkaian saraf berulang bermula sejak 1980-an, mungkin beberapa yang lebih terkenal ialah Rangkaian Memori Jangka Pendek Panjang (LSTM), Unit Berulang Berpagar (GRU). Mereka sangat popular untuk terjemahan, pengecaman pertuturan, dll. sekitar tahun 2012 hingga 2016, semasa mereka menggunakan teknologi SOTA dalam NLP.

Mereka memproses teks secara berurutan: memerhati token satu demi satu, kemudian menukar keadaan tersembunyi, mengemas kini keadaan tersembunyi setiap kali token baharu dilihat. Saya fikir dalam erti kata ini meniru cara otak manusia memproses maklumat, seperti anda membaca ayat atau perenggan, seperti anda menyimpan beberapa maklumat dalam otak anda. Apabila anda selesai membaca dokumen, anda mungkin boleh menjawab soalan tentang dokumen itu tanpa merujuk kepada dokumen itu lagi. Jadi, beginilah cara RNN berfungsi. Mereka memproses teks dan kemudian menukar keadaan tersembunyi, yang merupakan perwakilan yang boleh digunakan untuk menjana token baharu atau mengklasifikasikan dokumen.

Sekitar tahun 2016 dulu, kaedah ini sangat popular. Walau bagaimanapun, apabila keputusan percubaan muncul, kami secara beransur-ansur mendapati bahawa prestasi mereka tidak sebaik Transformer. Seperti yang anda nyatakan, Transformer mempunyai sifat pengembangan kuadratik supaya setiap token dibandingkan dengan semua token sebelumnya, yang menyediakan cara yang sangat mudah untuk maklumat tersebar. Saya percaya ini adalah salah satu sebab mengapa Transformers dan mekanisme perhatian berfungsi dengan baik.

Baru-baru ini, beberapa seni bina RNN baharu didapati menunjukkan prestasi yang baik, antaranya RWKV adalah salah satu yang lebih awal. Saya sangat mengagumi projek ini, yang dibangunkan oleh penyelidik Bo Peng. Ia nampaknya bersaing dengan Transformer dengan cara yang unik, menunjukkan potensi RNN yang hebat.

Nathan Lambert: Ya. Saya juga pernah membaca kertas ini. Pada peringkat teknikal, mereka cuba meniru sesuatu yang serupa dengan pencarian nilai kunci pertanyaan dalam mekanisme perhatian melalui dua RNN linear, pada asasnya untuk menghapuskan isu yang berpotensi seperti pengembangan perhatian khusus. Kedua-dua RNN ini mempunyai gelagat konteks panjang yang lebih baik dan peraturan pelaksanaan yang berbeza. Mereka juga melatih model dengan sehingga 14 bilion parameter. Ini juga membawa saya kepada beberapa soalan yang ingin saya ajukan seterusnya, termasuk Mamba dan Striped Hyena. Kita boleh bercakap satu persatu.

Apakah jenis model Striped Hyena?

Nathan Lambert: Saya pergi ke API Bersama dan melakukan ujian perbandingan antara Mistral dan Striped Hyena. Keputusan menunjukkan bahawa Striped Hyena adalah model bahasa yang baik. Ia menjawab kebanyakan soalan tanpa mod kegagalan yang jelas. Michael, apa pendapat anda tentang model ini?

Michael Poli: Mula-mula saya ingin mengatakan bahawa terdapat hubungan menarik antara kaedah baharu ini. Terdapat set cembung, yang mempunyai titik tengah, dan korelasi antara perhatian linear (iaitu perhatian tanpa softmax), RNN linear dan model berasaskan keadaan (SSM) semuanya dalam set cembung ini. Pada tahap tertentu, rumusan matematik model asas ini adalah sama, dan saya tidak maksudkan infrastruktur di sini, tetapi model asas.

Kemudian anda boleh berkembang dalam arah yang berbeza, setiap arah mempunyai pertukaran sendiri, seperti arah pemetaan ciri dan arah kernel. Jadi apabila anda memecahkan atau mengalih keluar softmax, anda boleh mengambil pendekatan yang berbeza apabila menangani pertanyaan dan kunci. Pertanyaan dan kunci ini ialah entiti asas yang membentuk matriks perhatian anda. Selepas mengalih keluar softmax, anda boleh membina fungsi seperti kernel lain, atau fungsi lain yang anda harapkan boleh menghampiri fungsi mekanisme perhatian.

Anda boleh melakukan sesuatu seperti anggaran Taylor atau pengembangan Taylor. Anda mendapat perspektif yang sedikit berbeza, tetapi anda mendapat sesuatu yang sangat serupa. Anda boleh beralih kepada Varian masa. Ini bermakna anda mengubah suai RNN supaya pengiraannya lebih bergantung pada jujukan input. Iaitu, pengiraan dalam RNN linear ditentukan oleh urutan input. Anda boleh menggunakan perkara seperti pagar dan kami telah melihat banyak usaha, contohnya, mengemas kini ketegangan dalaman dengan pagar tambahan untuk membolehkan anda menggunakan dimensi keadaan tetap anda dengan lebih baik. Arah ketiga - sekurang-kurangnya pada pendapat saya - adalah menggunakan bentuk konvolusi dan lebih banyak penggunaan jenis operator linear lain yang masih boleh digabungkan dan masih membenarkan anda berlatih secara selari.

Jadi kandungan di sini termasuk sistem invarian masa. Saya boleh menerangkan perkara ini secara terperinci, tetapi terdapat model yang boleh bertukar antara lilitan dan gelung, yang juga dilengkapi dengan mekanisme gating tambahan. Projek yang saya sertai lahir daripada jenis seni bina ketiga yang baru saya nyatakan. Apa yang sebenarnya kami cuba lakukan ialah mencipta seni bina dengan prestasi terbaik bagi setiap operasi titik terapung. Satu prinsip yang telah kami sahkan berulang kali ialah nampaknya menggabungkan lapisan yang berbeza, kategori modul yang berbeza, dan juga lapisan perhatian penuh, anda mendapat sesuatu yang lebih baik daripada komponen individu.

Jadi kami cuba memahami aspek gabungan model ini dengan lebih mendalam. Pemahaman ini membantu kami mencipta model pra-latihan dengan prestasi yang lebih baik bagi setiap operasi titik terapung. Menggunakan model ini, kami menjalankan satu set penuh undang-undang penskalaan. Hibridisasi juga memberi kami beberapa kelebihan kerana kami mahukan sesuatu yang boleh digunakan di luar kotak dan ia menjadikan proses lebih mudah.

Apabila menala halus untuk konteks yang lebih panjang, kita boleh menggunakan beberapa teknik yang dibangunkan untuk Transformers. Yang menghairankan, teknik ini berfungsi sama baik dengan hibrid. Contohnya, penskalaan linear digunakan untuk benam bergilir dan sebagainya. Jika anda berminat dengan butirannya, anda boleh mengetahui lebih lanjut. Oleh itu, projek ini terutamanya percubaan percubaan untuk mengetahui sejauh mana kita boleh pergi dalam persekitaran semasa.

Apa itu Mamba

Nathan Lambert: Striped Hyena dioptimumkan menggunakan set teknik cantuman model baharu (model cantuman) yang membolehkan kita menukar seni bina model semasa latihan banyak perkara yang berlaku, perkara seperti data yang mungkin anda tidak boleh bercakap terlalu banyak.

Berkenaan tafsiran data, saya rasa masih ada beberapa perkara yang tidak diterangkan dengan baik, terutamanya beberapa data kontekstual yang lebih panjang. Saya tertanya-tanya sama ada anda boleh menerangkan kepada kami maksud data ini dari perspektif model? Walaupun hanya ringkasan ringkas akan menjadi pengalaman yang hebat untuk kami.

Terdapat banyak pekerjaan hebat dalam bidang ini, jadi terdapat banyak projek baru yang sedang dijalankan dalam bidang AI, contohnya, sesetengah orang cuba memisahkan model Lama dan terus melatihnya . Malah, ia agak liar, di mana orang ramai cuba mengambil model yang berkuasa dan cuba menjadikannya lebih kecil sementara masih mendapat faedah prestasi yang sama seperti model yang lebih besar. . Pada pendapat saya, kenyataan ini mengaburkan banyak butiran menarik.

Baiklah, mari kita kembali ke Mamba. Jika saya ingat dengan betul, saya rasa model terbesar dalam suite Mamba ialah 280 juta parameter, dan markah penanda aras yang diberikan oleh penanda aras NLP, termasuk GPT J dan suite model Pythia, adalah sangat kuat.

Tri Dao

: Mamba ialah kerjasama antara saya dan Albert Gu, yang merupakan pelajar PhD di Universiti Stanford, tempat kami bertemu, dan kini penolong profesor di CMU. Jadi ia adalah satu kerjasama yang hebat dan saya berhutang kejayaan Mamba kepadanya. Albert telah komited dalam penyelidikan model angkasa negeri Dalam erti kata, seperti yang dinyatakan sebelum ini, beliau telah terlibat dalam tensor linear, RNN linear, konvolusi, rangkaian saraf dan bidang lain.

Dalam beberapa projek yang telah saya sertai pada masa lalu, saya juga menumpukan diri saya kepada penyelidikan ruang dan ruang negeri Perspektif penyelidikan saya ialah bagaimana menjadikan ruang negeri lebih cekap perkakasan dan meningkatkan prestasinya. Jadi sangat bagus untuk bekerjasama dengan Albert Gu. Saya rasa proses penyelidikan yang terlibat dengan Mamba adalah lebih kepada bukti konsep bahawa ruang nyata sebenarnya boleh menjadi sebaik perubahan dalam dunia NLP? Oleh itu Mamba, penyelidikan yang mencadangkan ruang keadaan mungkin lebih baik untuk audio. Walau bagaimanapun, untuk model ruang negeri, bahasa sentiasa menjadi yang paling sukar untuk diperoleh dan dilakukan dengan baik.

Selain itu, bahasa juga merupakan perkara yang paling diminati orang sekarang, jadi apa yang saya lakukan lebih kepada pembuktian konsep, iaitu, kami ingin menunjukkan bahawa model angkasa lepas juga boleh berdaya saing, malah boleh bersaing dengan Transformer. . Bilangan token yang disahkan dalam percubaan kami adalah antara 3B hingga 300B.

Jadi secara mutlak, ini bukan model yang sangat berkuasa, ini bukan model yang kita mahukan. Saya rasa apa yang kita lakukan lebih kepada perbandingan akademik. Sebagai contoh, apabila melatih bilangan token yang sama, model ruang keadaan mungkin lebih baik sedikit daripada pengubah.

Yang ini sangat mengujakan kami dan saya rasa Albert telah mendesak untuk ini untuk seketika.

Hasilnya ialah penyelidikan kami mungkin lebih cepat dalam membuat inferens dan mungkin kami akan mempunyai cara yang berbeza untuk memahami cara pembelajaran kontekstual berlaku. Saya tidak sabar untuk kerja masa depan saya.

Pengoptimuman Perkakasan Mamba

Nathan Lambert: Bolehkah anda bercakap sedikit tentang apa sebenarnya yang diperlukan untuk melaksanakan inti CUDA baharu ini?

Tri Dao: Berkenaan kajian ruang keadaan, ia adalah rangkaian neural berulang dari satu segi. Saiz keadaan ialah penimbal yang anda gunakan untuk menyimpan maklumat semasa melintasi atau memproses jujukan.

Dalam erti kata lain, Transformer juga boleh difahami dengan cara ini Keseluruhan sejarah yang disimpannya sering dipanggil cache KV mengekalkan sejarah dan merujuknya secara berterusan. Untuk RNN, mereka mempunyai keadaan saiz tetap untuk transformer, anda boleh menganggap saiz keadaan semakin meningkat. Selain itu, gerak hati kami ialah semakin besar saiz keadaan, semakin baik prestasi model.

Jadi untuk menyimpan maklumat yang perlu anda ingat, anda memerlukan lebih banyak ruang. Model terdahulu seperti S4 dsb. mempunyai saiz keadaan tersembunyi yang agak besar dan mereka menggunakan pandangan konvolusi untuk mengelakkan keadaan semula.

Kami ingin memasukkan lebih banyak kebergantungan input ke dalam gelung, bagaimanapun, berbuat demikian menghalang kami daripada menggunakan pandangan konvolusi yang boleh meningkatkan kecekapan.

Jadi kami terpaksa mencari cara berbeza untuk meningkatkan kecekapan, jadi kami menumpukan pada meningkatkan kecekapan pada GPU. Ideanya ialah kita ingin mempunyai saiz keadaan yang besar, tetapi kita tidak perlu menggunakan memori GPU sebenar, seperti HBM, kita boleh menyimpan keadaan besar dalam memori yang lebih pantas, dipanggil SRAM, anda boleh Fikirkannya seperti cache. Jika anda lebih biasa dengan CPU, ini biasanya cache dan RAM.

Jadi, jika anda mempunyai keadaan yang lebih besar, anda boleh menyimpannya dalam cache supaya anda tidak mengalami kerugian yang terlalu besar. Ramalan Senibina 2024

Dalam latihan teragih, lapisan suapan hadapan mungkin akan diedarkan pada nod TPU yang berbeza dan TPU berkomunikasi melalui nod bersebelahan. Oleh itu, TPU akan lebih terjejas dalam hal ini berbanding GPU. Apakah yang akan berlaku di ruang ini pada tahun 2024?

Tri Dao: Saya rasa Transform masih merupakan seni bina yang sangat berkuasa yang kini boleh menskalakan kepada satu trilion tahap parameter Orang ramai cenderung menginginkan model berprestasi terbaik yang berjalan dengan paling cekap pada perkakasan kebanyakan sokongan dari segi perisian.

Saya mempunyai beberapa idea baharu baru-baru ini, seperti ruang negeri. Kami telah melihat, seperti yang Michael sebutkan, bahawa mencampurkan komponen ini seolah-olah meningkatkan prestasi, saya fikir ia telah ditunjukkan pada model saiz 7B, dan mungkin model ruang negeri boleh berfungsi pada model skala yang lebih besar.

Pada masa ini, kebanyakan orang memberi perhatian kepada pembinaan data dan infrastruktur berdasarkan seni bina Lime Walaupun seni bina Transformer yang sedia ada masih sangat berkuasa dan disokong secara meluas dalam persekitaran pengeluaran, terdapat juga beberapa kawasan pinggir, seperti konteks yang panjang. Audio, genomik, dsb. Sangat menarik untuk mengkaji seni bina alternatif dalam bidang ini. Bidang-bidang ini menimbulkan persoalan saintifik yang bermakna, seperti sama ada model memahami arahan dan gerak hati seperti yang dilakukan manusia, dan sama ada ia boleh berfungsi dengan kaedah kuantitatif.

Selain itu, walaupun orang ramai masih menggunakan seni bina Transformer sekarang, lebih banyak idea dan komponen baharu mungkin akan digabungkan pada masa hadapan, seperti menambah lebih banyak lapisan dan mekanisme perhatian, dsb., walaupun ia masih boleh dipanggil Transformer.

Ringkasnya, walaupun bidang kecerdasan buatan semasa cenderung konservatif dan menumpukan pada seni bina moden, seni bina dan idea baharu muncul secara beransur-ansur dan kaedah ini mungkin membawa perkembangan baharu kepada pembangunan kecerdasan buatan arah.

Michael Poli

: Ya, saya 100% bersetuju dengan Tri Dao, mekanisme perhatian masih penting sebagai primitif pengkomputeran. Sebagai cara yang cekap dan mudah, mekanisme perhatian boleh meningkatkan kapasiti keadaan pemproses jujukan dengan berkesan.

Terdapat pertukaran antara dimensi keadaan dan panjang jujukan Apabila saiz model menjadi lebih besar, iaitu model menjadi lebih lebar, lebih banyak keadaan dan panjang jujukan akan diperkenalkan dengan berkesan. Akibatnya, beberapa kesan marginal mungkin hilang dan beberapa pertukaran akan berubah, terutamanya untuk model yang sangat besar, seperti 14B, 30B dan sebagainya.

Pada masa hadapan, reka bentuk seni bina akan menjadi lebih menarik dan kompleks, dan lebih banyak inovasi akan berlaku. Sama ada model hibrid atau pengenalan modul baharu, kami akan melihat lebih banyak inovasi yang menarik. . seseorang telah benar-benar cuba membuat percubaan awal dan penambahbaikan pada model pakar hibrid. Cantuman Model kini menjadi lebih praktikal.

Sangat menarik untuk mengikuti perkembangan ini, dan diharapkan perkembangan ini akan memberikan lebih banyak cara kepada ahli akademik dan saintis untuk mempengaruhi perbualan industri, terutamanya kini industri lebih memfokuskan pada peningkatan model. Saya mencadangkan syarikat sumber terbuka harus membuat penambahbaikan khusus dalam model bahasa mereka untuk mendapatkan kelebihan komersial.

Adakah terdapat perkara lain yang anda beri perhatian dalam pembelajaran mesin? Ia tidak semestinya mengenai model ruang negeri. Apakah yang paling anda teruja pada tahun hadapan?

Tri Dao

: Saya secara peribadi berpendapat data masih merupakan faktor yang paling penting. Kami sedang melihat dengan lebih mendalam tentang cara data mempengaruhi prestasi model, contohnya melalui beberapa tugas sintetik yang sangat berkorelasi dengan prestasi model. Pendekatan ini telah menjadi motivasi dan contoh utama dalam tesis dan kerja penyelidikan kami. Kami akan memberi tumpuan kepada data dalam tempoh akan datang.

Walaupun semua kerja seni bina menyeronokkan dan menjadikannya berjalan dengan cekap pada perkakasan adalah menyeronokkan, pada akhirnya ia masih mengenai data. Jika anda memahami undang-undang penskalaan, anda tahu bahawa seni bina model yang berbeza selalunya mempunyai cerun yang sama, hanya offset yang berbeza Satu-satunya perkara yang kelihatan mengubah cerun ialah kualiti data.

Michael Poli

: Ya, kami menambah data. Data ini benar-benar menarik, seperti mengecilkan reka bentuk seni bina, memikirkan dan memecahkan pelbagai aspek yang terlibat dalam tugas seperti pemodelan bahasa, dan kami cuba membungkusnya menjadi sesuatu yang boleh digunakan untuk mengulangi, yang sangat mengujakan.

Saya secara peribadi sangat teruja dengan aplikasi baharu, terutamanya kerja genomik, tetapi lebih daripada perspektif kejuruteraan, kami melihat perubahan. Pada masa ini, bahasa masih merupakan kawasan yang mendapat klik paling banyak dan paling banyak minat, tetapi saya fikir ia akan berubah dari semasa ke semasa.

Nathan Lambert

: Ya, semua orang bercakap tentang bahasa, tetapi saya fikir imej, video akan menjadi perkara yang menjana nilai yang besar. Saya tidak tahu di mana batas atas bahasa. Saya teruja, saya telah mula mencuba ini, seperti saya akan mengambil teks blog dan meminta model menukarnya menjadi imej, dan kemudian menjadi video dengan audio, semuanya dilakukan dengan skrip Python, ia benar-benar mudah Lakukan. Jadi saya bersetuju dengan anda, perkara di luar bahasa adalah menarik.

Tri Dao

: Mengikut pengalaman anda, apabila anda menggabungkan semua perkara ini, adakah ia berfungsi dengan baik?

Nathan Lambert: Ia tidak sempurna lagi. Gambar sebegitu, saya rasa saya boleh buat lebih baik. Dari apa yang saya tahu, mungkin dalam setahun akan ada API teks ke video dan saya akan beralih kepada API kemudian dan ia akan menjadi pengalaman yang hebat.

Tri Dao: Ya, saya rasa kemajuan ini menjana banyak nilai ekonomi, dan kita sudah melihatnya. Banyak syarikat kini beralih kepada teknologi ini. Saya fikir ia akan mengubah cara kami bekerja dan, seperti yang anda nyatakan, cara kami bekerja dan cara kami bermain. Jadi ia adalah masa depan yang sangat mengujakan.

Pautan asal: https://www.interconnects.ai/p/interviewing-tri-dao-and-michael?cnotallow=5d10d34c97637bebcfeba6470c0f0d9b

Atas ialah kandungan terperinci Seni bina masa depan LLM: Siapa yang mungkin menggoncang penguasaan Transformer?. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!

Kenyataan:
Artikel ini dikembalikan pada:51cto.com. Jika ada pelanggaran, sila hubungi admin@php.cn Padam