Rumah  >  Artikel  >  Peranti teknologi  >  Selepas model asas dengan berpuluh atau ratusan bilion parameter, adakah kita memasuki era tertumpu data?

Selepas model asas dengan berpuluh atau ratusan bilion parameter, adakah kita memasuki era tertumpu data?

王林
王林ke hadapan
2023-05-08 08:46:361194semak imbas

Dalam beberapa tahun kebelakangan ini, kemunculan model asas seperti GPT-3, CLIP, DALL-E, Imagen dan Stabile Diffusion sangat mengagumkan. Keupayaan generatif yang berkuasa dan keupayaan pembelajaran kontekstual yang ditunjukkan oleh model ini tidak dapat dibayangkan hanya beberapa tahun yang lalu. Artikel ini meneroka pengkomersilan teknologi berskala besar ini. Model-model ini kini bukan hanya domain gergasi industri Nilai mereka semakin tercermin dalam penerangan bidang dan isu-isu utama, dan pada terasnya adalah data. Kesan perkembangan pesat model asas masih belum ditentukan, begitu banyak berdasarkan spekulasi.

Selepas model asas dengan berpuluh atau ratusan bilion parameter, adakah kita memasuki era tertumpu data?

prompt: "taco cat" (jangan ambil serius sangat)

Dari perspektif pembelajaran mesin, konsep tugasan adalah sangat asas - kami mencipta data latihan untuk menentukan tugasan dan membuat generalisasi melalui latihan. Oleh itu, selama beberapa dekad, terdapat dua pandangan utama dalam industri:

  • "Input tidak berguna, output tidak berguna", iaitu input maklumat data/ciri kepada model menentukan kejayaan atau kegagalan model.
  • "Terlalu banyak parameter akan membawa kepada pemasangan berlebihan." Dalam tempoh 20 tahun yang lalu, pembangunan model umum dan jarang telah menjadi popular. Kepercayaan umum ialah model jarang mempunyai parameter yang lebih sedikit, yang membantu mengurangkan overfitting dan dengan itu menggeneralisasikan dengan lebih baik.

Pandangan ini secara umumnya munasabah, tetapi ia juga agak mengelirukan.

Model asas mengubah pemahaman kita tentang tugasan kerana ia boleh dilatih mengenai pelbagai data dan digunakan untuk pelbagai tugas. Walaupun sesetengah pengguna tidak memahami dengan jelas tugas sasaran mereka, mereka boleh menggunakan model ini dengan mudah tanpa memerlukan latihan khusus. Model ini boleh dikawal menggunakan bahasa semula jadi atau antara muka, membolehkan pakar domain memacu penggunaan model dan ingin segera mengalami keajaiban dalam persekitaran baharu. Dalam proses penerokaan ini, langkah pertama untuk pengguna bukan untuk memilih set data latihan tertentu, tetapi untuk bermain, memikirkan dan mengulang idea mereka dengan cepat. Dengan model asas di tangan, kami ingin mengetahui lebih lanjut tentang cara ia dipindahkan ke pelbagai tugas, termasuk banyak yang belum kami bayangkan.

Untuk mendapat manfaat daripada gelombang pembangunan kecerdasan buatan seterusnya, kita mungkin perlu menyemak semula batasan (dan kebijaksanaan) pandangan arus perdana sebelumnya. Dalam artikel ini kita akan bermula dari sana, meneroka perubahan yang boleh dilihat dalam model asas, dan berakhir dengan perbincangan tentang cara kita melihat model asas sesuai dengan pendekatan tradisional.

Input tidak berguna, output tidak berguna—itu sahaja?

Model asas tanpa tugas sedang meletup, setakat ini banyak perkara mengenai seni bina dan kejuruteraan model, tetapi tanda-tanda penumpuan model ini mula ditunjukkan. Adakah terdapat sebarang preseden untuk data menjadi asas dan titik asas pembezaan? Kami telah melihat bolak-balik antara pendekatan tertumpu model dan tertumpu data dalam pembelajaran mesin yang diselia.

Dalam satu siri projek pada separuh kedua tahun 2010, kualiti ciri adalah penting. Dalam model lama, ciri ialah alat yang mengekodkan pengetahuan domain. Ciri ini kurang stabil dan pengamal pemprosesan perlu menguasai butiran peringkat rendah tentang cara mencirikan maklumat ini untuk mendapatkan ramalan yang lebih stabil dan boleh dipercayai.

Pembelajaran mendalam berjaya kerana orang ramai tidak pandai melakukannya. Revolusi pembelajaran mendalam sedang giat dijalankan, dan model baharu muncul satu demi satu di arXiv, yang benar-benar mengejutkan. Model ini mengambil operasi manual sebelum ini, seperti kejuruteraan ciri, dan mengautomasikannya sepenuhnya. Model ini sangat baik dan berjaya mencirikan data mentah seperti teks dan imej melalui pembelajaran mendalam. Ini adalah peningkatan besar dalam produktiviti. Walau bagaimanapun, model ini tidak sempurna dan pemahaman berterusan tentang bidang ini tetap penting. Jadi, bagaimana anda memasukkan ini ke dalam model anda?

Kita dapat melihat bahawa pengguna menggunakan data latihan sebagai pembawa untuk memasukkan maklumat dengan cekap, mentafsir aplikasi dan berinteraksi dengan model. Ini semua berlaku dalam "gelap", tanpa alat, teori dan abstrak. Kami fikir pengguna sepatutnya dapat membuat beberapa abstraksi pengaturcaraan asas ke atas data mereka sendiri, dan projek Snorkel (dan kemudian syarikat) dilahirkan. Pada tahap pengetahuan, kami telah memasuki era AI berpusatkan data dan pengawasan yang lemah. Kita boleh belajar dua pengajaran penting daripada ini:

  • Setelah teknologi menjadi stabil, nilainya akan kembali kepada data. Dalam kes ini, dengan kemunculan teknologi seperti TensorFlow, PyTorch, MXNet, Theano, dll., teknologi pembelajaran mendalam mula dikomersialkan, tetapi penerangan tentang masalah tertentu tidak memberikan pelbagai pengedaran data, spesifikasi tugas, dll. Oleh itu, kejayaan bergantung pada cara maklumat yang relevan diperkenalkan ke dalam model kita boleh (dan perlu) menangani bunyi bising. Matematik asas dan kejuruteraan pada dasarnya boleh membantu dengan pemprosesan bunyi. Adalah sukar bagi pengguna untuk menyatakan pengetahuan mereka dengan sempurna dalam data latihan, dan kualiti sumber data yang berbeza mungkin berbeza-beza. Apabila mengkaji teori asas penyeliaan yang lemah, kami mendapati bahawa model boleh belajar banyak daripada data yang bising (tidak semua data yang tidak berguna adalah buruk). Yang berkata, elakkan memasukkan maklumat yang tidak berguna - tetapi jangan terlalu memilih tentang data, sama ada.
  • prompt: "imej bising" Pernahkah anda melihat sesuatu yang menarik daripada imej yang bising?

Ringkasnya, data mengekod soalan dan analisis anda - walaupun teknologi itu dikomoditi, nilai data akan tetap wujud. Jadi, bukan maklumat yang tidak berguna itu bagus, tetapi jangan jadikan perbezaan ini terlalu mutlak. Data berguna atau tidak berguna bergantung kepada sama ada ia dieksploitasi dengan cara yang paling berkesan.

Model asas dilatih berdasarkan sejumlah besar data dan digunakan secara meluas dalam pelbagai tugas, membawa cabaran baharu kepada pengurusan data. Memandangkan model/seni bina terus menjadi komoditi, kita perlu memahami cara mengurus sejumlah besar data dengan cekap untuk memastikan kebolehgeneralisasian model.

Adakah terlalu banyak parameter membawa kepada pemasangan berlebihan?

Mengapa kita melihat ciri kontekstual ajaib? Bagaimanakah pilihan pemodelan (seni bina dan algoritma) menyumbang kepada perkara ini? Adakah sifat ajaib model bahasa besar datang daripada konfigurasi model misteri?

Kira-kira sedekad yang lalu, teori generalisasi pembelajaran mesin yang kasar berpendapat bahawa jika model terlalu parsimoni (iaitu tidak boleh memuatkan terlalu banyak ciri palsu), maka model itu akan digeneralisasikan. Seseorang mungkin mempunyai penerangan yang lebih tepat tentang ini, yang merupakan pencapaian utama dalam bidang teori seperti dimensi VC, kerumitan Rademacher, dsb. Dalam proses itu, kami mendapati bahawa nampaknya sebilangan kecil parameter juga diperlukan untuk generalisasi. Tetapi ini tidak berlaku. Pengiraan berlebihan adalah masalah utama, tetapi kini kami mempunyai model besar sebagai contoh balas: model besar ini (lebih banyak parameter daripada titik data) boleh memuatkan semua jenis fungsi yang rumit, tetapi ia masih umum. ized (walaupun dengan label rawak).

Idea penparameteran berlebihan mengelirukan kami dan cerapan terbaru telah membuka arah baharu. Kami melihat beberapa ciri ajaib muncul dalam model besar ini, tetapi kepercayaan yang lazim ialah ciri ini hanya didayakan oleh seni bina terlatih mesin tertentu yang hanya boleh diakses oleh sebilangan kecil orang. Satu hala tuju untuk usaha penyelidikan kami dan lain-lain ialah cuba melaksanakan ciri ajaib ini dalam model klasik yang ringkas. Model ruang keadaan terkini kami adalah berdasarkan kerja pemprosesan isyarat selama beberapa dekad (dan oleh itu sesuai dengan model klasik) dan mempamerkan beberapa keupayaan kontekstual.

Apa yang lebih mengejutkan ialah model dwiarah BERT klasik pun mempunyai keupayaan kontekstual! Saya percaya masih ramai orang yang menulis kertas berkaitan Anda boleh menghantarnya kepada kami dan kami akan membacanya dengan teliti dan memetiknya. Kami percaya bahawa ciri ajaib pembelajaran kontekstual ada di sekeliling kita, dan alam semesta lebih ajaib daripada yang kita fahami. Atau, melihatnya dengan lebih berhati-hati, mungkin manusia tidak begitu pandai memahami kebarangkalian bersyarat.

Semuanya nampaknya berfungsi dengan baik dalam rangka kerja model besar. Ciri ajaib model asas kelihatan stabil dan boleh dikomersialkan, dan data dilihat sebagai titik pembezaan di dalamnya.

Mungkin sekarang adalah era model asas yang mengutamakan data?

Adakah kita mengulangi anjakan pembelajaran seliaan berpusatkan data? Dengan kata lain, adakah model dan kejuruteraan menjadi komoditi?

Kebangkitan model komoditi dan maklumat sumber terbuka. Kami sedang melihat model asas dikomoditi dan digunakan - rasanya, ia sangat "pembelajaran mendalam". Bagi kami, bukti terbesar bagi komoditi model ialah ketersediaannya. Terdapat dua jenis pengaruh utama: orang ramai mempunyai keperluan (kestabilan, dll.) dan syarikat besar boleh mengambil kesempatan. Sumber terbuka timbul bukan kerana minat hobi, tetapi kerana syarikat besar dan lain-lain di luar kerajaan memutuskan mereka memerlukan sesuatu seperti ini (lihat The Rise of Python ).

Menunggu syarikat super terbaru melancarkan model super baharu?

Dari manakah perbezaan terbesar datang? data! Alat ini semakin tersedia, tetapi model asas tidak semestinya tersedia dengan segera. Bagaimanakah ia mengendalikan penggunaan? Menunggu syarikat super baharu melancarkan model super baharu? Ini boleh dikatakan satu cara! Tetapi kami memanggilnya nihilisme! Sama ada model ini akan menjadi sumber terbuka sukar untuk dikatakan - tetapi bagaimana pula dengan aplikasi model asas yang tidak boleh menghantar data peribadi ke API? Adakah model itu mempunyai 100 trilion parameter - dan berapa ramai pengguna boleh mengakses dan menggunakannya? Apakah kandungan latihan model tersebut? Model ini dilatih terutamanya berdasarkan data awam...

Jadi hampir tiada jaminan bahawa ia akan mengetahui perkara yang anda minati? Bagaimanakah anda mengekalkan keajaiban model asas supaya ia berfungsi untuk anda? Adalah perlu untuk mengurus data model asas dengan berkesan (data adalah kritikal!) dan untuk memanfaatkan sepenuhnya model sumber terbuka yang hebat semasa menguji (menyesuaikan input dan data kontekstual semasa ujian adalah kritikal!):

Pengurusan data dan undang-undang skala berpusatkan data? Ramalan: Kaedah mengumpul set data yang lebih bijak membawa kepada model yang kecil dan cantik. Kertas undang-undang penskalaan yang membuka mata kita patut diberi perhatian: seperti OpenAI, yang pada asalnya mempelajari undang-undang penskalaan, dan Chinchilla DeepMind. Walaupun kami mempunyai seni bina rujukan lalai (berubah), bilangan token mewakili kandungan maklumat data pada tahap tertentu. Pengalaman memberitahu kami bahawa data berbeza secara meluas dalam hal subjek dan kualiti. Kami mempunyai firasat bahawa apa yang benar-benar penting ialah cebisan maklumat sebenar dengan pertindihan dan susunan—konsep teori maklumat seperti entropi mungkin memacu evolusi model berasaskan besar dan kecil.

Input maklumat dan pengiraan semasa ujian. Model asas tidak semestinya tersedia serta-merta, tetapi pengiraan boleh membuat perbezaan besar apabila diuji dengan cara baharu. Memandangkan kos dan kekurangan privasi menggunakan API model sumber tertutup, baru-baru ini kami melancarkan model asas sumber terbuka dengan parameter 30x lebih kecil yang boleh dikalahkan pada tahap penanda aras spesifikasi dengan cekap menggunakan model kecil pada masa ujian model sumber tertutup OpenAI - Pendekatan ini dipanggil Ask Me Anything (AMA) Prompting. Pada masa ujian, pengguna mengawal model asas melalui gesaan atau perihalan bahasa semula jadi tentang tugasan yang mereka minati, dan reka bentuk segera boleh memberi kesan yang besar terhadap prestasi. Mendapatkan gesaan dengan tepat adalah rumit dan sukar, jadi AMA mengesyorkan menggunakan satu siri gesaan bising dengan kualiti yang berbeza dan menggunakan teori statistik untuk menangani masalah hingar. Terdapat banyak sumber inspirasi untuk AMA: Maieutic Prompting, Reframing GPT-k, rantai AI dan banyak lagi! Perkara utama ialah kita boleh melakukan pengiraan pada masa ujian dengan cara baharu - tidak perlu menggesa model sekali sahaja! Ini bukan sahaja mengenai pengurusan data pada masa latihan, tetapi juga mengenai melaraskan input dan data kontekstual pada masa ujian.

Selepas model asas dengan berpuluh atau ratusan bilion parameter, adakah kita memasuki era tertumpu data?

prompt: "model AI yang sangat kecil"

Dari AMA Kami lihat bahawa model kecil sudah mempunyai keupayaan penaakulan yang sangat baik yang sepadan dengan pelbagai tugas, manakala nilai utama model besar nampaknya adalah dalam menghafal data fakta. Model kecil berprestasi buruk pada fakta, jadi bagaimana kita memperkenalkan data dan maklumat untuk menyelesaikan masalah ini? Anehnya, kami menggunakan SGD untuk menyimpan fakta dalam rangkaian saraf, menukarnya kepada nilai titik terapung kabur... abstraksi kelihatan kurang cekap berbanding stor nilai kunci yang disokong DRAM. Walau bagaimanapun, melihat keputusan AMA, perbezaan antara model kecil dan besar adalah jauh lebih kecil dari segi masa yang berbeza-beza atau fakta khusus domain... Kami di Apple perlu dapat menyunting fakta yang kami kembalikan semasa membina diri. -model yang diselia (atas sebab perniagaan), serta alatan perisian lain yang diperlukan untuk menjalankan perkhidmatan. Oleh itu, adalah sangat penting untuk mempunyai indeks panggilan model. Masa akan menentukan sama ada perkara di atas adalah alasan yang mencukupi untuk menggunakan model jenis ini.

Ke mana ini membawa kita? Model asas duduk bersama kaedah tradisional. Dengan mengandaikan bahawa model berpusatkan data mempunyai kemajuan pada akhir penerokaan dan penggunaan, untuk lelaran pantas dan aliran kerja agnostik tugas - fasa penerokaan, kami menjadikan model asas umum sedia dibuat lebih berguna dan cekap melalui pengurusan data / strategi masa ujian. Pengguna akan meninggalkan fasa penerokaan dengan definisi tugas yang lebih jelas, menggunakan AI yang berpusatkan data dan mengurus data latihan (data anda sendiri adalah penting), dengan cara Snorkel dengan memanfaatkan dan menggabungkan berbilang gesaan dan/atau model asas yang lebih kecil, lebih pantas ". model proprietari". Model ini boleh digunakan dalam persekitaran pengeluaran sebenar dan lebih tepat untuk tugas tertentu dan data khusus! Atau model asas boleh digunakan untuk meningkatkan teknik yang diselia dengan lemah—yang mana sesetengah ahli makmal dan Snorkel memenangi anugerah UAI.

Akhirnya, data adalah mengenai pengeluaran akhir model. Data adalah satu-satunya perkara yang tidak dikomoditi. Kami masih percaya bahawa pandangan Snorkel tentang data adalah cara ke hadapan - anda memerlukan abstraksi pengaturcaraan, cara untuk menyatakan, menggabungkan dan membetulkan sumber data yang berbeza dan isyarat penyeliaan secara berulang untuk melatih model yang boleh digunakan untuk tugas utama.

Atas ialah kandungan terperinci Selepas model asas dengan berpuluh atau ratusan bilion parameter, adakah kita memasuki era tertumpu data?. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!

Kenyataan:
Artikel ini dikembalikan pada:51cto.com. Jika ada pelanggaran, sila hubungi admin@php.cn Padam