Rumah >Peranti teknologi >AI >Memilih model bahasa yang sesuai untuk NLP
Penterjemah |. Cui Hao
Penilai |. model yang dilatih untuk menghasilkan teks. Dengan keupayaan yang mengagumkan, LLM telah menjadi peneraju dalam pemprosesan bahasa semula jadi moden (NLP). Secara tradisinya, mereka telah dilatih terlebih dahulu oleh institusi akademik dan syarikat teknologi besar seperti OpenAI, Microsoft dan Nvidia. Kebanyakannya kemudiannya disediakan untuk kegunaan awam. Pendekatan plug-and-play ini merupakan langkah penting ke arah aplikasi AI berskala besar - perusahaan kini boleh menumpukan pada memperhalusi model LLM sedia ada untuk kes penggunaan tertentu, dan bukannya membelanjakan sumber yang besar untuk melatih model dengan keupayaan bahasa umum .
Artikel ini menerangkan konsep dan prinsip utama di sebalik LLM. Tujuannya adalah untuk menyediakan pihak berkepentingan bukan teknikal dengan pemahaman intuitif dan bahasa untuk interaksi yang cekap dengan pembangun dan pakar AI. Untuk meluaskan liputan, artikel itu termasuk analisis yang berakar umbi dalam sejumlah besar penerbitan berkaitan NLP. Walaupun kami tidak akan menyelidiki butiran matematik model bahasa, ini boleh diperolehi dengan mudah daripada rujukan.
Artikel disusun seperti berikut: pertama, model bahasa diletakkan dalam persekitaran NLP yang sedang berkembang. Bahagian 2 menerangkan cara LLM dibina dan dipralatih. Akhir sekali, proses penalaan halus diterangkan dan beberapa panduan tentang pemilihan model disediakan. 2. Dunia model bahasa 1. Merapatkan jurang manusia-mesin Bahasa ialah kemahiran minda manusia yang menarik - ia adalah protokol universal untuk pengetahuan pertukaran dan ekspresi subjektiviti Pemikiran, seperti niat, pendapat, dan emosi. Dalam sejarah kecerdasan buatan, terdapat pelbagai gelombang penyelidikan menggunakan kaedah matematik untuk mendekati ("model") bahasa manusia. Sebelum era pembelajaran mendalam, perwakilan adalah berdasarkan konsep algebra dan kebarangkalian mudah seperti perwakilan satu-panas perkataan, model kebarangkalian jujukan, dan struktur rekursif. Dengan perkembangan pembelajaran mendalam dalam beberapa tahun kebelakangan ini, ketepatan, kerumitan dan ekspresi representasi bahasa telah meningkat. Pada 2018, BERT telah dilancarkan sebagai LLM pertama berdasarkan seni bina Transformer baharu. Sejak itu, LLM berasaskan Transformer telah mendapat momentum yang kukuh. Pemodelan bahasa amat menarik kerana keluasannya. Walaupun banyak tugas NLP dunia sebenar seperti analisis sentimen, pencarian maklumat dan pengekstrakan maklumat tidak memerlukan penjanaan bahasa, adalah diandaikan bahawa model penjanaan bahasa juga mempunyai kemahiran untuk menyelesaikan pelbagai cabaran bahasa yang lebih khusus. 2. Penting Saiz Pembelajaran berlaku berdasarkan parameter - pembolehubah yang dioptimumkan semasa latihan untuk mencapai kualiti ramalan yang terbaik. Apabila bilangan parameter bertambah, model ini dapat memperoleh pengetahuan yang lebih terperinci dan meningkatkan ramalannya. Sejak pengenalan kumpulan pertama LLM pada 2017-2018, kami telah melihat letupan eksponen dalam saiz parameter - manakala BERT yang hebat telah dilatih dengan parameter 340M, model yang dikeluarkan pada 2022, Megatron-Turing NLG, telah dilatih dengan Parameter 530B latihan - meningkat lebih daripada seribu kali ganda.Oleh itu, arus perdana menjadi sensasi dengan menggunakan bilangan parameter yang semakin meningkat. Walau bagaimanapun, beberapa pengkritik menyatakan bahawa kadar pertumbuhan prestasi model tidak konsisten dengan kadar pertumbuhan saiz model. Sebaliknya, model pra-latihan meninggalkan jejak karbon yang besar. Pengecilan saiz adalah mendesak dan menjadikan kemajuan dalam pemodelan bahasa lebih mampan.
3. Kitaran hayat model bahasa
Visi LLM adalah berdaya saing, dan inovasi adalah jangka pendek. Carta di bawah menunjukkan 15 model LLM paling popular dalam tempoh masa 2018-2022, serta bahagian mereka dari semasa ke semasa.Kita dapat melihat bahawa kebanyakan model menunjukkan prestasi yang agak baik dalam Ia menjadi kurang popular dalam tempoh yang singkat. Untuk kekal di hadapan, pengguna harus memantau inovasi semasa dan menilai sama ada peningkatan berbaloi.
Kebanyakan LLM mengikut kitaran hayat yang serupa: pertama, "hulu", model ini telah dilatih terlebih dahulu. Oleh kerana volum data yang tinggi dan keperluan pengiraan, kebanyakannya adalah hak prerogatif syarikat teknologi besar dan universiti. Baru-baru ini, terdapat juga beberapa kerjasama (seperti bengkel BigScience) untuk sama-sama memajukan pembangunan bidang LLM. Segelintir syarikat permulaan yang dibiayai dengan baik, seperti Cohere dan AI21 Labs, juga menawarkan LLM pra-latihan.
Selepas dikeluarkan, model ini diguna pakai dan digunakan "hiliran" oleh pembangun dan perusahaan yang memfokuskan aplikasi. Pada peringkat ini, kebanyakan model memerlukan langkah penalaan halus tambahan agar sesuai dengan domain dan tugasan tertentu. Lain-lain, seperti GPT-3, lebih mudah kerana mereka boleh mempelajari pelbagai tugas bahasa secara langsung semasa ramalan (sifar atau sedikit ramalan).
Akhirnya, masa mengetuk pintu, dan model yang lebih baik muncul di sudut - sama ada dengan lebih banyak parameter, penggunaan perkakasan yang lebih cekap atau peningkatan yang lebih asas dalam pemodelan bahasa manusia . Model yang membawa kepada inovasi yang besar boleh melahirkan seluruh keluarga model. Sebagai contoh, BERT kekal dalam BERT-QA, DistilBERT dan RoBERTa, yang semuanya berdasarkan seni bina asal.
Dalam bab berikut, kita akan meneroka dua peringkat pertama kitaran hayat ini - pra-latihan dan penalaan halus untuk penggunaan.
Kebanyakan pasukan dan pengamal NLP tidak akan mengambil bahagian dalam pra-latihan LLM, tetapi dalam penalaan dan penggunaannya. Walau bagaimanapun, untuk berjaya memilih dan menggunakan model, adalah penting untuk memahami perkara yang berlaku "di bawah hud". Dalam bahagian ini, kita akan melihat bahan asas LLM.
Setiap item bukan sahaja akan menjejaskan pemilihan, tetapi juga penalaan halus dan penggunaan LLM.
Kebanyakan data yang digunakan untuk latihan LLM ialah data teks yang merangkumi gaya yang berbeza, seperti kesusasteraan, kandungan jana pengguna dan data berita. Selepas melihat pelbagai jenis teks yang berbeza, model yang dihasilkan menyedari butiran bahasa. Selain data teks, kod sering digunakan sebagai input untuk mengajar model untuk menjana program dan coretan kod yang berkesan.
Seperti yang dijangkakan, kualiti data latihan mempunyai kesan langsung pada prestasi model - dan juga pada saiz model yang diperlukan. Jika anda menyediakan data latihan anda dengan cara yang lebih bijak, anda boleh meningkatkan kualiti model anda sambil mengurangkan saiz datanya. Satu contoh ialah model T0, iaitu 16 kali lebih kecil daripada GPT-3 tetapi mengatasinya pada pelbagai tugas penanda aras. Inilah helahnya: daripada hanya menggunakan sebarang teks sebagai data latihan, ia menggunakan formula tugasan secara langsung, menjadikan isyarat pembelajarannya lebih fokus. Rajah 3 menggambarkan beberapa contoh latihan.
Rajah 3: T0 dilatih dalam pelbagai tugas bahasa eksplisit
Nota terakhir tentang data latihan: Kita sering mendengar bahawa model bahasa adalah berdasarkan Latihan yang diselia. Walaupun pendekatan ini menarik, ia secara teknikalnya salah. Sebaliknya, teks yang diformat dengan baik sudah menyediakan isyarat pembelajaran yang diperlukan, menyelamatkan kita daripada proses anotasi data manual yang membosankan. Label yang akan diramalkan sepadan dengan perkataan lalu dan/atau masa depan dalam ayat. Akibatnya, anotasi berlaku secara automatik dan pada skala, membolehkan kemajuan yang agak pesat dalam bidang tersebut.
Setelah data latihan telah dipasang, kami perlu membungkusnya ke dalam bentuk yang boleh digunakan oleh model. Rangkaian saraf diberi makan dengan struktur algebra (vektor dan matriks), dan perwakilan algebra terbaik bahasa ialah carian berterusan—daripada frasa mudah kepada mengandungi maklumat kontekstual yang sangat berbeza. Setiap langkah baharu meningkatkan kerumitan bahasa semula jadi dan mendedahkan batasan perwakilan semasa.
Unit asas bahasa ialah perkataan. Pada hari-hari awal NLP, ini menimbulkan perwakilan bag-of-word, yang melemparkan semua perkataan dalam teks bersama-sama tanpa mengira susunannya. Lihatlah dua contoh ini.
Dalam dunia beg-of-words, ayat-ayat ini akan dinyatakan sama persis kerana ia terdiri daripada perkataan yang sama. Jelas sekali, ini hanya merangkumi sebahagian kecil daripada maknanya.
Perwakilan jujukan menampung maklumat tentang susunan perkataan. Dalam pembelajaran mendalam, pemprosesan jujukan pada mulanya dilaksanakan dalam rangkaian neural berulang (RNN) yang sedar urutan. Walau bagaimanapun, melangkah lebih jauh, struktur asas bahasa bukanlah berurutan semata-mata tetapi berhierarki. Dalam erti kata lain, kita tidak bercakap tentang senarai, tetapi pokok. Perkataan yang berjauhan sebenarnya boleh mempunyai hubungan sintaksis dan semantik yang lebih kuat daripada perkataan bersebelahan. Sila lihat contoh di bawah.
Di sini, dia merujuk kepada gadis itu. Apabila RNN mencapai penghujung ayat dan akhirnya melihatnya, ingatannya tentang permulaan ayat mungkin sudah pudar, sekali gus tidak membenarkannya memulihkan hubungan.
Untuk menyelesaikan kebergantungan jarak jauh ini, struktur saraf yang lebih kompleks telah dicadangkan untuk membina memori kontekstual yang lebih diskriminatif. Ideanya adalah untuk menyimpan perkataan yang berkaitan dengan ramalan masa depan dalam ingatan dan melupakan yang lain. Ini adalah sumbangan unit Long Short-Term Memory (LSTM) dan Gated Recurrent Units (GRU). Walau bagaimanapun, model ini tidak dioptimumkan untuk lokasi khusus yang akan diramalkan, sebaliknya untuk konteks masa depan umum. Tambahan pula, disebabkan strukturnya yang kompleks, mereka lebih perlahan untuk dilatih daripada RNN tradisional.
Akhirnya, orang ramai meninggalkan rekursi, mencadangkan mekanisme perhatian dan memasukkannya ke dalam seni bina Transformer. Perhatian membolehkan model memfokus bolak-balik antara perkataan yang berbeza semasa ramalan. Setiap perkataan ditimbang mengikut kaitannya dengan lokasi tertentu yang akan diramalkan. Untuk ayat di atas, sebaik sahaja model mencapai kedudukan "dia", gadis mempunyai berat yang lebih tinggi daripada pada, walaupun ia jauh lebih jauh dalam susunan linear.
Setakat ini, mekanisme perhatian adalah paling hampir dengan operasi biologi otak manusia dalam pemprosesan maklumat. Penyelidikan menunjukkan bahawa perhatian boleh mempelajari struktur sintaksis hierarki, termasuk satu siri fenomena sintaksis yang kompleks. Ia juga membenarkan pengkomputeran selari untuk latihan yang lebih pantas dan cekap.
Dengan perwakilan data latihan yang sesuai, model kami boleh mula belajar. Terdapat tiga matlamat umum untuk model bahasa pra-latihan: penukaran urutan-ke-jujukan, autoregresi dan pengekodan automatik. Semua ini memerlukan model tersebut mempunyai pengetahuan linguistik yang luas.
Tugas asal yang diselesaikan oleh seni bina penyahkod pengekod dan model Transformer ialah penukaran jujukan kepada jujukan: satu jujukan ditukar kepada jujukan dalam rangka kerja perwakilan yang berbeza. Tugas urutan-ke-jujukan klasik ialah terjemahan mesin, tetapi tugas lain, seperti ringkasan, juga sering dirumuskan dengan cara ini. Ambil perhatian bahawa jujukan sasaran tidak semestinya teks - ia juga boleh menjadi data tidak berstruktur lain, seperti imej, serta data berstruktur, seperti bahasa pengaturcaraan. Contoh LLM urutan-ke-jujukan ialah siri BART.
Tugas kedua ialah regresi automatik, yang juga merupakan matlamat pemodelan bahasa asal. Dalam autoregresi, model belajar untuk meramalkan output (token) seterusnya berdasarkan token sebelumnya. Isyarat pembelajaran dihadkan oleh sifat sehala perusahaan—model hanya boleh menggunakan maklumat dari sebelah kanan atau kiri token yang diramalkan. Ini adalah had utama kerana perkataan boleh bergantung pada kedua-dua kedudukan masa lalu dan masa depan. Sebagai contoh, pertimbangkan bagaimana kata kerja yang ditulis mempengaruhi ayat berikut dalam kedua-dua arah.
Di sini, kedudukan kertas adalah terhad kepada sesuatu yang boleh ditulis, manakala kedudukan pelajar adalah terhad kepada manusia, atau, dalam apa jua keadaan, entiti pintar lain berkebolehan menulis.
Kebanyakan LLM dalam tajuk berita hari ini adalah autoregresif, termasuk siri GPT, PaLM dan BLOOM.
Tugas ketiga - pengekodan automatik - menyelesaikan masalah satu arah. Pengekodan automatik sangat serupa dengan pembelajaran pembenaman perkataan klasik. Pertama, kami merosakkan data latihan dengan menyembunyikan bahagian tertentu token dalam input (biasanya 10-20%). Model kemudian belajar untuk membina semula input yang betul berdasarkan persekitaran sekelilingnya, dengan mengambil kira penanda sebelumnya dan seterusnya. Contoh tipikal pengekod automatik ialah keluarga BERT, di mana BERT bermaksud Perwakilan Pengekod Dwi Arah daripada Transformers.
Komponen asas model bahasa ialah pengekod dan penyahkod. Pengekod mengubah input mentah menjadi perwakilan algebra berdimensi tinggi, juga dikenali sebagai vektor "tersembunyi". Tunggu sebentar -- tersembunyi? Sebenarnya tiada rahsia besar pada ketika ini. Sudah tentu, anda boleh melihat perwakilan, tetapi vektor nombor yang panjang tidak akan menyampaikan apa-apa yang bermakna kepada manusia. Ini memerlukan kecerdasan matematik model kami untuk mengendalikannya. Penyahkod mengeluarkan semula perwakilan tersembunyi dalam bentuk yang boleh difahami, seperti bahasa lain, kod pengaturcaraan, imej, dsb.
Rajah 4: Corak asas seni bina penyahkod pengekod
Seni bina penyahkod pengekod pada asalnya diperkenalkan untuk rangkaian saraf berulang. Sejak pengenalan model Transformer berasaskan perhatian, rekursi tradisional telah kehilangan popularitinya, manakala idea pengekod-penyahkod telah berterusan. Kebanyakan tugas pemahaman bahasa semula jadi (NLU) bergantung pada pengekod, manakala tugas penjanaan bahasa semula jadi (NLG) memerlukan penyahkod, dan penukaran urutan ke jujukan memerlukan kedua-dua komponen.
Kami tidak akan membincangkan butiran seni bina Transformer dan mekanisme perhatian di sini. Bagi mereka yang ingin menguasai butiran ini, bersedialah untuk meluangkan banyak masa untuk memikirkannya.
Pemodelan bahasa ialah tugas huluan yang hebat - jika anda mempunyai model bahasa yang berjaya, tahniah --Ini adalah. model pintar. Sebaliknya, NLP kebanyakannya digunakan untuk tugas hiliran yang lebih disasarkan seperti analisis sentimen, menjawab soalan dan pengekstrakan maklumat. Ini adalah apabila pembelajaran pemindahan diterapkan dan pengetahuan bahasa sedia ada digunakan semula untuk menangani cabaran yang lebih khusus. Semasa penalaan halus, sebahagian daripada model "dibekukan" dan bahagian yang selebihnya dilatih lagi dengan data daripada domain atau tugasan tertentu.
Penalaan halus eksplisit menambahkan kerumitan dalam perjalanan ke penempatan LLM. Ia juga boleh membawa kepada letupan model, di mana setiap tugas perniagaan memerlukan model diperhalusinya sendiri, yang membawa kepada pelbagai model yang tidak dapat diselenggara. Oleh itu, usaha telah dibuat untuk menggunakan beberapa atau sifar langkah pembelajaran untuk menyingkirkan langkah penalaan halus (seperti dalam GPT-3). Pembelajaran ini berlaku semasa proses ramalan: model disediakan dengan "petunjuk" - penerangan tugas dan mungkin beberapa contoh latihan - untuk membimbing ramalannya tentang kejadian masa hadapan.
Walaupun jauh lebih cepat untuk dilaksanakan, faktor kemudahan sifar atau bilangan pembelajaran yang kecil diimbangi oleh kualiti ramalannya yang lebih rendah. Selain itu, kebanyakan model ini memerlukan akses melalui API awan. Pada peringkat awal pembangunan, ini mungkin satu peluang yang dialu-alukan - namun, pada peringkat yang lebih maju, ia mungkin bertukar menjadi satu lagi pergantungan luar yang tidak diingini.
Melihat bekalan berterusan model bahasa baharu dalam pasaran kecerdasan buatan, pilih model yang sesuai untuk tugas hiliran tertentu dan ikuti perkembangan terkini. teknologi terkini Penyegerakan adalah rumit.
Kertas penyelidikan selalunya menanda aras setiap model pada tugasan hiliran dan set data tertentu. Suite tugasan standard, seperti SuperGLUE dan BIG-bench, membenarkan penanda aras bersatu bagi banyak tugasan NLP dan menyediakan asas untuk perbandingan. Walau bagaimanapun, kita harus ingat bahawa ujian ini disediakan dalam persekitaran yang sangat terkawal. Sehingga hari ini, keupayaan generalisasi model bahasa agak terhad - oleh itu, pemindahan kepada set data kehidupan sebenar boleh menjejaskan prestasi model dengan ketara. Menilai dan memilih model yang sesuai hendaklah termasuk menjalankan eksperimen ke atas data yang sedekat mungkin dengan data pengeluaran.
Sebagai peraturan biasa, sasaran pra-latihan memberikan petua penting: model autoregresif berprestasi baik dalam tugas penjanaan teks seperti AI perbualan, menjawab soalan dan ringkasan teks, manakala pengekod auto cemerlang dalam" "faham" dan bahasa berstruktur, cth. untuk analisis sentimen dan pelbagai tugas pengekstrakan maklumat. Secara teori, model yang digunakan untuk pembelajaran mata sifar boleh melaksanakan pelbagai tugas selagi mereka menerima pembayang yang sesuai - walau bagaimanapun, ketepatannya biasanya lebih rendah daripada model yang diperhalusi.
Untuk menjadikan perkara lebih konkrit, rajah di bawah menunjukkan cara tugas NLP popular berkaitan dengan model bahasa yang menonjol dalam kesusasteraan NLP. Perkaitan ini dikira berdasarkan pelbagai ukuran persamaan dan pengagregatan, termasuk membenamkan persamaan dan kejadian bersama berwajaran jarak. Pasangan model tugasan yang mendapat markah lebih tinggi, seperti BART/Text Summarization dan LaMDA/Conversational AI, menunjukkan padanan yang baik berdasarkan data sejarah.
Rajah 5: Kekuatan perkaitan antara model bahasa dan tugasan hiliran
Dalam artikel ini, Kami telah membincangkan konsep asas LLM dan dimensi utama di mana inovasi berlaku. Jadual di bawah menyediakan ringkasan ciri utama LLM yang paling popular.
Jadual 1: Ringkasan ciri model bahasa berskala besar yang paling popular
Mari kita ringkaskan garis panduan umum untuk pemilihan dan LLM.
1. Apabila menilai model yang berpotensi, jelaskan di mana anda berada dalam perjalanan AI.
2. Untuk menyelaraskan dengan tugas hiliran anda, pasukan AI harus membuat senarai pendek model berdasarkan kriteria berikut.
Hasil penanda aras dalam literatur akademik dengan tumpuan pada tugas hiliran
Ketekalan antara matlamat pralatihan dan tugas hiliran: pertimbangkan pengekodan automatik untuk NLGU, pengekodan automatik untuk pemulangan NLG.
Pengalaman yang dilaporkan sebelum ini dengan kombinasi tugas model ini.
3 Uji model yang disenarai pendek untuk memahami tugas dunia sebenar dan set data untuk merasakan prestasi awal.
4 Dalam kebanyakan kes, adalah mungkin untuk mencapai kualiti yang lebih baik melalui penalaan halus khusus. Walau bagaimanapun, jika anda tidak mempunyai keupayaan teknikal dalaman atau belanjawan untuk penalaan halus, atau anda perlu menampung sejumlah besar tugas, pertimbangkan pembelajaran beberapa/sifar pukulan.
5. Inovasi dan trend LLM adalah jangka pendek. Apabila bekerja dengan model bahasa, ketahui kitaran hayat dan keseluruhan aktiviti mereka dalam domain LLM, dan ketahui peluang untuk meningkatkan permainan anda.
Akhir sekali, sedar tentang batasan LLM. Walaupun mereka mempunyai kebolehan yang luar biasa seperti manusia untuk menghasilkan bahasa, kebolehan kognitif keseluruhan mereka kurang daripada kita manusia. Pengetahuan dunia dan keupayaan penaakulan model ini terhad kepada maklumat yang mereka temui di permukaan bahasa. Mereka juga gagal menyimpan fakta tepat pada masanya dan mungkin memberi anda maklumat lapuk tanpa berkelip mata. Jika anda sedang membina aplikasi yang bergantung pada menjana pengetahuan terkini atau bahkan mentah, pertimbangkan untuk menggabungkan LLM anda dengan sumber pengetahuan multimodal, berstruktur atau dinamik tambahan.
Pautan asal: https://www.topbots.com/choosing-the-right-language-model/
Cui Hao, editor komuniti 51CTO , seorang arkitek kanan dengan 18 tahun pengalaman dalam pembangunan perisian dan seni bina, dan 10 tahun pengalaman dalam seni bina teragih.
Atas ialah kandungan terperinci Memilih model bahasa yang sesuai untuk NLP. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!