


Apakah status pembangunan semasa Pembelajaran Dalam Konteks, yang didorong oleh GPT? Ulasan ini menjelaskannya
Apabila saiz model bahasa dan korpora berkembang secara beransur-ansur, model bahasa besar (LLM) menunjukkan lebih potensi. Beberapa kajian baru-baru ini telah menunjukkan bahawa LLM boleh menggunakan pembelajaran dalam konteks (ICL) untuk melaksanakan pelbagai tugas yang kompleks, seperti menyelesaikan masalah penaakulan matematik.
Sepuluh penyelidik dari Universiti Peking, Shanghai AI Lab dan University of California, Santa Barbara baru-baru ini menerbitkan kertas ulasan tentang pembelajaran dalam konteks, menggabungkan penyelidikan ICL dengan terperinci kemajuan semasa.
Alamat kertas: https://arxiv.org/pdf/2301.00234v1.pdf
Idea teras pembelajaran dalam konteks ialah pembelajaran analogi Rajah di bawah menerangkan cara model bahasa menggunakan ICL untuk membuat keputusan.
Pertama, ICL memerlukan beberapa contoh untuk membentuk konteks demonstrasi, dan contoh ini biasanya ditulis dalam templat bahasa semula jadi. ICL kemudiannya mengaitkan soalan pertanyaan dengan konteks pembentangan untuk membentuk gesaan, dan menyuapkannya ke dalam model bahasa untuk ramalan. Tidak seperti fasa latihan pembelajaran terselia, yang memerlukan pengemaskinian parameter model menggunakan kecerunan songsang, ICL tidak memerlukan kemas kini parameter untuk membenarkan model bahasa pra-latihan melaksanakan tugas ramalan secara langsung, dan model dijangka mempelajari corak tersembunyi dalam demonstrasi. contoh dan membuat keputusan berdasarkan ramalan yang betul.
Sebagai paradigma baharu, ICL mempunyai banyak kelebihan yang menarik. Pertama, contoh tunjuk cara ditulis dalam format bahasa semula jadi, yang menyediakan antara muka yang boleh ditafsir untuk berkaitan dengan model bahasa yang besar. Paradigma ini memudahkan untuk memasukkan pengetahuan manusia ke dalam model bahasa dengan menukar contoh dan templat demonstrasi (Liu et al., 2022; Lu et al., 2022; Wu et al., 2022; Wei et al., 2022c). Kedua, pembelajaran dalam konteks adalah sama dengan proses membuat keputusan pembelajaran manusia melalui analogi. Ketiga, berbanding dengan latihan yang diselia, ICL ialah rangka kerja pembelajaran tanpa latihan. Ini bukan sahaja dapat mengurangkan kos pengiraan untuk menyesuaikan model kepada tugas baharu, tetapi juga menjadikan Model Bahasa sebagai Perkhidmatan (LMaaS, Sun et al., 2022) mungkin dan mudah digunakan untuk tugas dunia sebenar berskala besar.
Walaupun ICL memegang janji yang besar, masih terdapat banyak isu yang patut diterokai, termasuk prestasinya. Sebagai contoh, model asal GPT-3 mempunyai keupayaan ICL tertentu, tetapi beberapa kajian mendapati bahawa keupayaan ini boleh dipertingkatkan dengan ketara melalui penyesuaian semasa pra-latihan. Tambahan pula, prestasi ICL adalah sensitif kepada tetapan tertentu, termasuk templat segera, pemilihan sampel kontekstual dan pesanan sampel. Di samping itu, walaupun mekanisme kerja ICL kelihatan munasabah, ia masih belum cukup jelas, dan tidak banyak kajian yang dapat menjelaskan mekanisme kerjanya secara awal.
Kertas kajian ini menyimpulkan bahawa prestasi hebat ICL bergantung pada dua peringkat:
- Memupuk model bahasa besar keupayaan ICL Latihan fasa;
- Fasa inferens di mana model bahasa besar membuat ramalan berdasarkan demonstrasi tugasan tertentu.
Semasa fasa latihan, model bahasa dilatih secara langsung mengenai matlamat pemodelan bahasa, seperti generasi kiri ke kanan. Walaupun model ini tidak dioptimumkan secara khusus untuk pembelajaran dalam konteks, keupayaan ICL masih mengejutkan. Penyelidikan ICL sedia ada pada asasnya berdasarkan model bahasa yang terlatih.
Dalam peringkat inferens, memandangkan label input dan output diwakili oleh templat bahasa semula jadi yang boleh ditafsir, prestasi ICL boleh dioptimumkan daripada pelbagai perspektif. Kertas ulasan ini menyediakan penerangan dan perbandingan terperinci, memilih contoh yang sesuai untuk demonstrasi, dan mereka bentuk kaedah pemarkahan khusus untuk tugasan yang berbeza.
Kandungan umum dan struktur kertas ulasan ini ditunjukkan dalam rajah di bawah, termasuk: definisi formal ICL (§3), kaedah pemanasan (§4), strategi reka bentuk segera ( §5 ) dan fungsi pemarkahan (§6).
Selain itu, §7 memberikan pandangan tentang usaha semasa untuk mendedahkan cara kerja di sebalik ICL. §8 selanjutnya menyediakan penilaian dan sumber yang berguna untuk ICL, dan §9 memperkenalkan senario aplikasi yang berpotensi yang menunjukkan keberkesanan ICL. Akhir sekali, §10 meringkaskan cabaran sedia ada dan hala tuju yang berpotensi dalam bidang ICL untuk menyediakan rujukan untuk pembangunan selanjutnya bidang tersebut.
Pembaca yang berminat boleh membaca teks asal kertas untuk mengetahui lebih lanjut butiran penyelidikan.
Atas ialah kandungan terperinci Apakah status pembangunan semasa Pembelajaran Dalam Konteks, yang didorong oleh GPT? Ulasan ini menjelaskannya. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!

Memeluk Olimpikcoder-7B: Model Penaakulan Kod Terbuka Sumber Terbuka yang kuat Perlumbaan untuk membangunkan model bahasa yang tertumpu kepada kod unggul semakin meningkat, dan Hugging Face telah menyertai pertandingan dengan pesaing yang hebat: Olympiccoder-7b, produk

Berapa banyak daripada anda yang berharap AI dapat melakukan lebih daripada sekadar menjawab soalan? Saya tahu saya ada, dan sejak kebelakangan ini, saya kagum dengan bagaimana ia berubah. AI Chatbots bukan sekadar berbual lagi, mereka sedang membuat, Researchin

Oleh kerana Smart AI mula diintegrasikan ke dalam semua peringkat platform dan aplikasi perisian perusahaan (kita harus menekankan bahawa terdapat kedua -dua alat teras yang kuat dan beberapa alat simulasi yang kurang dipercayai), kita memerlukan satu set baru keupayaan infrastruktur untuk menguruskan agen -agen ini. Camunda, sebuah syarikat orkestrasi proses yang berpusat di Berlin, Jerman, percaya ia dapat membantu Smart AI memainkan peranannya yang sewajarnya dan selaras dengan matlamat dan peraturan perniagaan yang tepat di tempat kerja digital yang baru. Syarikat ini kini menawarkan keupayaan orkestra pintar yang direka untuk membantu model organisasi, menggunakan dan mengurus ejen AI. Dari perspektif kejuruteraan perisian praktikal, apakah maksudnya? Integrasi proses kepastian dan bukan deterministik Syarikat itu mengatakan yang penting adalah untuk membolehkan pengguna (biasanya saintis data, perisian)

Menghadiri Google Cloud Seterusnya '25, saya berminat untuk melihat bagaimana Google akan membezakan tawaran AInya. Pengumuman baru -baru ini mengenai Agentspace (dibincangkan di sini) dan Suite Pengalaman Pelanggan (dibincangkan di sini) menjanjikan, menekankan perniagaan Valu

Memilih model penyembuhan berbilang bahasa yang optimum untuk sistem pengambilan semula (RAG) pengambilan anda Di dunia yang saling berkaitan hari ini, membina sistem AI berbilang bahasa yang berkesan adalah yang paling utama. Model penyembuhan berbilang bahasa yang teguh adalah penting untuk Re

Pelancaran Austin Robotaxi Tesla: Melihat lebih dekat dengan tuntutan Musk Elon Musk baru-baru ini mengumumkan pelancaran Robotaxi yang akan datang di Tesla di Austin, Texas, pada mulanya mengerahkan armada kecil 10-20 kenderaan untuk alasan keselamatan, dengan rancangan untuk pengembangan pesat. H

Cara kecerdasan buatan digunakan mungkin tidak dijangka. Pada mulanya, ramai di antara kita mungkin berfikir ia digunakan terutamanya untuk tugas kreatif dan teknikal, seperti menulis kod dan membuat kandungan. Walau bagaimanapun, satu tinjauan baru -baru ini yang dilaporkan oleh Harvard Business Review menunjukkan bahawa ini tidak berlaku. Kebanyakan pengguna mencari kecerdasan buatan bukan hanya untuk kerja, tetapi untuk sokongan, organisasi, dan juga persahabatan! Laporan itu mengatakan bahawa kes permohonan AI yang pertama adalah rawatan dan persahabatan. Ini menunjukkan bahawa ketersediaan 24/7 dan keupayaan untuk memberikan nasihat dan maklum balas yang jujur, jujur adalah nilai yang sangat baik. Sebaliknya, tugas pemasaran (seperti menulis blog, mewujudkan jawatan media sosial, atau salinan pengiklanan) yang lebih rendah pada senarai penggunaan popular. Mengapa ini? Mari kita lihat hasil penyelidikan dan bagaimana ia terus menjadi

Kebangkitan agen AI mengubah landskap perniagaan. Berbanding dengan revolusi awan, kesan agen AI diramalkan secara eksponen lebih besar, menjanjikan untuk merevolusikan kerja pengetahuan. Keupayaan untuk mensimulasikan keputusan-maki manusia


Alat AI Hot

Undresser.AI Undress
Apl berkuasa AI untuk mencipta foto bogel yang realistik

AI Clothes Remover
Alat AI dalam talian untuk mengeluarkan pakaian daripada foto.

Undress AI Tool
Gambar buka pakaian secara percuma

Clothoff.io
Penyingkiran pakaian AI

Video Face Swap
Tukar muka dalam mana-mana video dengan mudah menggunakan alat tukar muka AI percuma kami!

Artikel Panas

Alat panas

VSCode Windows 64-bit Muat Turun
Editor IDE percuma dan berkuasa yang dilancarkan oleh Microsoft

MinGW - GNU Minimalis untuk Windows
Projek ini dalam proses untuk dipindahkan ke osdn.net/projects/mingw, anda boleh terus mengikuti kami di sana. MinGW: Port Windows asli bagi GNU Compiler Collection (GCC), perpustakaan import yang boleh diedarkan secara bebas dan fail pengepala untuk membina aplikasi Windows asli termasuk sambungan kepada masa jalan MSVC untuk menyokong fungsi C99. Semua perisian MinGW boleh dijalankan pada platform Windows 64-bit.

mPDF
mPDF ialah perpustakaan PHP yang boleh menjana fail PDF daripada HTML yang dikodkan UTF-8. Pengarang asal, Ian Back, menulis mPDF untuk mengeluarkan fail PDF "dengan cepat" dari tapak webnya dan mengendalikan bahasa yang berbeza. Ia lebih perlahan dan menghasilkan fail yang lebih besar apabila menggunakan fon Unicode daripada skrip asal seperti HTML2FPDF, tetapi menyokong gaya CSS dsb. dan mempunyai banyak peningkatan. Menyokong hampir semua bahasa, termasuk RTL (Arab dan Ibrani) dan CJK (Cina, Jepun dan Korea). Menyokong elemen peringkat blok bersarang (seperti P, DIV),

PhpStorm versi Mac
Alat pembangunan bersepadu PHP profesional terkini (2018.2.1).

SublimeText3 versi Inggeris
Disyorkan: Versi Win, menyokong gesaan kod!