cari
RumahPeranti teknologiAIApakah status pembangunan semasa Pembelajaran Dalam Konteks, yang didorong oleh GPT? Ulasan ini menjelaskannya

Apabila saiz model bahasa dan korpora berkembang secara beransur-ansur, model bahasa besar (LLM) menunjukkan lebih potensi. Beberapa kajian baru-baru ini telah menunjukkan bahawa LLM boleh menggunakan pembelajaran dalam konteks (ICL) untuk melaksanakan pelbagai tugas yang kompleks, seperti menyelesaikan masalah penaakulan matematik.

Sepuluh penyelidik dari Universiti Peking, Shanghai AI Lab dan University of California, Santa Barbara baru-baru ini menerbitkan kertas ulasan tentang pembelajaran dalam konteks, menggabungkan penyelidikan ICL dengan terperinci kemajuan semasa.

Apakah status pembangunan semasa Pembelajaran Dalam Konteks, yang didorong oleh GPT? Ulasan ini menjelaskannya

Alamat kertas: ​https://arxiv.org/pdf/2301.00234v1.pdf​

Idea teras pembelajaran dalam konteks ialah pembelajaran analogi Rajah di bawah menerangkan cara model bahasa menggunakan ICL untuk membuat keputusan.

Apakah status pembangunan semasa Pembelajaran Dalam Konteks, yang didorong oleh GPT? Ulasan ini menjelaskannya

Pertama, ICL memerlukan beberapa contoh untuk membentuk konteks demonstrasi, dan contoh ini biasanya ditulis dalam templat bahasa semula jadi. ICL kemudiannya mengaitkan soalan pertanyaan dengan konteks pembentangan untuk membentuk gesaan, dan menyuapkannya ke dalam model bahasa untuk ramalan. Tidak seperti fasa latihan pembelajaran terselia, yang memerlukan pengemaskinian parameter model menggunakan kecerunan songsang, ICL tidak memerlukan kemas kini parameter untuk membenarkan model bahasa pra-latihan melaksanakan tugas ramalan secara langsung, dan model dijangka mempelajari corak tersembunyi dalam demonstrasi. contoh dan membuat keputusan berdasarkan ramalan yang betul.

Sebagai paradigma baharu, ICL mempunyai banyak kelebihan yang menarik. Pertama, contoh tunjuk cara ditulis dalam format bahasa semula jadi, yang menyediakan antara muka yang boleh ditafsir untuk berkaitan dengan model bahasa yang besar. Paradigma ini memudahkan untuk memasukkan pengetahuan manusia ke dalam model bahasa dengan menukar contoh dan templat demonstrasi (Liu et al., 2022; Lu et al., 2022; Wu et al., 2022; Wei et al., 2022c). Kedua, pembelajaran dalam konteks adalah sama dengan proses membuat keputusan pembelajaran manusia melalui analogi. Ketiga, berbanding dengan latihan yang diselia, ICL ialah rangka kerja pembelajaran tanpa latihan. Ini bukan sahaja dapat mengurangkan kos pengiraan untuk menyesuaikan model kepada tugas baharu, tetapi juga menjadikan Model Bahasa sebagai Perkhidmatan (LMaaS, Sun et al., 2022) mungkin dan mudah digunakan untuk tugas dunia sebenar berskala besar.

Walaupun ICL memegang janji yang besar, masih terdapat banyak isu yang patut diterokai, termasuk prestasinya. Sebagai contoh, model asal GPT-3 mempunyai keupayaan ICL tertentu, tetapi beberapa kajian mendapati bahawa keupayaan ini boleh dipertingkatkan dengan ketara melalui penyesuaian semasa pra-latihan. Tambahan pula, prestasi ICL adalah sensitif kepada tetapan tertentu, termasuk templat segera, pemilihan sampel kontekstual dan pesanan sampel. Di samping itu, walaupun mekanisme kerja ICL kelihatan munasabah, ia masih belum cukup jelas, dan tidak banyak kajian yang dapat menjelaskan mekanisme kerjanya secara awal.

Kertas kajian ini menyimpulkan bahawa prestasi hebat ICL bergantung pada dua peringkat:

  • Memupuk model bahasa besar keupayaan ICL Latihan fasa;
  • Fasa inferens di mana model bahasa besar membuat ramalan berdasarkan demonstrasi tugasan tertentu.

Semasa fasa latihan, model bahasa dilatih secara langsung mengenai matlamat pemodelan bahasa, seperti generasi kiri ke kanan. Walaupun model ini tidak dioptimumkan secara khusus untuk pembelajaran dalam konteks, keupayaan ICL masih mengejutkan. Penyelidikan ICL sedia ada pada asasnya berdasarkan model bahasa yang terlatih.

Dalam peringkat inferens, memandangkan label input dan output diwakili oleh templat bahasa semula jadi yang boleh ditafsir, prestasi ICL boleh dioptimumkan daripada pelbagai perspektif. Kertas ulasan ini menyediakan penerangan dan perbandingan terperinci, memilih contoh yang sesuai untuk demonstrasi, dan mereka bentuk kaedah pemarkahan khusus untuk tugasan yang berbeza.

Kandungan umum dan struktur kertas ulasan ini ditunjukkan dalam rajah di bawah, termasuk: definisi formal ICL (§3), kaedah pemanasan (§4), strategi reka bentuk segera ( §5 ) dan fungsi pemarkahan (§6).

Apakah status pembangunan semasa Pembelajaran Dalam Konteks, yang didorong oleh GPT? Ulasan ini menjelaskannya

Selain itu, §7 memberikan pandangan tentang usaha semasa untuk mendedahkan cara kerja di sebalik ICL. §8 selanjutnya menyediakan penilaian dan sumber yang berguna untuk ICL, dan §9 memperkenalkan senario aplikasi yang berpotensi yang menunjukkan keberkesanan ICL. Akhir sekali, §10 meringkaskan cabaran sedia ada dan hala tuju yang berpotensi dalam bidang ICL untuk menyediakan rujukan untuk pembangunan selanjutnya bidang tersebut.

Pembaca yang berminat boleh membaca teks asal kertas untuk mengetahui lebih lanjut butiran penyelidikan.

Atas ialah kandungan terperinci Apakah status pembangunan semasa Pembelajaran Dalam Konteks, yang didorong oleh GPT? Ulasan ini menjelaskannya. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!

Kenyataan
Artikel ini dikembalikan pada:51CTO.COM. Jika ada pelanggaran, sila hubungi admin@php.cn Padam
Adakah Model Model ' S 7B Olympiccoder mengalahkan Claude 3.7?Adakah Model Model ' S 7B Olympiccoder mengalahkan Claude 3.7?Apr 23, 2025 am 11:49 AM

Memeluk Olimpikcoder-7B: Model Penaakulan Kod Terbuka Sumber Terbuka yang kuat Perlumbaan untuk membangunkan model bahasa yang tertumpu kepada kod unggul semakin meningkat, dan Hugging Face telah menyertai pertandingan dengan pesaing yang hebat: Olympiccoder-7b, produk

4 ciri Gemini baru yang anda tidak dapat merindui4 ciri Gemini baru yang anda tidak dapat merinduiApr 23, 2025 am 11:48 AM

Berapa banyak daripada anda yang berharap AI dapat melakukan lebih daripada sekadar menjawab soalan? Saya tahu saya ada, dan sejak kebelakangan ini, saya kagum dengan bagaimana ia berubah. AI Chatbots bukan sekadar berbual lagi, mereka sedang membuat, Researchin

Camunda menulis skor baru untuk orkestra ai agentikCamunda menulis skor baru untuk orkestra ai agentikApr 23, 2025 am 11:46 AM

Oleh kerana Smart AI mula diintegrasikan ke dalam semua peringkat platform dan aplikasi perisian perusahaan (kita harus menekankan bahawa terdapat kedua -dua alat teras yang kuat dan beberapa alat simulasi yang kurang dipercayai), kita memerlukan satu set baru keupayaan infrastruktur untuk menguruskan agen -agen ini. Camunda, sebuah syarikat orkestrasi proses yang berpusat di Berlin, Jerman, percaya ia dapat membantu Smart AI memainkan peranannya yang sewajarnya dan selaras dengan matlamat dan peraturan perniagaan yang tepat di tempat kerja digital yang baru. Syarikat ini kini menawarkan keupayaan orkestra pintar yang direka untuk membantu model organisasi, menggunakan dan mengurus ejen AI. Dari perspektif kejuruteraan perisian praktikal, apakah maksudnya? Integrasi proses kepastian dan bukan deterministik Syarikat itu mengatakan yang penting adalah untuk membolehkan pengguna (biasanya saintis data, perisian)

Adakah nilai dalam pengalaman AI perusahaan yang dikendalikan?Adakah nilai dalam pengalaman AI perusahaan yang dikendalikan?Apr 23, 2025 am 11:45 AM

Menghadiri Google Cloud Seterusnya '25, saya berminat untuk melihat bagaimana Google akan membezakan tawaran AInya. Pengumuman baru -baru ini mengenai Agentspace (dibincangkan di sini) dan Suite Pengalaman Pelanggan (dibincangkan di sini) menjanjikan, menekankan perniagaan Valu

Bagaimana untuk mencari model penyembuhan berbilang bahasa terbaik untuk kain anda?Bagaimana untuk mencari model penyembuhan berbilang bahasa terbaik untuk kain anda?Apr 23, 2025 am 11:44 AM

Memilih model penyembuhan berbilang bahasa yang optimum untuk sistem pengambilan semula (RAG) pengambilan anda Di dunia yang saling berkaitan hari ini, membina sistem AI berbilang bahasa yang berkesan adalah yang paling utama. Model penyembuhan berbilang bahasa yang teguh adalah penting untuk Re

Musk: Robotaxis di Austin memerlukan campur tangan setiap 10,000 batuMusk: Robotaxis di Austin memerlukan campur tangan setiap 10,000 batuApr 23, 2025 am 11:42 AM

Pelancaran Austin Robotaxi Tesla: Melihat lebih dekat dengan tuntutan Musk Elon Musk baru-baru ini mengumumkan pelancaran Robotaxi yang akan datang di Tesla di Austin, Texas, pada mulanya mengerahkan armada kecil 10-20 kenderaan untuk alasan keselamatan, dengan rancangan untuk pengembangan pesat. H

AI 'AI 'Apr 23, 2025 am 11:41 AM

Cara kecerdasan buatan digunakan mungkin tidak dijangka. Pada mulanya, ramai di antara kita mungkin berfikir ia digunakan terutamanya untuk tugas kreatif dan teknikal, seperti menulis kod dan membuat kandungan. Walau bagaimanapun, satu tinjauan baru -baru ini yang dilaporkan oleh Harvard Business Review menunjukkan bahawa ini tidak berlaku. Kebanyakan pengguna mencari kecerdasan buatan bukan hanya untuk kerja, tetapi untuk sokongan, organisasi, dan juga persahabatan! Laporan itu mengatakan bahawa kes permohonan AI yang pertama adalah rawatan dan persahabatan. Ini menunjukkan bahawa ketersediaan 24/7 dan keupayaan untuk memberikan nasihat dan maklum balas yang jujur, jujur ​​adalah nilai yang sangat baik. Sebaliknya, tugas pemasaran (seperti menulis blog, mewujudkan jawatan media sosial, atau salinan pengiklanan) yang lebih rendah pada senarai penggunaan popular. Mengapa ini? Mari kita lihat hasil penyelidikan dan bagaimana ia terus menjadi

Syarikat berlumba ke arah pengangkatan ejen AISyarikat berlumba ke arah pengangkatan ejen AIApr 23, 2025 am 11:40 AM

Kebangkitan agen AI mengubah landskap perniagaan. Berbanding dengan revolusi awan, kesan agen AI diramalkan secara eksponen lebih besar, menjanjikan untuk merevolusikan kerja pengetahuan. Keupayaan untuk mensimulasikan keputusan-maki manusia

See all articles

Alat AI Hot

Undresser.AI Undress

Undresser.AI Undress

Apl berkuasa AI untuk mencipta foto bogel yang realistik

AI Clothes Remover

AI Clothes Remover

Alat AI dalam talian untuk mengeluarkan pakaian daripada foto.

Undress AI Tool

Undress AI Tool

Gambar buka pakaian secara percuma

Clothoff.io

Clothoff.io

Penyingkiran pakaian AI

Video Face Swap

Video Face Swap

Tukar muka dalam mana-mana video dengan mudah menggunakan alat tukar muka AI percuma kami!

Alat panas

VSCode Windows 64-bit Muat Turun

VSCode Windows 64-bit Muat Turun

Editor IDE percuma dan berkuasa yang dilancarkan oleh Microsoft

MinGW - GNU Minimalis untuk Windows

MinGW - GNU Minimalis untuk Windows

Projek ini dalam proses untuk dipindahkan ke osdn.net/projects/mingw, anda boleh terus mengikuti kami di sana. MinGW: Port Windows asli bagi GNU Compiler Collection (GCC), perpustakaan import yang boleh diedarkan secara bebas dan fail pengepala untuk membina aplikasi Windows asli termasuk sambungan kepada masa jalan MSVC untuk menyokong fungsi C99. Semua perisian MinGW boleh dijalankan pada platform Windows 64-bit.

mPDF

mPDF

mPDF ialah perpustakaan PHP yang boleh menjana fail PDF daripada HTML yang dikodkan UTF-8. Pengarang asal, Ian Back, menulis mPDF untuk mengeluarkan fail PDF "dengan cepat" dari tapak webnya dan mengendalikan bahasa yang berbeza. Ia lebih perlahan dan menghasilkan fail yang lebih besar apabila menggunakan fon Unicode daripada skrip asal seperti HTML2FPDF, tetapi menyokong gaya CSS dsb. dan mempunyai banyak peningkatan. Menyokong hampir semua bahasa, termasuk RTL (Arab dan Ibrani) dan CJK (Cina, Jepun dan Korea). Menyokong elemen peringkat blok bersarang (seperti P, DIV),

PhpStorm versi Mac

PhpStorm versi Mac

Alat pembangunan bersepadu PHP profesional terkini (2018.2.1).

SublimeText3 versi Inggeris

SublimeText3 versi Inggeris

Disyorkan: Versi Win, menyokong gesaan kod!