cari
RumahPeranti teknologiAIGPT-4 telah meningkatkan ketepatannya sebanyak 13.7% melalui latihan DeepMind, mencapai keupayaan induksi dan potongan yang lebih baik.

Pada masa ini, Model Bahasa Besar (LLM) menunjukkan keupayaan yang menakjubkan pada tugasan inferens, terutamanya apabila contoh dan langkah perantaraan disediakan. Walau bagaimanapun, kaedah segera biasanya bergantung pada pengetahuan tersirat dalam LLM, dan apabila pengetahuan tersirat salah atau tidak konsisten dengan tugas, LLM mungkin memberikan jawapan yang salah

GPT-4 telah meningkatkan ketepatannya sebanyak 13.7% melalui latihan DeepMind, mencapai keupayaan induksi dan potongan yang lebih baik.

Sekarang, daripada Google, Institut Mila, dsb. Penyelidik dari penyelidikan institusi bersama-sama meneroka kaedah baharu - membenarkan LLM mempelajari peraturan inferens, dan mencadangkan rangka kerja baharu yang dipanggil Hipotesis-kepada-Teori (HtT). Kaedah baharu ini bukan sahaja menambah baik penaakulan pelbagai langkah, tetapi juga mempunyai kelebihan kebolehtafsiran dan kebolehpindahan

GPT-4 telah meningkatkan ketepatannya sebanyak 13.7% melalui latihan DeepMind, mencapai keupayaan induksi dan potongan yang lebih baik.

Alamat kertas: https://arxiv.org/abs/2310.07064

cording

Experience

keputusan mengenai masalah penaakulan berangka dan penaakulan hubungan menunjukkan bahawa kaedah HtT menambah baik kaedah dorongan sedia ada dan meningkatkan ketepatan sebanyak 11-27%. Pada masa yang sama, peraturan yang dipelajari juga boleh dipindahkan kepada model yang berbeza atau bentuk yang berbeza dari masalah yang sama

Pengenalan kepada kaedah

Secara amnya, rangka kerja HtT mengandungi dua peringkat - peringkat induktif dan deduktif peringkat. Sama seperti latihan dan ujian dalam pembelajaran mesin tradisional.

GPT-4 telah meningkatkan ketepatannya sebanyak 13.7% melalui latihan DeepMind, mencapai keupayaan induksi dan potongan yang lebih baik.

Dalam fasa induksi, LLM terlebih dahulu perlu menjana dan mengesahkan satu set peraturan untuk contoh latihan. Kajian ini menggunakan CoT untuk mengisytiharkan peraturan dan memperoleh jawapan, menilai kekerapan dan ketepatan peraturan, mengumpul peraturan yang kerap muncul dan membawa kepada jawapan yang betul, dan membentuk asas peraturan

Dengan asas peraturan yang baik, langkah seterusnya ialah bagaimana untuk mengaplikasikan penyelidikan ini Peraturan ini menyelesaikan masalah. Untuk tujuan ini, dalam fasa potongan, kajian ini menambah asas peraturan dengan segera dan memerlukan LLM untuk mendapatkan semula peraturan daripada asas peraturan untuk melakukan potongan, menukar penaakulan tersirat kepada penaakulan eksplisit.

Walau bagaimanapun, kajian mendapati bahawa walaupun LLM yang sangat berkuasa (seperti GPT-4) mengalami kesukaran untuk mendapatkan semula peraturan yang betul pada setiap langkah. Oleh itu, kajian ini membangunkan teknik penanda XML untuk meningkatkan keupayaan mendapatkan semula konteks LLM

GPT-4 telah meningkatkan ketepatannya sebanyak 13.7% melalui latihan DeepMind, mencapai keupayaan induksi dan potongan yang lebih baik.

Hasil eksperimen

Untuk menilai HtT, kajian ini menjalankan penaakulan pelbagai penanda aras ke atas dua masalah. Keputusan eksperimen menunjukkan bahawa HtT menambah baik kaedah segera beberapa sampel. Penulis juga melakukan kajian ablasi yang meluas untuk memberikan pemahaman yang lebih komprehensif tentang HtT.

Mereka menilai kaedah baharu mengenai penaakulan berangka dan masalah penaakulan hubungan. Dalam inferens berangka, mereka melihat peningkatan 21.0% dalam ketepatan untuk GPT-4. Dalam penaakulan hubungan, GPT-4 mencapai peningkatan ketepatan 13.7%, dan GPT-3.5 mendapat lebih banyak manfaat, menggandakan prestasi. Keuntungan prestasi terutamanya datang daripada pengurangan ilusi peraturan.

GPT-4 telah meningkatkan ketepatannya sebanyak 13.7% melalui latihan DeepMind, mencapai keupayaan induksi dan potongan yang lebih baik.

Secara khusus, Jadual 1 di bawah menunjukkan keputusan pada pangkalan data asas-16, asas-11 dan asas-9 aritmetik. Di antara semua sistem asas, CoT 0-shot mempunyai prestasi paling teruk dalam kedua-dua LLM.

GPT-4 telah meningkatkan ketepatannya sebanyak 13.7% melalui latihan DeepMind, mencapai keupayaan induksi dan potongan yang lebih baik.

Jadual 2 membentangkan keputusan membandingkan kaedah berbeza pada CLUTRR. Dapat diperhatikan bahawa CoT 0-shot mempunyai prestasi terburuk dalam GPT3.5 dan GPT4. Untuk kaedah gesaan beberapa pukulan, CoT dan LtM melakukan yang sama. Dari segi ketepatan purata, HtT secara konsisten mengatasi kaedah pembayang untuk kedua-dua model sebanyak 11.1-27.2%. Perlu diingat bahawa GPT3.5 tidak buruk untuk mendapatkan semula peraturan CLUTRR dan mendapat lebih banyak manfaat daripada HtT berbanding GPT4, mungkin kerana terdapat lebih sedikit peraturan dalam CLUTRR daripada dalam aritmetik.

Perlu dinyatakan bahawa menggunakan peraturan GPT4, prestasi CoT pada GPT3.5 dipertingkatkan sebanyak 27.2%, iaitu lebih daripada dua kali ganda prestasi CoT dan hampir dengan prestasi CoT pada GPT4. Oleh itu, penulis percaya bahawa HtT boleh berfungsi sebagai bentuk penyulingan pengetahuan baharu daripada LLM kuat kepada LLM lemah.

GPT-4 telah meningkatkan ketepatannya sebanyak 13.7% melalui latihan DeepMind, mencapai keupayaan induksi dan potongan yang lebih baik.

Jadual 3 menunjukkan bahawa HtT meningkatkan prestasi GPT-4 (versi teks) dengan ketara. Peningkatan ini tidak ketara untuk GPT3.5, kerana ia sering menghasilkan ralat selain daripada ilusi peraturan semasa memproses input teks.

GPT-4 telah meningkatkan ketepatannya sebanyak 13.7% melalui latihan DeepMind, mencapai keupayaan induksi dan potongan yang lebih baik.

GPT-4 telah meningkatkan ketepatannya sebanyak 13.7% melalui latihan DeepMind, mencapai keupayaan induksi dan potongan yang lebih baik.

Atas ialah kandungan terperinci GPT-4 telah meningkatkan ketepatannya sebanyak 13.7% melalui latihan DeepMind, mencapai keupayaan induksi dan potongan yang lebih baik.. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!

Kenyataan
Artikel ini dikembalikan pada:51CTO.COM. Jika ada pelanggaran, sila hubungi admin@php.cn Padam
Apakah graf pemikiran dalam kejuruteraan segeraApakah graf pemikiran dalam kejuruteraan segeraApr 13, 2025 am 11:53 AM

Pengenalan Dalam kejuruteraan segera, "Grafik Pemikiran" merujuk kepada pendekatan baru yang menggunakan teori graf untuk struktur dan membimbing proses penalaran AI. Tidak seperti kaedah tradisional, yang sering melibatkan linear

Mengoptimumkan pemasaran e -mel organisasi anda dengan agen genaiMengoptimumkan pemasaran e -mel organisasi anda dengan agen genaiApr 13, 2025 am 11:44 AM

Pengenalan Tahniah! Anda menjalankan perniagaan yang berjaya. Melalui laman web anda, kempen media sosial, webinar, persidangan, sumber percuma, dan sumber lain, anda mengumpul 5000 ID e -mel setiap hari. Langkah jelas seterusnya adalah

Pemantauan Prestasi Aplikasi Masa Nyata dengan Apache PinotPemantauan Prestasi Aplikasi Masa Nyata dengan Apache PinotApr 13, 2025 am 11:40 AM

Pengenalan Dalam persekitaran pembangunan perisian pantas hari ini, memastikan prestasi aplikasi yang optimum adalah penting. Memantau metrik masa nyata seperti masa tindak balas, kadar ralat, dan penggunaan sumber dapat membantu utama

Chatgpt mencecah 1 bilion pengguna? 'Dua kali ganda dalam beberapa minggu' kata Ketua Pegawai Eksekutif OpenaiChatgpt mencecah 1 bilion pengguna? 'Dua kali ganda dalam beberapa minggu' kata Ketua Pegawai Eksekutif OpenaiApr 13, 2025 am 11:23 AM

"Berapa banyak pengguna yang anda ada?" Dia ditakdirkan. "Saya fikir kali terakhir yang kami katakan ialah 500 juta aktif mingguan, dan ia berkembang dengan pesat," jawab Altman. "Anda memberitahu saya bahawa ia seperti dua kali ganda dalam beberapa minggu sahaja," kata Anderson. "Saya mengatakan bahawa priv

Pixtral -12b: Model Multimodal Pertama Mistral Ai 'Pixtral -12b: Model Multimodal Pertama Mistral Ai 'Apr 13, 2025 am 11:20 AM

Pengenalan Mistral telah mengeluarkan model multimodal yang pertama, iaitu Pixtral-12B-2409. Model ini dibina atas parameter 12 bilion Mistral, NEMO 12B. Apa yang membezakan model ini? Ia kini boleh mengambil kedua -dua gambar dan Tex

Rangka Kerja Agentik untuk Aplikasi AI Generatif - Analytics VidhyaRangka Kerja Agentik untuk Aplikasi AI Generatif - Analytics VidhyaApr 13, 2025 am 11:13 AM

Bayangkan mempunyai pembantu berkuasa AI yang bukan sahaja memberi respons kepada pertanyaan anda tetapi juga mengumpulkan maklumat, melaksanakan tugas, dan juga mengendalikan pelbagai jenis teks, imej, dan kod. Bunyi futuristik? Dalam ini a

Aplikasi AI Generatif di Sektor KewanganAplikasi AI Generatif di Sektor KewanganApr 13, 2025 am 11:12 AM

Pengenalan Industri kewangan adalah asas kepada mana -mana pembangunan negara, kerana ia memacu pertumbuhan ekonomi dengan memudahkan urus niaga yang cekap dan ketersediaan kredit. The ease with which transactions occur and credit

Panduan untuk pembelajaran dalam talian dan algoritma pasif-agresifPanduan untuk pembelajaran dalam talian dan algoritma pasif-agresifApr 13, 2025 am 11:09 AM

Pengenalan Data dijana pada kadar yang belum pernah terjadi sebelumnya dari sumber seperti media sosial, urus niaga kewangan, dan platform e-dagang. Mengendalikan aliran maklumat yang berterusan ini adalah satu cabaran, tetapi ia menawarkan

See all articles

Alat AI Hot

Undresser.AI Undress

Undresser.AI Undress

Apl berkuasa AI untuk mencipta foto bogel yang realistik

AI Clothes Remover

AI Clothes Remover

Alat AI dalam talian untuk mengeluarkan pakaian daripada foto.

Undress AI Tool

Undress AI Tool

Gambar buka pakaian secara percuma

Clothoff.io

Clothoff.io

Penyingkiran pakaian AI

AI Hentai Generator

AI Hentai Generator

Menjana ai hentai secara percuma.

Artikel Panas

R.E.P.O. Kristal tenaga dijelaskan dan apa yang mereka lakukan (kristal kuning)
3 minggu yang laluBy尊渡假赌尊渡假赌尊渡假赌
R.E.P.O. Tetapan grafik terbaik
3 minggu yang laluBy尊渡假赌尊渡假赌尊渡假赌
R.E.P.O. Cara Memperbaiki Audio Jika anda tidak dapat mendengar sesiapa
3 minggu yang laluBy尊渡假赌尊渡假赌尊渡假赌
WWE 2K25: Cara Membuka Segala -galanya Di Myrise
4 minggu yang laluBy尊渡假赌尊渡假赌尊渡假赌

Alat panas

Pelayar Peperiksaan Selamat

Pelayar Peperiksaan Selamat

Pelayar Peperiksaan Selamat ialah persekitaran pelayar selamat untuk mengambil peperiksaan dalam talian dengan selamat. Perisian ini menukar mana-mana komputer menjadi stesen kerja yang selamat. Ia mengawal akses kepada mana-mana utiliti dan menghalang pelajar daripada menggunakan sumber yang tidak dibenarkan.

MantisBT

MantisBT

Mantis ialah alat pengesan kecacatan berasaskan web yang mudah digunakan yang direka untuk membantu dalam pengesanan kecacatan produk. Ia memerlukan PHP, MySQL dan pelayan web. Lihat perkhidmatan demo dan pengehosan kami.

Penyesuai Pelayan SAP NetWeaver untuk Eclipse

Penyesuai Pelayan SAP NetWeaver untuk Eclipse

Integrasikan Eclipse dengan pelayan aplikasi SAP NetWeaver.

SublimeText3 versi Inggeris

SublimeText3 versi Inggeris

Disyorkan: Versi Win, menyokong gesaan kod!

SublimeText3 versi Mac

SublimeText3 versi Mac

Perisian penyuntingan kod peringkat Tuhan (SublimeText3)