Satu helah untuk membezakan model penipuan berskala besar, sumber terbuka AI matematik 'cermin syaitan' abang doktor-AI-php.cn

Rumah

Peranti teknologi

Satu helah untuk membezakan model penipuan berskala besar, sumber terbuka AI matematik 'cermin syaitan' abang doktor

WBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWB

Nov 17, 2023 pm 12:38 PM

aidata

Kini, ramai model besar yang mengaku mahir dalam matematik, Siapa yang mempunyai bakat sebenar? Siapa yang "menipu" pada soalan ujian belakang ke belakang?

Tahun ini, seseorang menjalankan ujian komprehensif terhadap soalan yang baru diumumkan untuk Peperiksaan Akhir Matematik Kebangsaan Hungary

Banyak model sekaligus# 🎜 🎜#"Dedahkan bentuk sebenar anda".

Satu helah untuk membezakan model penipuan berskala besar, sumber terbuka AI matematik cermin syaitan abang doktor

Lihat duluBahagian hijau, model besar ini diuji pada matematik klasik dan set GSM8k kertas baharu Keputusan yang dicapai adalah serupa, dan bersama-sama membentuk standard rujukan .

Melihat bahagian merah lagi

, keputusan pada GSM8K adalah jauh lebih tinggi daripada model besar dengan model yang sama skala parameter,# 🎜 🎜#Sebaik sahaja saya mendapat kertas baharu, markah saya menurun dengan ketara, yang hampir sama dengan model besar dengan saiz yang sama. Para penyelidik mengklasifikasikan mereka sebagai

"disyaki atau diketahui telah dilatih menggunakan GSM8k" . Sesetengah orang melihat ujian ini dan berkata bahawa mereka harus mula menilai soalan yang mereka tidak pernah lihat sebelum ini

Satu helah untuk membezakan model penipuan berskala besar, sumber terbuka AI matematik cermin syaitan abang doktor Ada yang percaya bahawa ujian jenis ini, dan pengalaman semua orang dengan penggunaan sebenar model besar, adalah satu-satunya kaedah penilaian yang boleh dipercayai pada masa ini Untuk GPT-4, sumber terbuka Llemma telah mencapai keputusan yang cemerlang

tester

Keiran Paster Satu helah untuk membezakan model penipuan berskala besar, sumber terbuka AI matematik cermin syaitan abang doktor

ialah pelajar kedoktoran di Universiti Toronto, penyelidik pelajar Google dan penguji Salah seorang pengarang model Lemma yang besar.

Biar model besar mengambil peperiksaan akhir matematik sekolah menengah kebangsaan Hungary Helah ini datang daripada xAI#🎜 Musk. 🎜#

Satu helah untuk membezakan model penipuan berskala besar, sumber terbuka AI matematik cermin syaitan abang doktor Untuk menolak masalah bahawa model besar Grok xAI secara tidak sengaja telah melihat soalan ujian dalam data rangkaian, sebagai tambahan kepada beberapa set ujian biasa, ujian ini juga dijalankan

#🎜🎜 # Peperiksaan ini hanya selesai pada penghujung Mei tahun ini, pada asasnya model besar tidak pernah berpeluang melihat set soalan ujian ini.

Apabila xAI dikeluarkan, ia turut mengumumkan keputusan GPT-3.5, GPT-4 dan Claude 2 sebagai perbandingan.

Berdasarkan set data ini, Paster menjalankan ujian selanjutnya, dan objek ujian ialah berbilang model sumber terbuka dengan keupayaan matematik yang kukuh#🎜 🎜## 🎜🎜#Dan soalan ujian, skrip ujian dan keputusan jawapan setiap model adalah

#🎜🎜🎜# sumber terbuka pada Huggingface

untuk semua orang menyemak dan menguji model lain.

Satu helah untuk membezakan model penipuan berskala besar, sumber terbuka AI matematik cermin syaitan abang doktor

Keputusan menunjukkan bahawa GPT-4 dan Claude-2 membentuk eselon pertama, dengan markah tinggi pada GSM8k dan kertas baharu.

Walaupun ini tidak bermakna tiada soalan bocor GSM8k dalam data latihan GPT-4 dan Claude 2, tetapi sekurang-kurangnya mereka mempunyai keupayaan generalisasi yang baik dan boleh menyelesaikan soalan baharu dengan betul, jadi mereka tidak tak kisah.

Seterusnya, Musk xAI's Grok-0 (33B) dan Grok-1 (skala parameter yang tidak diumumkan)

kedua-duanya berprestasi baik .

Satu helah untuk membezakan model penipuan berskala besar, sumber terbuka AI matematik cermin syaitan abang doktor

Grok-1 mempunyai markah tertinggi dalam "kumpulan tidak menipu", dan markah kertas baharu lebih tinggi daripada Claude 2.

#🎜🎜Prestasi #Grok-0 pada GSM8k hampir kepada GPT3.5-Turbo, dan lebih teruk sedikit pada kertas baharu.

Kecuali model tertutup yang disebutkan di atas, model lain dalam ujian semuanya adalah sumber terbuka

Kod Llama Series

# . .

Atas dasar Kod Llama, banyak universiti dan institusi penyelidikan secara bersama melancarkan

Llemma siri #🎜🎜 🎜#, dan sumber terbuka oleh EleutherAI.

Pasukan mengumpul set data Proof-Pile-2 daripada kertas saintifik, data rangkaian yang mengandungi matematik dan kod matematik Selepas latihan, Llemma boleh menggunakan alatan dan melakukan pembuktian teorem formal tanpa sebarang penalaan lebih lanjut. . Pada kertas baharu, prestasi Llemma 34B hampir dengan tahap GPT-3.5 Turbo

Satu helah untuk membezakan model penipuan berskala besar, sumber terbuka AI matematik cermin syaitan abang doktor

Siri Mistral dilatih oleh Unicorn AI Perancis Mistral AI Perjanjian sumber terbuka Apache2.0 lebih longgar daripada Llama dan telah menjadi model asas paling popular dalam komuniti sumber terbuka selepas keluarga alpaca.

Satu helah untuk membezakan model penipuan berskala besar, sumber terbuka AI matematik cermin syaitan abang doktor

"Overfitting Group" OpenChat 3.5 dan MetaMath Mistral adalah kedua-duanya berasaskan Mi-tuned ecosystem

MetaMath dan MAmmoTH Code adalah berdasarkan ekosistem Code Llama.

Mereka yang memilih untuk menggunakan model sumber terbuka yang besar dalam perniagaan sebenar perlu berhati-hati untuk mengelakkan kumpulan ini, kerana mereka mungkin menunjukkan prestasi yang baik hanya untuk mendapatkan kedudukan, tetapi keupayaan sebenar mereka mungkin tidak sekuat model lain yang sama skala

Satu helah untuk membezakan model penipuan berskala besar, sumber terbuka AI matematik cermin syaitan abang doktor

Tidak Ramai netizen menyatakan rasa terima kasih mereka kepada Paster untuk eksperimen ini, percaya bahawa ini adalah perkara yang diperlukan untuk memahami situasi sebenar model itu.

Satu helah untuk membezakan model penipuan berskala besar, sumber terbuka AI matematik cermin syaitan abang doktor

Sesetengah orang telah menyatakan kebimbangan:

Mulai hari ini, semua orang yang melatih model besar akan memasukkan soalan peperiksaan matematik Hungary dari tahun-tahun sebelumnya.

Pada masa yang sama, dia percaya bahawa penyelesaiannya mungkin mempunyai syarikat penilaian model besar yang khusus dengan ujian proprietari.

Satu helah untuk membezakan model penipuan berskala besar, sumber terbuka AI matematik cermin syaitan abang doktor

Satu lagi cadangan ialah mewujudkan penanda aras ujian yang dikemas kini tahun demi tahun untuk mengurangkan masalah overfitting.

Satu helah untuk membezakan model penipuan berskala besar, sumber terbuka AI matematik cermin syaitan abang doktor

Atas ialah kandungan terperinci Satu helah untuk membezakan model penipuan berskala besar, sumber terbuka AI matematik 'cermin syaitan' abang doktor. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!

Kenyataan

Artikel ini dikembalikan pada:51CTO.COM. Jika ada pelanggaran, sila hubungi admin@php.cn Padam

Artikel Berkaitan

Carta 10 kuasa bi yang paling banyak digunakan - Analytics VidhyaApr 16, 2025 pm 12:05 PM

Memanfaatkan kekuatan visualisasi data dengan carta Microsoft Power BI Dalam dunia yang didorong oleh data hari ini, dengan berkesan menyampaikan maklumat yang rumit kepada penonton bukan teknikal adalah penting. Visualisasi data jambatan jurang ini, mengubah data mentah i

Sistem Pakar di AIApr 16, 2025 pm 12:00 PM

Sistem Pakar: menyelam yang mendalam ke dalam kuasa membuat keputusan AI Bayangkan mempunyai akses kepada nasihat pakar mengenai apa -apa, dari diagnosis perubatan kepada perancangan kewangan. Itulah kuasa sistem pakar dalam kecerdasan buatan. Sistem ini meniru pro

Tiga coder getaran terbaik memecahkan revolusi AI ini dalam kodApr 16, 2025 am 11:58 AM

Pertama sekali, jelas bahawa ini berlaku dengan cepat. Pelbagai syarikat bercakap mengenai perkadaran kod mereka yang kini ditulis oleh AI, dan ini semakin meningkat pada klip pesat. Terdapat banyak anjakan pekerjaan

Runway AI's Gen-4: Bagaimanakah montaj AI boleh melampaui kebodohanApr 16, 2025 am 11:45 AM

Industri filem, bersama semua sektor kreatif, dari pemasaran digital ke media sosial, berdiri di persimpangan teknologi. Sebagai kecerdasan buatan mula membentuk semula setiap aspek bercerita visual dan mengubah landskap hiburan

Bagaimana untuk mendaftar selama 5 hari kursus percuma ISRO AI? - Analytics VidhyaApr 16, 2025 am 11:43 AM

Kursus Online AI/ML percuma ISRO: Gerbang ke Inovasi Teknologi Geospatial Pertubuhan Penyelidikan Angkasa India (ISRO), melalui Institut Pengesan Jauh India (IIRS), menawarkan peluang yang hebat untuk pelajar dan profesional

Algoritma Carian Tempatan di AIApr 16, 2025 am 11:40 AM

Algoritma Carian Tempatan: Panduan Komprehensif Merancang acara berskala besar memerlukan pengagihan beban kerja yang cekap. Apabila pendekatan tradisional gagal, algoritma carian tempatan menawarkan penyelesaian yang kuat. Artikel ini meneroka pendakian bukit dan simul

Terbuka beralih fokus dengan GPT-4.1, mengutamakan pengekodan dan kecekapan kosApr 16, 2025 am 11:37 AM

Pelepasan ini termasuk tiga model yang berbeza, GPT-4.1, GPT-4.1 Mini dan GPT-4.1 Nano, menandakan langkah ke arah pengoptimuman khusus tugas dalam landskap model bahasa yang besar. Model-model ini tidak segera menggantikan antara muka yang dihadapi pengguna seperti

Prompt: CHATGPT menjana pasport palsuApr 16, 2025 am 11:35 AM

Gergasi Chip Nvidia berkata pada hari Isnin ia akan memulakan pembuatan superkomputer AI - mesin yang boleh memproses sejumlah besar data dan menjalankan algoritma kompleks - sepenuhnya dalam A.S. untuk kali pertama. Pengumuman itu datang selepas Presiden Trump Si

See all articles