cari
RumahPeranti teknologiAIApabila ChatGPT mengambil bahagian dalam peperiksaan kemasukan kolej China dan memberinya kertas A dan B kebangsaan, ia ternyata berat sebelah!

Xi Xiaoyao Technology Talk Original
Pengarang |. PythonChatGPT, sebagai aplikasi perbualan manusia-mesin pintar, dengan cepat menjadi popular di seluruh dunia selepas pelancarannya. Hanya dalam satu bulan, bilangan penggunanya telah melebihi 100 juta. Orang juga menggunakan ChatGPT untuk menguji banyak item peperiksaan, seperti SAT, AP, GRE, dsb. Namun, bagaimanakah keadaannya jika ChatGPT dibenarkan menyertai peperiksaan kemasukan kolej China? Adakah dia akan berat sebelah? Bolehkah orang biasa seperti kami melepasi ChatGPT? Mari lihat ulasan yang dibawakan kepada anda oleh pelajar dari Universiti Fudan dan Universiti Normal China Timur.

Tajuk kertas:
Menilai Prestasi Model Bahasa Besar pada Penanda Aras GAOKAO
Pautan kertas:https://www.php.cn/link/de66dbc30377a1f7908db45298

Bagaimana untuk menggunakan ChatGPT untuk menjawab soalan peperiksaan kemasukan kolej?

Kertas ini menggunakan kaedah gesaan sifar penyeliaan untuk menukar soalan ujian kepada input ChatGPT, seperti yang ditunjukkan dalam rajah di bawah. Kaedah inkuiri yang berbeza direka untuk subjek dan jenis soalan yang berbeza. Untuk soalan matematik, tukar formula kepada input lateks.

Apabila ChatGPT mengambil bahagian dalam peperiksaan kemasukan kolej China dan memberinya kertas A dan B kebangsaan, ia ternyata berat sebelah!

Set Data Peperiksaan Masuk Kolej

Ujian dalam artikel ini menggunakan kertas A kebangsaan dan kertas B kebangsaan dari 2010 hingga 2022, sejumlah 13 tahun. Setiap set kertas ujian mengandungi 10 mata pelajaran Mata pelajaran termasuk Bahasa Cina, Matematik, Bahasa Inggeris, Fizik, Kimia, Kehidupan, Sejarah, dan Geografi dibahagikan kepada matematik sains dan matematik seni liberal.

Set data mengandungi sejumlah 2811 soalan ujian. Jenis soalan khusus tidak akan dibincangkan di sini Saya percaya pembaca sangat biasa dengan soalan peperiksaan kemasukan kolej.

Apabila ChatGPT mengambil bahagian dalam peperiksaan kemasukan kolej China dan memberinya kertas A dan B kebangsaan, ia ternyata berat sebelah!

Semasa penilaian, guru sekolah menengah dari Sekolah Menengah No. 2 Caoyang di Shanghai telah diupah untuk menandakan soalan subjektif.

Eksperimen dan Analisis

Markah yang diperolehi oleh ChatGPT dalam peperiksaan kemasukan kolej selama ini ditunjukkan dalam rajah di bawah. Memandangkan setiap mata pelajaran dinormalkan kepada 100 mata apabila mengira markah, markah ini tidak boleh dibandingkan secara langsung dengan markah peperiksaan kemasukan kolej anda dan saya. Tetapi ia juga boleh dilihat bahawa skor ini tidak ideal, dan dianggarkan bahawa Fudan atau Universiti Normal China Timur tidak akan diterima. kenapa ni?

Apabila ChatGPT mengambil bahagian dalam peperiksaan kemasukan kolej China dan memberinya kertas A dan B kebangsaan, ia ternyata berat sebelah!

Apabila ChatGPT mengambil bahagian dalam peperiksaan kemasukan kolej China dan memberinya kertas A dan B kebangsaan, ia ternyata berat sebelah!

Gambar di atas menunjukkan prestasi ChatGPT dalam pelbagai subjek dan topik subjektif dan objektif. Biru ialah soalan objektif dan kuning ialah soalan subjektif. Analisis mendapati ChatGPT menunjukkan prestasi yang lebih baik dalam soalan objektif, terutamanya kefahaman bacaan Bahasa Inggeris, pilihan tunggal, dan cloze, masing-masing mencapai ketepatan 88.3%, 78.1% dan 73.8%. Tetapi walaupun untuk soalan objektif, kadar ketepatan dalam sains dan matematik adalah kurang daripada 40%. Matematik memang susah~

Prestasi ChatGPT pada soalan subjektif adalah lemah Dalam mata pelajaran fizik, kimia, biologi dan matematik, prestasi soalan subjektif jelas tidak sebaik soalan objektif. Markah untuk soalan objektif dalam mata pelajaran sains juga lemah. Mungkin ChatGPT berat sebelah kepada mata pelajaran seni liberal? Menurut ulasan pengulas, kelemahan utama ChatGPT ialah: 1. Persamaan kompleks dalam masalah matematik sukar diselesaikan dengan betul, dan formula yang salah digunakan dalam proses penyelesaian masalah. 2. Keupayaan yang tidak mencukupi untuk memahami dan merumuskan apabila membaca bahan yang lebih panjang.

Ringkasan

ChatGPT mungkin tidak menggunakan data soalan peperiksaan kemasukan kolej Cina semasa proses latihan, jadi prestasinya tidak terjejas oleh kebocoran data dan mempunyai kredibiliti tinggi.

Keputusan pemerhatian menunjukkan bahawa berbanding dengan peperiksaan asing, prestasi ChatGPT pada soalan peperiksaan kemasukan kolej Cina adalah rendah sedikit. Oleh itu, pelajar domestik tidak perlu terlalu risau kerana tidak dapat lulus peperiksaan ChatGPT buat masa ini. Walau bagaimanapun, keupayaan ringkasan teks panjang yang disebut dalam artikel telah dipertingkatkan dengan ketara dalam GPT4-32K, dan model besar domestik juga telah dioptimumkan lagi pada data Cina. Oleh itu, kita boleh menjangkakan prestasi yang lebih mengagumkan pada soalan peperiksaan kemasukan kolej model besar pada masa hadapan.

Selain itu, idea menggunakan ChatGPT untuk menyelesaikan soalan peperiksaan kemasukan kolej mungkin dapat menjawab perdebatan di kalangan netizen tentang soalan peperiksaan wilayah mana yang lebih sukar?

Atas ialah kandungan terperinci Apabila ChatGPT mengambil bahagian dalam peperiksaan kemasukan kolej China dan memberinya kertas A dan B kebangsaan, ia ternyata berat sebelah!. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!

Kenyataan
Artikel ini dikembalikan pada:51CTO.COM. Jika ada pelanggaran, sila hubungi admin@php.cn Padam
Memasak Inovasi: Bagaimana Kecerdasan Buatan Mengubah Perkhidmatan MakananMemasak Inovasi: Bagaimana Kecerdasan Buatan Mengubah Perkhidmatan MakananApr 12, 2025 pm 12:09 PM

AI Menambah Penyediaan Makanan Walaupun masih dalam penggunaan baru, sistem AI semakin digunakan dalam penyediaan makanan. Robot yang didorong oleh AI digunakan di dapur untuk mengautomasikan tugas penyediaan makanan, seperti membuang burger, membuat pizza, atau memasang SA

Panduan Komprehensif mengenai Python Namespaces & Variable ScopesPanduan Komprehensif mengenai Python Namespaces & Variable ScopesApr 12, 2025 pm 12:00 PM

Pengenalan Memahami ruang nama, skop, dan tingkah laku pembolehubah dalam fungsi Python adalah penting untuk menulis dengan cekap dan mengelakkan kesilapan runtime atau pengecualian. Dalam artikel ini, kami akan menyelidiki pelbagai ASP

Panduan Komprehensif untuk Model Bahasa Visi (VLMS)Panduan Komprehensif untuk Model Bahasa Visi (VLMS)Apr 12, 2025 am 11:58 AM

Pengenalan Bayangkan berjalan melalui galeri seni, dikelilingi oleh lukisan dan patung yang terang. Sekarang, bagaimana jika anda boleh bertanya setiap soalan dan mendapatkan jawapan yang bermakna? Anda mungkin bertanya, "Kisah apa yang anda ceritakan?

MediaTek meningkatkan barisan premium dengan Kompanio Ultra dan Dimensity 9400MediaTek meningkatkan barisan premium dengan Kompanio Ultra dan Dimensity 9400Apr 12, 2025 am 11:52 AM

Meneruskan irama produk, bulan ini MediaTek telah membuat satu siri pengumuman, termasuk Kompanio Ultra dan Dimensity 9400 yang baru. Produk ini mengisi bahagian perniagaan MediaTek yang lebih tradisional, termasuk cip untuk telefon pintar

Minggu ini di AI: Walmart menetapkan trend fesyen sebelum mereka pernah berlakuMinggu ini di AI: Walmart menetapkan trend fesyen sebelum mereka pernah berlakuApr 12, 2025 am 11:51 AM

#1 Google melancarkan Agent2Agent Cerita: Ia Isnin pagi. Sebagai perekrut berkuasa AI, anda bekerja lebih pintar, tidak lebih sukar. Anda log masuk ke papan pemuka syarikat anda di telefon anda. Ia memberitahu anda tiga peranan kritikal telah diperolehi, dijadualkan, dan dijadualkan untuk

AI Generatif Bertemu PsychobabbleAI Generatif Bertemu PsychobabbleApr 12, 2025 am 11:50 AM

Saya akan meneka bahawa anda mesti. Kita semua seolah -olah tahu bahawa psychobabble terdiri daripada pelbagai perbualan yang menggabungkan pelbagai terminologi psikologi dan sering akhirnya menjadi tidak dapat difahami atau sepenuhnya tidak masuk akal. Semua yang anda perlu lakukan untuk memuntahkan fo

Prototaip: saintis menjadikan kertas menjadi plastikPrototaip: saintis menjadikan kertas menjadi plastikApr 12, 2025 am 11:49 AM

Hanya 9.5% plastik yang dihasilkan pada tahun 2022 dibuat daripada bahan kitar semula, menurut satu kajian baru yang diterbitkan minggu ini. Sementara itu, plastik terus menumpuk di tapak pelupusan sampah -dan ekosistem -sekitar dunia. Tetapi bantuan sedang dalam perjalanan. Pasukan Engin

Kebangkitan Penganalisis AI: Mengapa ini boleh menjadi pekerjaan yang paling penting dalam Revolusi AIKebangkitan Penganalisis AI: Mengapa ini boleh menjadi pekerjaan yang paling penting dalam Revolusi AIApr 12, 2025 am 11:41 AM

Perbualan baru -baru ini dengan Andy Macmillan, Ketua Pegawai Eksekutif Platform Analytics Enterprise terkemuka Alteryx, menonjolkan peranan kritikal namun kurang dihargai ini dalam revolusi AI. Seperti yang dijelaskan oleh Macmillan, jurang antara data perniagaan mentah dan maklumat siap sedia

See all articles

Alat AI Hot

Undresser.AI Undress

Undresser.AI Undress

Apl berkuasa AI untuk mencipta foto bogel yang realistik

AI Clothes Remover

AI Clothes Remover

Alat AI dalam talian untuk mengeluarkan pakaian daripada foto.

Undress AI Tool

Undress AI Tool

Gambar buka pakaian secara percuma

Clothoff.io

Clothoff.io

Penyingkiran pakaian AI

AI Hentai Generator

AI Hentai Generator

Menjana ai hentai secara percuma.

Artikel Panas

R.E.P.O. Kristal tenaga dijelaskan dan apa yang mereka lakukan (kristal kuning)
3 minggu yang laluBy尊渡假赌尊渡假赌尊渡假赌
R.E.P.O. Tetapan grafik terbaik
3 minggu yang laluBy尊渡假赌尊渡假赌尊渡假赌
R.E.P.O. Cara Memperbaiki Audio Jika anda tidak dapat mendengar sesiapa
3 minggu yang laluBy尊渡假赌尊渡假赌尊渡假赌
WWE 2K25: Cara Membuka Segala -galanya Di Myrise
4 minggu yang laluBy尊渡假赌尊渡假赌尊渡假赌

Alat panas

VSCode Windows 64-bit Muat Turun

VSCode Windows 64-bit Muat Turun

Editor IDE percuma dan berkuasa yang dilancarkan oleh Microsoft

mPDF

mPDF

mPDF ialah perpustakaan PHP yang boleh menjana fail PDF daripada HTML yang dikodkan UTF-8. Pengarang asal, Ian Back, menulis mPDF untuk mengeluarkan fail PDF "dengan cepat" dari tapak webnya dan mengendalikan bahasa yang berbeza. Ia lebih perlahan dan menghasilkan fail yang lebih besar apabila menggunakan fon Unicode daripada skrip asal seperti HTML2FPDF, tetapi menyokong gaya CSS dsb. dan mempunyai banyak peningkatan. Menyokong hampir semua bahasa, termasuk RTL (Arab dan Ibrani) dan CJK (Cina, Jepun dan Korea). Menyokong elemen peringkat blok bersarang (seperti P, DIV),

MantisBT

MantisBT

Mantis ialah alat pengesan kecacatan berasaskan web yang mudah digunakan yang direka untuk membantu dalam pengesanan kecacatan produk. Ia memerlukan PHP, MySQL dan pelayan web. Lihat perkhidmatan demo dan pengehosan kami.

Versi Mac WebStorm

Versi Mac WebStorm

Alat pembangunan JavaScript yang berguna

ZendStudio 13.5.1 Mac

ZendStudio 13.5.1 Mac

Persekitaran pembangunan bersepadu PHP yang berkuasa