Rumah >Peranti teknologi >AI >Apabila ChatGPT mengambil bahagian dalam peperiksaan kemasukan kolej China dan memberinya kertas A dan B kebangsaan, ia ternyata berat sebelah!

Apabila ChatGPT mengambil bahagian dalam peperiksaan kemasukan kolej China dan memberinya kertas A dan B kebangsaan, ia ternyata berat sebelah!

王林
王林ke hadapan
2023-05-26 15:37:061611semak imbas

Xi Xiaoyao Technology Talk Original
Pengarang |. PythonChatGPT, sebagai aplikasi perbualan manusia-mesin pintar, dengan cepat menjadi popular di seluruh dunia selepas pelancarannya. Hanya dalam satu bulan, bilangan penggunanya telah melebihi 100 juta. Orang juga menggunakan ChatGPT untuk menguji banyak item peperiksaan, seperti SAT, AP, GRE, dsb. Namun, bagaimanakah keadaannya jika ChatGPT dibenarkan menyertai peperiksaan kemasukan kolej China? Adakah dia akan berat sebelah? Bolehkah orang biasa seperti kami melepasi ChatGPT? Mari lihat ulasan yang dibawakan kepada anda oleh pelajar dari Universiti Fudan dan Universiti Normal China Timur.

Tajuk kertas:
Menilai Prestasi Model Bahasa Besar pada Penanda Aras GAOKAO
Pautan kertas:https://www.php.cn/link/de66dbc30377a1f7908db45298

Bagaimana untuk menggunakan ChatGPT untuk menjawab soalan peperiksaan kemasukan kolej?

Kertas ini menggunakan kaedah gesaan sifar penyeliaan untuk menukar soalan ujian kepada input ChatGPT, seperti yang ditunjukkan dalam rajah di bawah. Kaedah inkuiri yang berbeza direka untuk subjek dan jenis soalan yang berbeza. Untuk soalan matematik, tukar formula kepada input lateks.

Apabila ChatGPT mengambil bahagian dalam peperiksaan kemasukan kolej China dan memberinya kertas A dan B kebangsaan, ia ternyata berat sebelah!

Set Data Peperiksaan Masuk Kolej

Ujian dalam artikel ini menggunakan kertas A kebangsaan dan kertas B kebangsaan dari 2010 hingga 2022, sejumlah 13 tahun. Setiap set kertas ujian mengandungi 10 mata pelajaran Mata pelajaran termasuk Bahasa Cina, Matematik, Bahasa Inggeris, Fizik, Kimia, Kehidupan, Sejarah, dan Geografi dibahagikan kepada matematik sains dan matematik seni liberal.

Set data mengandungi sejumlah 2811 soalan ujian. Jenis soalan khusus tidak akan dibincangkan di sini Saya percaya pembaca sangat biasa dengan soalan peperiksaan kemasukan kolej.

Apabila ChatGPT mengambil bahagian dalam peperiksaan kemasukan kolej China dan memberinya kertas A dan B kebangsaan, ia ternyata berat sebelah!

Semasa penilaian, guru sekolah menengah dari Sekolah Menengah No. 2 Caoyang di Shanghai telah diupah untuk menandakan soalan subjektif.

Eksperimen dan Analisis

Markah yang diperolehi oleh ChatGPT dalam peperiksaan kemasukan kolej selama ini ditunjukkan dalam rajah di bawah. Memandangkan setiap mata pelajaran dinormalkan kepada 100 mata apabila mengira markah, markah ini tidak boleh dibandingkan secara langsung dengan markah peperiksaan kemasukan kolej anda dan saya. Tetapi ia juga boleh dilihat bahawa skor ini tidak ideal, dan dianggarkan bahawa Fudan atau Universiti Normal China Timur tidak akan diterima. kenapa ni?

Apabila ChatGPT mengambil bahagian dalam peperiksaan kemasukan kolej China dan memberinya kertas A dan B kebangsaan, ia ternyata berat sebelah!

Apabila ChatGPT mengambil bahagian dalam peperiksaan kemasukan kolej China dan memberinya kertas A dan B kebangsaan, ia ternyata berat sebelah!

Gambar di atas menunjukkan prestasi ChatGPT dalam pelbagai subjek dan topik subjektif dan objektif. Biru ialah soalan objektif dan kuning ialah soalan subjektif. Analisis mendapati ChatGPT menunjukkan prestasi yang lebih baik dalam soalan objektif, terutamanya kefahaman bacaan Bahasa Inggeris, pilihan tunggal, dan cloze, masing-masing mencapai ketepatan 88.3%, 78.1% dan 73.8%. Tetapi walaupun untuk soalan objektif, kadar ketepatan dalam sains dan matematik adalah kurang daripada 40%. Matematik memang susah~

Prestasi ChatGPT pada soalan subjektif adalah lemah Dalam mata pelajaran fizik, kimia, biologi dan matematik, prestasi soalan subjektif jelas tidak sebaik soalan objektif. Markah untuk soalan objektif dalam mata pelajaran sains juga lemah. Mungkin ChatGPT berat sebelah kepada mata pelajaran seni liberal? Menurut ulasan pengulas, kelemahan utama ChatGPT ialah: 1. Persamaan kompleks dalam masalah matematik sukar diselesaikan dengan betul, dan formula yang salah digunakan dalam proses penyelesaian masalah. 2. Keupayaan yang tidak mencukupi untuk memahami dan merumuskan apabila membaca bahan yang lebih panjang.

Ringkasan

ChatGPT mungkin tidak menggunakan data soalan peperiksaan kemasukan kolej Cina semasa proses latihan, jadi prestasinya tidak terjejas oleh kebocoran data dan mempunyai kredibiliti tinggi.

Keputusan pemerhatian menunjukkan bahawa berbanding dengan peperiksaan asing, prestasi ChatGPT pada soalan peperiksaan kemasukan kolej Cina adalah rendah sedikit. Oleh itu, pelajar domestik tidak perlu terlalu risau kerana tidak dapat lulus peperiksaan ChatGPT buat masa ini. Walau bagaimanapun, keupayaan ringkasan teks panjang yang disebut dalam artikel telah dipertingkatkan dengan ketara dalam GPT4-32K, dan model besar domestik juga telah dioptimumkan lagi pada data Cina. Oleh itu, kita boleh menjangkakan prestasi yang lebih mengagumkan pada soalan peperiksaan kemasukan kolej model besar pada masa hadapan.

Selain itu, idea menggunakan ChatGPT untuk menyelesaikan soalan peperiksaan kemasukan kolej mungkin dapat menjawab perdebatan di kalangan netizen tentang soalan peperiksaan wilayah mana yang lebih sukar?

Atas ialah kandungan terperinci Apabila ChatGPT mengambil bahagian dalam peperiksaan kemasukan kolej China dan memberinya kertas A dan B kebangsaan, ia ternyata berat sebelah!. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!

Kenyataan:
Artikel ini dikembalikan pada:51cto.com. Jika ada pelanggaran, sila hubungi admin@php.cn Padam