Rumah >Peranti teknologi >AI >Dalam lima senario temu bual, e-mel bahasa Inggeris, siaran langsung, laporan mingguan dan resume, bagaimanakah keberkesanan kos model siri GPT 3.5? Kami menjalankan ujian kehidupan sebenar dan menyediakan panduan pemilihan.

Dalam lima senario temu bual, e-mel bahasa Inggeris, siaran langsung, laporan mingguan dan resume, bagaimanakah keberkesanan kos model siri GPT 3.5? Kami menjalankan ujian kehidupan sebenar dan menyediakan panduan pemilihan.

PHPzke hadapan: 2023-05-08 19:43:171495semak imbas

Model yang manakah berprestasi terbaik dalam siri GPT 3.5?

Bagaimanakah siri GPT 3.5 sebenarnya berfungsi dalam tugas aplikasi biasa?

Berapakah kos umumnya untuk model GPT 3.5 untuk menjawab soalan yang berbeza?

Isu ini "SOTA! Pengukuran Sebenar"

Berikut ialah kesimpulan pengukuran sebenar isu ini (Lihat penghujung artikel untuk penilaian terperinci)

Model	gpt-3.5-turbo	teks-davinci-003	teks-davinci-002
Penerangan	kini merupakan model GPT-3.5 yang paling berkuasa, dioptimumkan khas untuk senario sembang, harga adalah teks- Sepersepuluh davinci-003.	boleh menyelesaikan sebarang tugas bahasa dengan kualiti yang lebih baik, output yang lebih panjang dan mengikut arahan yang lebih baik daripada model Curie, Babbage atau Ada.	Mempunyai keupayaan yang serupa dengan text-davinci-003, tetapi dilatih melalui penalaan halus diselia dan bukannya pembelajaran pengukuhan, bilangan maksimum Token kepada 4097.
Bilangan maksimum Token	4,096 token	4,097 token	4,097 token
Harga	$0.002 / 1K token	$0.0200 / 1K token	$0.0200 / 1K token
Penilaian Keseluruhan	Penilaian keseluruhan lebih tinggi dan prestasinya adalah lebih tinggi Ia sangat tepat dan profesional, dan boleh disesuaikan dengan kebanyakan tugasan Hasil keluaran adalah agak lengkap dan lancar, dan output untuk tugasan yang berbeza juga agak tepat dan komprehensif Ia mempunyai kebolehsuaian yang kuat dan serba boleh, dan kos yang paling rendah.	Skor keseluruhan agak rendah Walaupun ia berfungsi dengan baik pada beberapa tugas, secara keseluruhan hasil output tidak mempunyai pemperibadian dan kesesuaian, dan ungkapannya tidak tepat dan ringkas. cukup, dan kadangkala terdapat beberapa ketidaktepatan.	Skor keseluruhan adalah yang paling rendah Hasil keluarannya tidak cukup tepat dan tidak sesuai. Secara keseluruhannya Ia memerlukan pengoptimuman dan penambahbaikan selanjutnya.

Dalam tugasan senario soalan temu duga, gpt-3.5-turbo mempunyai skor keseluruhan yang paling tinggi dan boleh menyesuaikan diri dengan baik dengan senario temu duga Soalan yang dihasilkan sangat bersasaran dan mempunyai pemahaman yang mendalam dari pelbagai sudut. Keupayaan dan pengalaman calon; manakala teks-davinci-002 mempunyai markah yang paling rendah, soalannya terlalu luas dan pada dasarnya mengulangi huraian kerja, kekurangan soalan yang mencabar dan praktikal, malah kandungan yang dihasilkan tidak boleh digunakan sama sekali.

Dalam tugasan senario penulisan e-mel bahasa Inggeris, gpt-3.5-turbo dan text-davinci-003 mempunyai skor keseluruhan yang lebih tinggi dan boleh mensimulasikan bahasa lisan dan tulisan rasmi. Gaya bahasa, pemahaman yang baik dan terjemahan ungkapan bahasa sehari-hari dan kata nama samar-samar, tetapi tidak dapat mengenal pasti kandungan tidak selamat dengan betul, text-davinci-002 mempunyai skor terendah, dan tidak boleh bertukar dengan baik antara bahasa lisan dan tulisan , tidak mengenal pasti kandungan tidak selamat dengan betul.

Dalam tugas adegan siaran langsung, gpt-3.5-turbo menerima markah tertinggi, dapat meringkaskan kandungan langsung dengan tepat, padat dan lancar serta bertemu keperluan untuk keperluan darjah kesederhanaan; manakala teks-davinci-002 mempunyai skor terendah, ketepatan output purata, dan tidak dapat menyesuaikan diri dengan tempat kejadian dengan baik, tetapi terdapat ruang untuk penambahbaikan dari segi kesederhanaan dan kelancaran.

Dalam tugasan senario laporan mingguan, gpt-3.5-turbo dan text-davinci-003 mempunyai markah yang lebih tinggi dan boleh membentangkan struktur logik dan kandungan dengan tepat laporan mingguan Perkara utama ialah kandungan keluaran agak lengkap manakala teks-davinci-002 mempunyai skor terendah, tidak mempunyai logik untuk menyatakan laporan mingguan, struktur tidak sepadan, dan kandungannya tidak sesuai.

Dalam tugasan senario resume, gpt-3.5-turbo mempunyai skor tertinggi dan secara profesional boleh menjana resume yang memenuhi keperluan perekrut dan latar belakang pendidikan sekarang. , pengalaman kerja, penguasaan kemahiran, penilaian diri dan aspek maklumat lain, tetapi lebih banyak perhatian perlu diberikan kepada ketepatan dan pemperibadian ungkapan bahasa manakala teks-davinci-003 dan teks-davinci-002 mempunyai markah yang lebih rendah dan kurang diperibadikan; dan keputusan kuantitatif, penerangan resume juga agak mudah dan tidak teratur.

Senario 1: Soalan temu bual

测试场景

测试角度

基于职位描述生成面试问题

生成面试问题的难易度

生成面试问题与该职位描述的匹配程度

基于候选人信息生成面试问题

生成面试问题的难易度

生成面试问题与该候选人的匹配程度

Sudut ujian

gpt-3.5-turbo Soalan temu duga yang dihasilkan oleh model merangkumi tanggungjawab dan keperluan utama dalam huraian kerja dan menyesuaikan diri dengan senario temu duga. Soalan memberikan pemahaman yang mendalam tentang kebolehan dan pengalaman calon dari pelbagai sudut, termasuk pengalaman kerja, pengalaman projek, kemahiran dan ciri peribadi, dsb., dan sangat disasarkan. Soalan-soalan mempunyai nilai praktikal, sangat sepadan dengan kedudukan, dan boleh menilai kebolehan calon dengan berkesan.

text-davinci-003 Soalan temu duga yang dihasilkan oleh model merangkumi pelbagai keperluan dan kemahiran yang dinyatakan dalam huraian kerja, tetapi beberapa soalan tidak khusus dan teratur Tidak jelas. Kawasan perlu lebih bersegmen, jika tidak kebolehan calon tidak dapat diukur sepenuhnya. Soalan yang dihasilkan oleh model meliputi latar belakang profesional calon, pengalaman projek, kemahiran dan kualiti peribadi, tetapi beberapa soalan boleh menjadi lebih spesifik dan mendalam untuk menilai kebolehan calon dengan lebih baik.

text-davinci-002 Soalan temu duga yang dijana oleh model terutamanya tertumpu pada keperluan kerja, tetapi soalan ini terlalu luas dan pada dasarnya mengulangi perihalan kerja pada perlawanan antara calon dan huraian kerja gagal untuk bertanya soalan yang lebih mencabar dan praktikal, malah boleh mengakibatkan output tidak dapat digunakan sepenuhnya. Dalam kes penjanaan soalan yang berjaya, soalan yang dihasilkan model meliputi latar belakang profesional calon, pengalaman projek dan kemahiran, tetapi beberapa soalan boleh menjadi lebih spesifik dan mendalam untuk menilai kebolehan calon dengan lebih baik.

Mari pilih salah satu kes ujian untuk dilihat -

Penggunaan model

gpt-3.5-turbo menggunakan kira-kira 0.017 yuan, text-davinci-003 menggunakan kira-kira 0.22 yuan, text-davinci - 002 berharga kira-kira 0.19 yuan.

Hasil inferens

实测 | GPT 3.5系列模型选择指南：面试、英文邮件、直播、周报、简历5个场景下性价比如何？

Dari segi kesukaran dan kesesuaian soalan temu bual yang dihasilkan, output model gpt-3.5-turbo adalah yang terbaik , ia Beberapa soalan khusus telah ditanya mengenai keperluan jawatan, dan soalan ini juga sangat sukar dan disasarkan, yang boleh menguji keupayaan dan pengalaman calon dengan berkesan. Output model text-davinci-002 adalah yang paling mudah, atau bahkan tidak boleh digunakan sepenuhnya, dan tidak boleh dianggap sebagai soalan temu bual. Output model text-davinci-003 adalah antara kedua-dua soalan yang dibangkitkan adalah lebih mudah daripada model gpt-3.5-turbo Soalan-soalan tidak cukup terperinci, tetapi ia lebih spesifik daripada model text-davinci-002.

Dari segi sejauh mana soalan temu duga sepadan dengan huraian kerja, output model gpt-3.5-turbo paling sesuai dengan deskripsi kerja, dan Anya analisis yang komprehensif dan terperinci tentang keperluan telah dijalankan, dan soalan yang sepadan telah dibangkitkan mengenai keperluan ini. Output model text-davinci-003 juga mencerminkan keperluan untuk kedudukan ini, tetapi bilangan dan liputan soalan agak kecil. Dan teks-davinci-002 boleh dikatakan tidak dapat difahami.

Senario 2: E-mel Bahasa Inggeris

dalam input sama ada ia boleh mensimulasikan bahasa pertuturan atau gaya bahasa bertulis formal, dan sama ada ia boleh memahami dengan betul bahasa lisan.

Senario ujian

Sudut ujian

Sisipkan kata nama khas untuk terjemahan, istilah profesional dalam bidang menegak tertentu, kata nama dengan makna yang berbeza dalam senario yang berbeza

Sama ada semantiknya lancar, sama ada kandungan yang dikembangkan itu betul, sama ada terjemahan kata nama samar-samar betul, sama ada terjemahan kata nama profesional/kata nama khas betul

Adakah mungkin untuk meminta output dalam mod "kolokial" atau "bertulis" dalam input

Sama ada kandungan yang tidak selamat akan ditapis

Gunakan penyongsangan dalam masukan Ayat, kesilapan taip homofon , dialek, peninggalan bahasa sehari-hari

Sama ada kesilapan tatabahasa, kesilapan taip dan ayat yang tidak lengkap dalam bahasa Cina boleh ditapis dan difahami dengan betul

gpt-3.5-turbo: Markah keseluruhan ialah 3.3 mata Struktur e-mel sesuai dengan senario, nadanya betul, dan singkatan adalah sesuai nama pada asasnya disingkatkan, untuk bahasa sehari-hari Ia mempunyai pemahaman yang baik dan penapisan emosi yang kuat dalam input, dan boleh membetulkan masalah input dengan betul seperti kesilapan menaip dan tatabahasa Kelemahannya ialah ia tidak mengenal pasti kandungan yang tidak selamat dengan betul.

text-davinci-003: Skor keseluruhan ialah 3 mata, struktur menggunakan templat biasa, tiada tajuk, sambungan ayat tumpul, pengembangan tidak mencukupi, dan Kata Nama proprietari dan kata nama samar-samar difahami dengan betul, pemahaman dan pengeluaran bahasa sehari-hari lebih tinggi daripada yang dijangkakan, dan kandungan yang tidak selamat tidak dikenal pasti dengan betul.

text-davinci-002: Skor keseluruhan ialah 2 mata, struktur menggunakan templat biasa, tiada tajuk, ayat tidak lancar atau salah, dan bahasanya Struktur perenggan tidak jelas, tiada singkatan, melainkan kata nama khas nama saintifik itu pada dasarnya dipendekkan, bahasa lisan dan bertulis tidak boleh ditukar dengan baik, dan kandungan tidak selamat tidak betul. dikenalpasti.

Mari pilih salah satu kes ujian untuk dilihat - Sisipkan terjemahan khusus ke dalam teks input Kata nama khas, istilah profesional dalam medan menegak tertentu dan kata nama dengan makna berbeza dalam senario berbeza mempunyai input berikut dalam contoh ujian

实测 | GPT 3.5系列模型选择指南：面试、英文邮件、直播、周报、简历5个场景下性价比如何？

Penggunaan model

Sisipkan kata nama khas dengan terjemahan khas, istilah profesional dalam medan menegak tertentu dan contoh ujian kata nama dengan makna berbeza dalam senario berbeza ke dalam teks input . gpt-3.5-turbo menggunakan kira-kira 0.006 yuan, text-davinci-003 menggunakan kira-kira 0.067 yuan, text-davinci-002 menggunakan kira-kira 0.07 yuan

Prestasi inferens

实测 | GPT 3.5系列模型选择指南：面试、英文邮件、直播、周报、简历5个场景下性价比如何？

Dari segi kelancaran semantik, ketiga-tiga model menunjukkan prestasi yang agak baik, tanpa perbezaan yang ketara . Glosari dan kesalahan tatabahasa. Dari segi sama ada kandungan yang diperluaskan adalah betul, respons daripada gpt-3.5-turbo dan text-davinci-003 secara relatifnya menyeluruh, memberikan jawapan terperinci kepada setiap soalan dan memberikan beberapa cadangan dan cadangan produk yang berkaitan. Text-davinci-002 hanya menjawab beberapa soalan dan tidak memberikan banyak butiran dan cadangan yang berkaitan.

Prestasi ketiga-tiga model tersebut agak baik dari segi sama ada terjemahan kata nama samar adalah betul dan sama ada terjemahan kata nama profesional/kata nama khas adalah betul. gpt-3.5-turbo dan text-davinci-003, text-davinci-002 kedua-duanya menterjemah polytetrafluoroethylene (PTFE) dan sebatian perfluorinated (PFC) dengan betul, menggunakan istilah bahasa Inggeris yang betul.

Tugas Permohonan Tiga: Bantuan Siaran Langsung

Ujian Senario

Sudut ujian

Berdasarkan teks langsung kandungan, ia diringkaskan sebagai Ringkasan

Ketepatan, penghalusan dan kelancaran ringkasan kandungan yang dijana

Menapis beberapa kunci mata berdasarkan kandungan teks langsung

Ketepatan, penghalusan dan kefasihan bahasa perkara utama kandungan yang dijana

Tulis garis besar siaran langsung berdasarkan tema siaran langsung

Kualiti siaran langsung yang dihasilkan garis besar; berkaitan dengan Ijazah tema

Berdasarkan kandungan teks langsung, cari jawapan kepada soalan

Kualiti jawapan yang dihasilkan;

gpt-3.5-turbo: Skor keseluruhan ialah 4.4 mata, Model melaksanakan dengan tepat dan tepat keperluan yang dikemukakan oleh pengguna, menggemakan input dalam kandungan output, dan sesuai dengan adegan tema, ungkapan tepat, tiada maklumat asal ditinggalkan atau diputarbelitkan, jawapan kepada soalan boleh disusun dengan ringkas, keperluan kesederhanaan dalam keperluan diikuti, output lancar, struktur ayat ringkas dan jelas , dan ungkapannya jelas.

text-davinci-003: Skor keseluruhan ialah 4.2 mata, Ringkasan model lebih tepat, kandungan yang dijana memenuhi pemandangan keperluan, dan tiada peninggalan Pada masa yang sama, maklumat itu tidak menambah maklumat yang tidak perlu, dan kefasihan bahasa juga baik, memenuhi keperluan kefasihan dan ringkas kandungan. Walau bagaimanapun, terdapat keperluan untuk meningkatkan pemurnian dan bahasa yang dipermudahkan, manakala kandungan yang dihasilkan tidak memberikan analisis dan cerapan tambahan serta memerlukan keluasan dan kedalaman yang dipertingkatkan.

text-davinci-002: Skor keseluruhan ialah 1.5 mata, Ketepatan output model adalah purata, beberapa liputan asas bagi titik masalah , kebanyakan daripada mereka tidak dapat dibandingkan Ia menyesuaikan dengan baik dengan adegan Struktur ayat yang dihasilkan agak kompleks, redundansi perkataan adalah jelas, dan ungkapan bahasa yang sedikit kaku, yang mungkin menjejaskan pemahaman pembaca tentang teks dan kelancaran membaca adalah ruang untuk penambahbaikan lagi dari segi kesederhanaan dan kelancaran.

Mari pilih salah satu kes ujian untuk dilihat -

实测 | GPT 3.5系列模型选择指南：面试、英文邮件、直播、周报、简历5个场景下性价比如何？

Penggunaan kos

Tulis contoh ujian rangka langsung berdasarkan tema siaran langsung kos gpt-3.5-turbo 0.01 yuan. text-davinci-003 menggunakan lebih kurang 0.11 yuan, text-davinci-002 menggunakan lebih kurang 0.071 yuan

Hasil inferens

实测 | GPT 3.5系列模型选择指南：面试、英文邮件、直播、周报、简历5个场景下性价比如何？

Keluaran gpt-3.5-turbo lebih selaras dengan keperluan tema berbanding yang lain dua model, dan kandungan garis besar juga lebih Ia kaya dan komprehensif, termasuk gabungan teknologi AIGC dan industri kandungan, kes yang berjaya dan arah pembangunan masa depan Kualiti keseluruhan adalah tinggi.

Output teks-davinci-003 juga boleh digunakan pada tahap tertentu, tetapi ia kurang relevan dengan topik, terutamanya kerana selepas memperkenalkan AIGC dan sejarahnya, output dalam rangka Kandungan yang disebutkan seperti cara membuka pintu kepada industri kandungan dan masa depan AIGC tidak berkait rapat dengan tema dan secara relatifnya lebih umum.

Keluaran text-davinci-002 agak berbeza daripada keperluan tema Walaupun ia menyebut gambaran keseluruhan AIGC sebagai syarikat pengeluaran kandungan, kandungan garis besarnya lebih seperti pengenalan syarikat , yang berbeza daripada tema Tiada korelasi langsung dan tidak mempunyai kepentingan praktikal rangka siaran langsung.

Adegan 4: Laporan Mingguan Kerja

Adegan ujian	Sudut penyiasatan
Berdasarkan Menyediakan kandungan kerja dan laporan mingguan output	Pertimbangkan keupayaan menggilap, keupayaan pengembangan, dan kesempurnaan serta kesempurnaan kandungan keluaran
Keluarkan laporan mingguan berdasarkan penerangan kasar yang diberikan	Pertimbangkan kualiti output laporan mingguan oleh orang dari profesion yang berbeza yang memberikan kandungan kerja kasar
Berdasarkan kandungan kerja yang diberikan dan struktur templat sasaran, keluarkan laporan mingguan templat	Pertimbangkan untuk mengeluarkan laporan mingguan mengikut spesifikasi yang diketahui
Berdasarkan kandungan kerja minggu ini, keluarkan kerja mingguan minggu depan laporkan	Pertimbangkan keupayaan meramal

gpt-3.5-turbo: Skor keseluruhan ialah 3.4 mata mempersembahkan kandungan kerja dalam format laporan mingguan yang agak standard, mengikut tajuk, masa, ringkasan kerja minggu ini. , minggu depan Rancangan kerja dan templat ringkasan dinyatakan, dan boleh dikaitkan dengan kandungan yang lebih mendalam dan lebih terperinci melalui beberapa tugas kerja utama, tanggungjawab kerja, dll. Secara keseluruhan, kandungan output agak lengkap, dengan struktur yang jelas dan tahap logik yang jelas .

text-davinci-003: Skor keseluruhan ialah 3.1 mata, menyatakan kandungan yang diberikan dalam bentuk perenggan, dan boleh bandingkan Lengkapkan keperluan sepenuhnya, dapat menyepadukan beberapa kandungan kerja dengan atribut yang sama, mempunyai beberapa logik, tahap yang jelas, dan mempunyai kepraktisan tertentu. Walau bagaimanapun, keupayaan untuk menyesuaikan diri dengan tempat kejadian tidak mencukupi, terdapat kekurangan pengembangan dalam beberapa kes, struktur tidak cukup jelas, dan terdapat kekurangan organisasi.

text-davinci-002: Skor keseluruhan ialah 1.5 mata Senario kandungan input tidak dapat difahami dengan betul tema dan logik laporan mingguan Struktur tidak sepadan, kandungan tidak sesuai, terdapat pernyataan proses, tidak ada keupayaan untuk mengembangkan, malah terdapat situasi di mana kandungan input diterjemahkan secara langsung dan jawapan terakhir diulang. , model berprestasi buruk.

Mari pilih salah satu kes ujian untuk dilihat -

实测 | GPT 3.5系列模型选择指南：面试、英文邮件、直播、周报、简历5个场景下性价比如何？

Kos penggunaan

Keluarkan contoh ujian laporan mingguan berdasarkan penerangan kasar yang diberikan, gpt -3.5- turbo menggunakan kira-kira 0.0065 yuan, text-davinci-003 menggunakan kira-kira 0.094 yuan, text-davinci-002 menggunakan kira-kira 0.072 yuan

Inferens keputusan

实测 | GPT 3.5系列模型选择指南：面试、英文邮件、直播、周报、简历5个场景下性价比如何？

Untuk tugasan ini, kualiti keluaran ketiga-tiga model adalah agak baik, dan semua meliputi minggu ini Kandungan kerja utama, tetapi terdapat beberapa perbezaan yang ketara.

Output gpt-3.5-turbo secara relatifnya lebih terperinci, menyenaraikan butiran setiap tugas, seperti proses reka bentuk, antara muka, kriteria pemarkahan, dll., dan juga mencadangkan yang seterusnya langkah Rancang untuk menyediakan pembaca akhbar mingguan dengan maklumat lanjut.

Output text-davinci-003 juga memberikan beberapa maklumat terperinci, tetapi lebih banyak penekanan diberikan pada butiran teknikal, termasuk sumber data sistem penilaian, item penilaian, kaedah penilaian, dsb. Laporan mingguan ini lebih memfokuskan kepada penerangan teknikal.

Output text-davinci-002 adalah lebih ringkas dan jelas, tetapi tidak kurang jelas. Ia memberi tumpuan kepada hala tuju umum projek dan kerja, dengan kurang penerangan butiran.

Secara amnya, keluaran ketiga-tiga model boleh memenuhi keperluan tugasan, tetapi output gpt-3.5-turbo dan text-davinci-003 lebih terperinci dan memberikan lebih banyak Maklumat peringkat terperinci dan teknikal, jika anda memerlukan laporan mingguan yang lebih komprehensif, anda boleh memilih kedua-dua model ini. Output teks-davinci-002 adalah lebih ringkas dan jelas, sesuai untuk mereka yang memerlukan laporan mingguan yang singkat tetapi jelas.

Adegan 5: Sambung semula

Senario ujian	Sudut siasatan
Jana resume berdasarkan tanggungjawab kerja	Padanan dan profesionalisme antara tanggungjawab pekerjaan dan resume yang dihasilkan
Dihasilkan berdasarkan pekerjaan keperluan Resume	Padanan antara keperluan kerja dan resume
Hasilkan resume berdasarkan pengenalan diri	Ketepatan dan profesionalisme kandungan yang dihasilkan
Jana templat resume berdasarkan jawatan pekerjaan	Jana templat dengan profesionalisme dan ijazah yang sepadan

gpt-3.5-turbo: Skor keseluruhan ialah 4 mata, profesionalisme tinggi, semua aspek keperluan kerja keluaran templat dilindungi dan kandungannya tepat; dibentangkan dalam cara yang disasarkan Pengalaman ini sepadan dengan keupayaan dan ciri-ciri keperluan pekerjaan, membolehkan pembaca memahami sepintas lalu, dan ia juga lebih mudah untuk memenuhi keperluan perekrut ia sepenuhnya dibentangkan, dan output maklumat oleh templat lengkap, merangkumi segala-galanya daripada latar belakang pendidikan kepada pengalaman kerja, penguasaan kemahiran dan penilaian kendiri, dan boleh Memberi pemahaman yang menyeluruh kepada perekrut. Walau bagaimanapun, ia tidak mempunyai pemperibadian, bentuk ungkapan adalah tunggal, dan perkataan yang digunakan dalam ungkapan bahasa perlu dipertimbangkan.

text-davinci-003: Skor keseluruhan ialah 1.9 mata, tidak mempunyai kes projek khusus dan demonstrasi pencapaian. Tiada perihalan diperibadikan tentang pembukaan kerja. Walaupun resume menyebut beberapa syarat yang memenuhi syarat pengambilan, ia tidak menerangkan dan menyerlahkan ciri-ciri dan keperluan jawatan pengambilan secara khusus. Kekurangan penerangan kuantitatif keputusan. Ungkapan bahasa tidak cukup padat dan tepat.

text-davinci-002: Skor keseluruhan ialah 1.3 mata Maklumat output keseluruhan adalah terlalu kecil dan tidak mempunyai sebarang keperluan maklumat asas yang memenuhi resume standard. Penyataan penerangan terlalu pendek Kekurangan matlamat pencarian kerja yang jelas, kekurangan pemperibadian dan kesesuaian, kekurangan petunjuk kuantitatif, penerangan yang agak mudah tentang pengalaman dan kemahiran, format yang agak mudah, tidak mematuhi spesifikasi, dan prestasi model yang lemah.

Mari pilih salah satu kes ujian untuk dilihat -

实测 | GPT 3.5系列模型选择指南：面试、英文邮件、直播、周报、简历5个场景下性价比如何？

Kos penggunaan

Contoh ujian menjana templat resume berdasarkan jawatan kerja, gpt-3.5-turbo lebih kurang 0.0077 yuan, text-davinci-003 menggunakan kira-kira 0.1 yuan, text-davinci-002 menggunakan kira-kira 0.022 yuan

output

实测 | GPT 3.5系列模型选择指南：面试、英文邮件、直播、周报、简历5个场景下性价比如何？

Dari segi profesionalisme dan pemadanan templat yang dihasilkan, anda boleh melihat gpt-3.5 -turbo and text-davinci-003 Mereka boleh menyediakan templat resume yang agak lengkap, termasuk elemen penting seperti maklumat peribadi, latar belakang pendidikan, pengalaman kerja, kemahiran profesional dan penilaian diri, dan formatnya juga agak standard.

Tetapi jika anda melihat dengan teliti, anda dapat melihat bahawa teks-davinci-003 jelas bercanggah dengan realiti Ia tidak menggambarkan secara khusus padanan antara keperluan pekerjaan dan kebolehan peribadi, seperti In bahagian kemahiran profesional, calon biasa dengan operasi komputer dan CET-6, tetapi kurang kemahiran profesional dan pengetahuan berkaitan jawatan menjual keledek bakar. Text-davinci-002 agak ringkas dan hanya menyediakan maklumat asas seperti matlamat, kemahiran, pengalaman dan latar belakang pendidikan pemohon.

Ringkasan perbandingan tiga model siri GPT 3.5

Dalam tugas adegan temu duga, gpt-3.5-turbo mempunyai skor keseluruhan tertinggi dan boleh menyesuaikan diri dengan baik dengan adegan temu duga dan menjana Soalan teks-davinci-002 sangat disasarkan dan mempunyai pemahaman yang mendalam tentang kebolehan dan pengalaman calon dari pelbagai sudut manakala teks-davinci-002 mempunyai skor yang paling rendah penerangan kerja, dan kekurangan soalan yang mencabar dan praktikal , malah kandungan yang dihasilkan tidak tersedia sepenuhnya.

Dalam tugasan senario penulisan e-mel bahasa Inggeris, gpt-3.5-turbo dan text-davinci-003 mempunyai skor keseluruhan yang lebih tinggi dan boleh mensimulasikan gaya bahasa bertulis yang dituturkan dan formal. For colloquial mempunyai pemahaman yang baik dan terjemahan ungkapan dan kata nama samar-samar, tetapi tidak dapat mengenal pasti kandungan yang tidak selamat dengan betul dan teks-davinci-002 mempunyai skor terendah, tidak boleh bertukar antara bahasa lisan dan tulisan dengan baik, dan tidak dapat mengenal pasti kandungan yang tidak selamat dengan betul.

Dalam tugasan adegan siaran langsung, gpt-3.5-turbo menerima markah tertinggi, dapat meringkaskan kandungan langsung dengan tepat, ringkas dan lancar serta memenuhi keperluan kesederhanaan semasa teks - davinci-002 mempunyai skor terendah, ketepatan output adalah purata, dan ia tidak dapat menyesuaikan diri dengan adegan dengan baik, tetapi terdapat ruang untuk penambahbaikan selanjutnya dari segi kesederhanaan dan kelancaran.

Dalam tugasan senario menulis laporan kerja mingguan, gpt-3.5-turbo dan text-davinci-003 mempunyai markah yang lebih tinggi dan boleh membentangkan struktur logik dan titik kandungan laporan mingguan serta kandungan output dengan tepat adalah agak lengkap; manakala teks -davinci-002 mempunyai penilaian terendah. Ia tidak mempunyai logik untuk menyatakan laporan mingguan, strukturnya tidak sepadan, dan kandungannya tidak relevan.

Dalam tugasan senario resume, gpt-3.5-turbo mempunyai skor tertinggi Ia secara profesional boleh menjana resume yang memenuhi keperluan perekrut dan membentangkan latar belakang pendidikan, pengalaman kerja dan kemahiran penguasaan dan penilaian kendiri dan aspek maklumat yang lain, tetapi lebih banyak perhatian perlu diberikan kepada ketepatan dan pemperibadian ungkapan bahasa manakala teks-davinci-003 dan teks-davinci-002 mempunyai skor yang lebih rendah dan kekurangan penerangan yang diperibadikan dan kuantitatif; pencapaian, dan penerangan tentang resume juga Agak mudah dan tidak teratur.

Penilaian menyeluruh bagi lima tugasan permohonan di atas adalah seperti berikut. Penilaian berikut hanya mewakili penilaian model ini dalam senario aplikasi tertentu. Penilaian mungkin berbeza untuk senario atau tugasan aplikasi lain. Sesetengah model ini masih dalam proses lelaran dan mungkin mempunyai prestasi dan prestasi yang lebih baik. Dalam ujian akan datang, kami juga akan menambah perbandingan model baharu dalam siri GPT (seperti GPT-4).

Gunakan Tugas	Senario Ujian	GPT-3.5 Turbo	text-davinci-003	text-davinci-002
Skor komprehensif (jumlah markah 5 mata, sama di bawah)		3.8	3.2	1.7
Buat Soalan Temuduga	Jana soalan temuduga berdasarkan penerangan kerja	4.5	4	0
Buat Soalan Temuduga	Soalan Temuduga Penjanaan Maklumat Calon	4.5	3.75	3.5
Penulisan E-mel	Sisipkan kata nama khas dengan terjemahan khas, istilah profesional dalam medan menegak tertentu dan kata nama dengan makna berbeza dalam senario berbeza ke dalam teks input	5	3	2
	Memerlukan output "kolokial" dan "bertulis" dalam input	3.5	3	3.5
	Tulis dalam nada bahasa sehari-hari dalam input, perlukan output "bertulis" dan tinggalkan sebahagian daripada latar belakang dalam input Maklumat, penggunaan kata nama samar	4	5	2
	Mengandungi kandungan berkaitan jenayah dalam input	1	1	1
	Gunakan ayat songsang, typo homonim, dialek dan peninggalan bahasa sehari-hari dalam input	3	4	3
Ringkasan siaran langsung	Ringkaskan menjadi ringkasan berdasarkan kandungan teks langsung	4	4	3
	Berasaskan pada kandungan teks langsung Ekstrak beberapa perkara penting	4.7	4	3
	Tulis garis besar siaran langsung berdasarkan tema siaran langsung	4	4	0
	Cari jawapan kepada soalan berdasarkan kandungan teks langsung	5	5	0
Tulis laporan kerja mingguan	Berdasarkan kerja yang diberikan Laporan mingguan output kandungan	4	3.5	0
	Keluarkan laporan mingguan berdasarkan huraian kasar yang diberikan	4.5	4	3
	Berdasarkan kandungan kerja yang diberikan dan struktur templat sasaran, keluarkan laporan mingguan templat	3	1	1
	Keluaran laporan kerja mingguan minggu depan berdasarkan kandungan kerja minggu ini	2	4	2
Menulis resume	Jana resume berdasarkan tanggungjawab pekerjaan	4	1.5	1.5
	Jana resume berdasarkan keperluan pekerjaan	4.5	3	1.5
	Jana resume berdasarkan pengenalan diri	3.5	1.5	1
	Jana templat resume berdasarkan jawatan kerja	3.5	1.5	1

Atas ialah kandungan terperinci Dalam lima senario temu bual, e-mel bahasa Inggeris, siaran langsung, laporan mingguan dan resume, bagaimanakah keberkesanan kos model siri GPT 3.5? Kami menjalankan ujian kehidupan sebenar dan menyediakan panduan pemilihan.. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!

Kenyataan：

Artikel ini dikembalikan pada:51cto.com. Jika ada pelanggaran, sila hubungi admin@php.cn Padam

Artikel sebelumnya：Pra-latihan tidak memerlukan perhatian, dan penskalaan kepada 4096 token tiada masalah, yang setanding dengan BERT.Artikel seterusnya：Pra-latihan tidak memerlukan perhatian, dan penskalaan kepada 4096 token tiada masalah, yang setanding dengan BERT.

Artikel berkaitan

Lihat lagi