Rumah  >  Artikel  >  Peranti teknologi  >  Fahami penilaian LLM menggunakan Arthur Bench dalam satu artikel

Fahami penilaian LLM menggunakan Arthur Bench dalam satu artikel

王林
王林ke hadapan
2024-02-04 17:33:02532semak imbas

Hello, saya Luga, hari ini kita akan bercakap tentang teknologi yang berkaitan dengan bidang ekologi kecerdasan buatan (AI) - penilaian LLM.

一文搞懂使用 Arthur Bench 进行 LLM 评估

1. Cabaran yang dihadapi oleh penilaian teks tradisional

Dalam beberapa tahun kebelakangan ini, perkembangan pesat dan penambahbaikan model bahasa besar (LLM) telah menyebabkan kaedah penilaian teks tradisional tidak lagi digunakan dalam beberapa aspek. Dalam bidang penilaian teks, kami telah mendengar kaedah seperti kaedah penilaian berasaskan "kejadian perkataan", seperti BLEU, dan kaedah penilaian berasaskan "model pemprosesan bahasa semula jadi yang telah terlatih", seperti BERTScore. Kaedah ini menyediakan penunjuk yang lebih tepat untuk menilai kualiti dan persamaan teks. Perkembangan pesat LLM telah membawa cabaran dan peluang baharu kepada bidang penilaian teks Kita perlu terus meneroka dan menambah baik kaedah penilaian untuk menyesuaikan diri dengan aliran pembangunan ini.

Walaupun kaedah ini pernah berfungsi dengan baik, dengan perkembangan teknologi ekologi LLM, ia secara beransur-ansur kelihatan tidak cukup berkuasa untuk memenuhi keperluan hari ini sepenuhnya.

Dengan perkembangan pesat dan peningkatan LLM, kami menghadapi cabaran dan peluang baharu. Keupayaan dan tahap prestasi LLM terus meningkat, menjadikan kaedah penilaian berasaskan kejadian perkataan seperti BLEU mungkin tidak menangkap sepenuhnya kualiti dan ketepatan semantik teks yang dijana LLM. Sebaliknya, LLM boleh menjana teks yang lebih fasih, koheren dan kaya semantik, dan kaedah penilaian berasaskan kejadian perkataan tradisional tidak dapat mengukur kelebihan ini dengan tepat.

Selain itu, kaedah penilaian berdasarkan model pra-latihan, seperti BERTScore, walaupun berprestasi baik dalam banyak tugas, juga menghadapi beberapa cabaran. Model pra-latihan mungkin tidak mengambil kira sepenuhnya ciri unik LLM (model bahasa) dan prestasinya pada tugas tertentu. Oleh itu, bergantung semata-mata pada kaedah penilaian berdasarkan model pra-latihan mungkin tidak menilai sepenuhnya keupayaan LLM. Ini bermakna kami memerlukan penyelidikan dan pembangunan lanjut kaedah penilaian baharu untuk menilai dan memahami prestasi dan keupayaan LLM dengan lebih tepat dalam tugas tertentu. Ini mungkin melibatkan penalaan halus khusus tugas dan penyesuaian LLM agar lebih sesuai dengan keperluan misi. Pada masa yang sama, kita juga perlu mengambil kira kepelbagaian kaedah penilaian dan menggabungkan penilaian manual dan petunjuk pengukuran lain untuk mendapatkan keputusan penilaian yang lebih komprehensif dan tepat. Dengan menambah baik dan membangunkan kaedah penilaian secara berterusan, kami dapat memahami dan mengeksploitasi potensi LLM dengan lebih baik dan memacu kemajuan selanjutnya dalam bidang pemprosesan bahasa semula jadi.

2. Mengapakah penilaian bimbingan LLM diperlukan dan cabaran yang dibawa

Secara umumnya, perkara yang paling berharga tentang menggunakan kaedah penilaian panduan LLM dalam senario perniagaan sebenar adalah kepantasan dan kepekaannya.

1. Cekap

Pertama sekali, kelajuan pelaksanaan menggunakan LLM untuk membimbing penilaian biasanya lebih pantas. Berbanding dengan saluran paip penilaian sebelumnya, mencipta penilaian berpandukan LLM memerlukan sedikit usaha dan mudah untuk dilaksanakan. Untuk Penilaian Berpandu LLM, hanya dua perkara yang perlu disediakan: penerangan bertulis yang menerangkan kriteria penilaian dan contoh untuk digunakan dalam templat segera. Berbanding dengan membina model NLP terlatih anda sendiri atau memperhalusi model NLP sedia ada untuk berfungsi sebagai penilai, adalah lebih cekap untuk menggunakan LLM untuk menyelesaikan tugasan ini. Lelaran kriteria penilaian juga lebih pantas menggunakan LLM.

2. Sensitiviti

Kedua, LLM secara amnya lebih sensitif berbanding model NLP yang telah dilatih dan kaedah penilaian yang telah dibincangkan sebelum ini. Kepekaan ini mempunyai kesan positif dalam beberapa aspek, membolehkan LLM mengendalikan situasi tertentu dengan lebih fleksibel. Walau bagaimanapun, sensitiviti ini juga boleh menjadikan keputusan penilaian LLM kurang boleh diramal.

Seperti yang kita bincangkan sebelum ini, penilai LLM lebih sensitif berbanding kaedah penilaian lain. Walau bagaimanapun, terdapat banyak cara berbeza untuk mengkonfigurasi LLM sebagai penilai, dan tingkah lakunya boleh berbeza-beza bergantung pada konfigurasi yang dipilih. Tambahan pula, cabaran lain ialah penilai LLM mungkin tersekat jika penilaian melibatkan terlalu banyak langkah inferens atau memerlukan pemprosesan terlalu banyak pembolehubah secara serentak. Oleh itu, apabila mereka bentuk dan melaksanakan penilaian, konfigurasi LLM dan kerumitan tugas penilaian perlu dipertimbangkan dengan teliti untuk memastikan keputusan penilaian yang tepat dan sah.

Disebabkan ciri-ciri LLM, keputusan penilaiannya mungkin dipengaruhi oleh konfigurasi dan tetapan parameter yang berbeza. Ini bermakna apabila menilai LLM, model perlu dipilih dan dikonfigurasikan dengan teliti untuk memastikan ia berkelakuan seperti yang diharapkan. Konfigurasi yang berbeza mungkin membawa kepada hasil output yang berbeza, jadi penilai perlu meluangkan sedikit masa dan usaha untuk melaraskan dan mengoptimumkan tetapan LLM untuk mendapatkan keputusan penilaian yang tepat dan boleh dipercayai.

Selain itu, penilai mungkin menghadapi beberapa cabaran apabila berhadapan dengan tugas penilaian yang memerlukan penaakulan kompleks atau pemprosesan berbilang pembolehubah secara serentak. Ini kerana keupayaan penaakulan LLM mungkin terhad apabila berhadapan dengan situasi yang kompleks. LLM mungkin memerlukan usaha tambahan untuk menangani tugas-tugas ini untuk memastikan ketepatan dan kebolehpercayaan penilaian.

3. Apakah Arthur Bench?

Arthur Bench ialah alat penilaian sumber terbuka yang digunakan untuk membandingkan prestasi model teks generatif (LLM). Ia boleh digunakan untuk menilai model, isyarat dan hiperparameter LLM yang berbeza dan menyediakan laporan terperinci tentang prestasi LLM pada pelbagai tugas.

Ciri utama Arthur Bench termasuk: Ciri utama Arthur Bench termasuk:

  • Bandingkan model LLM yang berbeza: Arthur Bench boleh digunakan untuk membandingkan prestasi model LLM yang berbeza, termasuk model daripada vendor yang berbeza, versi model yang berbeza dan model yang menggunakan set data latihan yang berbeza.
  • Menilai Petua: Arthur Bench boleh digunakan untuk menilai kesan petua berbeza pada prestasi LLM. Prompt ialah arahan yang digunakan untuk membimbing LLM dalam menjana teks.
  • Menguji hiperparameter: Arthur Bench boleh digunakan untuk menguji kesan hiperparameter berbeza pada prestasi LLM. Hiperparameter ialah tetapan yang mengawal kelakuan LLM.

Secara amnya, aliran kerja Arthur Bench terutamanya melibatkan peringkat berikut, dan analisis terperinci adalah seperti berikut:

一文搞懂使用 Arthur Bench 进行 LLM 评估

1 Definisi tugasan

Pada peringkat ini, kami perlu menjelaskan matlamat penilaian Arthur Bench pelbagai Pelbagai tugas penilaian, termasuk:

  • Soal Jawab: Uji keupayaan LLM untuk memahami dan menjawab soalan terbuka, mencabar atau samar-samar.
  • Ringkasan: Nilai keupayaan LLM untuk mengekstrak maklumat penting daripada teks dan menjana ringkasan ringkas.
  • Terjemahan: Periksa keupayaan LLM untuk menterjemah dengan tepat dan lancar antara bahasa yang berbeza.
  • Penjanaan kod: Uji keupayaan LLM untuk menjana kod berdasarkan penerangan bahasa semula jadi.

2. Pemilihan model

Pada peringkat ini, kerja utama ialah memilih objek penilaian. Arthur Bench menyokong pelbagai model LLM, meliputi teknologi terkemuka daripada institusi terkenal seperti OpenAI, Google AI, Microsoft, dsb., seperti GPT-3, LaMDA, Megatron-Turing NLG, dsb. Kita boleh memilih model tertentu untuk penilaian berdasarkan keperluan penyelidikan.

3. Konfigurasi parameter

Selepas melengkapkan pemilihan model, langkah seterusnya ialah menjalankan kawalan yang diperhalusi. Untuk menilai prestasi LLM dengan lebih tepat, Arthur Bench membenarkan pengguna mengkonfigurasi pembayang dan hiperparameter.

  • Petua: Bimbing LLM ke arah dan kandungan teks yang dijana, seperti soalan, penerangan atau arahan.
  • Hiperparameter: tetapan utama yang mengawal tingkah laku LLM, seperti kadar pembelajaran, bilangan langkah latihan, seni bina model, dsb.

Melalui konfigurasi yang diperhalusi, kami boleh meneroka secara mendalam perbezaan prestasi LLM di bawah tetapan parameter yang berbeza dan mendapatkan hasil penilaian dengan lebih banyak nilai rujukan.

4. Larian penilaian: proses automatik

Langkah terakhir ialah menjalankan penilaian tugas dengan bantuan proses automatik. Biasanya, Arthur Bench menyediakan proses penilaian automatik yang memerlukan konfigurasi mudah untuk menjalankan tugas penilaian. Ia akan melakukan langkah berikut secara automatik:

  • Panggil model LLM dan jana output teks.
  • Untuk tugasan tertentu, gunakan penunjuk penilaian yang sepadan untuk analisis.
  • Jana laporan terperinci dan bentangkan hasil penilaian.

4. Analisis senario penggunaan Arthur Bench

Sebagai kunci kepada penilaian LLM yang dipacu data, Arthur Bench terutamanya menyediakan penyelesaian berikut, khususnya yang melibatkan:

1 Pemilihan dan pengesahan Model

merupakan langkah penting dalam bidang kecerdasan buatan dan sangat penting untuk memastikan kesahihan dan kebolehpercayaan model. Dalam proses ini, peranan Arthur Bench adalah penting. Matlamatnya adalah untuk menyediakan syarikat rangka kerja perbandingan yang boleh dipercayai untuk membantu mereka membuat keputusan termaklum di antara banyak pilihan model bahasa besar (LLM) melalui penggunaan metrik dan kaedah penilaian yang konsisten.

一文搞懂使用 Arthur Bench 进行 LLM 评估

Arthur Bench akan menggunakan kepakaran dan pengalamannya untuk menilai setiap pilihan LLM dan memastikan metrik yang konsisten digunakan untuk membandingkan kekuatan dan kelemahan mereka. Beliau akan mempertimbangkan faktor seperti prestasi model, ketepatan, kelajuan, keperluan sumber dan banyak lagi untuk memastikan syarikat boleh membuat pilihan yang termaklum dan jelas.

Dengan menggunakan metrik dan metodologi penilaian yang konsisten, Arthur Bench akan menyediakan syarikat rangka kerja perbandingan yang boleh dipercayai, membolehkan mereka menilai sepenuhnya faedah dan had setiap pilihan LLM. Ini akan membolehkan syarikat membuat keputusan termaklum untuk memaksimumkan kemajuan pesat dalam kecerdasan buatan dan memastikan pengalaman terbaik dengan aplikasi mereka.

2. Pengoptimuman Belanjawan dan Privasi

Apabila memilih model AI, tidak semua aplikasi memerlukan model bahasa besar (LLM) yang paling canggih atau mahal. Dalam sesetengah kes, keperluan misi boleh dipenuhi menggunakan model AI yang lebih murah.

Pendekatan pengoptimuman belanjawan ini boleh membantu syarikat membuat pilihan bijak dengan sumber yang terhad. Daripada memilih model yang paling mahal atau terkini, pilih model yang betul berdasarkan keperluan khusus anda. Model yang lebih mampu milik mungkin berprestasi lebih buruk sedikit daripada LLM tercanggih dalam beberapa aspek, tetapi untuk beberapa tugas mudah atau standard, Arthur Bench masih boleh menyediakan penyelesaian yang memenuhi keperluan.

Selain itu, Arthur Bench menekankan bahawa membawa model secara dalaman membolehkan kawalan yang lebih baik ke atas privasi data. Untuk aplikasi yang melibatkan data sensitif atau isu privasi, syarikat mungkin lebih suka menggunakan model terlatih dalaman mereka sendiri daripada bergantung pada LLM pihak ketiga luaran. Dengan menggunakan model dalaman, syarikat boleh memperoleh kawalan yang lebih besar ke atas pemprosesan dan penyimpanan data serta melindungi privasi data dengan lebih baik.

3. Terjemahkan tanda aras akademik kepada prestasi dunia sebenar

Tanda aras akademik merujuk kepada petunjuk dan kaedah penilaian model yang ditetapkan dalam penyelidikan akademik. Penunjuk dan kaedah ini biasanya khusus untuk tugas atau domain tertentu dan boleh menilai prestasi model dalam tugas atau domain itu dengan berkesan.

Walau bagaimanapun, penanda aras akademik tidak selalu mencerminkan prestasi model secara langsung dalam dunia sebenar. Ini kerana senario aplikasi dalam dunia nyata selalunya lebih kompleks dan memerlukan lebih banyak faktor untuk dipertimbangkan, seperti pengedaran data, persekitaran penggunaan model, dsb.

Arthur Bench membantu menterjemahkan tanda aras akademik kepada prestasi dunia sebenar. Ia mencapai matlamat ini dengan cara berikut:

  • Menyediakan set petunjuk penilaian yang komprehensif meliputi pelbagai aspek ketepatan model, kecekapan, keteguhan, dsb. Penunjuk ini bukan sahaja dapat mencerminkan prestasi model di bawah penanda aras akademik, tetapi juga potensi prestasi model dalam dunia sebenar.
  • Menyokong pelbagai jenis model dan boleh membandingkan pelbagai jenis model. Ini membolehkan perusahaan memilih model yang paling sesuai dengan senario aplikasi mereka.
  • Menyediakan alat analisis visual untuk membantu syarikat memahami secara intuitif perbezaan prestasi model yang berbeza. Ini membolehkan perniagaan membuat keputusan dengan lebih mudah.

5. Analisis ciri Arthur Bench

Sebagai kunci kepada penilaian LLM yang dipacu data yang pantas, Arthur Bench mempunyai ciri berikut:

1 Set penuh penunjuk pemarkahan

Arthur Bench mempunyai set pemarkahan yang lengkap penunjuk, meliputi segala-galanya daripada Ringkaskan semua aspek kualiti kepada pengalaman pengguna. Dia boleh menggunakan metrik pemarkahan ini pada bila-bila masa untuk menilai dan membandingkan model yang berbeza. Penggunaan gabungan metrik pemarkahan ini boleh membantunya memahami sepenuhnya kekuatan dan kelemahan setiap model.

Skop penunjuk pemarkahan ini sangat luas, termasuk tetapi tidak terhad kepada kualiti ringkasan, ketepatan, kelancaran, ketepatan tatabahasa, kebolehan memahami konteks, koheren logik, dsb. Arthur Bench akan menilai setiap model berdasarkan metrik ini dan menggabungkan hasilnya ke dalam skor komprehensif untuk membantu syarikat membuat keputusan termaklum.

Selain itu, jika syarikat mempunyai keperluan atau kebimbangan khusus, Arthur Bench juga boleh membuat dan menambah metrik pemarkahan tersuai berdasarkan keperluan syarikat. Ini dilakukan untuk memenuhi keperluan khusus syarikat dengan lebih baik dan memastikan proses penilaian adalah konsisten dengan matlamat dan piawaian syarikat.

一文搞懂使用 Arthur Bench 进行 LLM 评估

2. Versi tempatan dan berasaskan awan

Bagi mereka yang lebih suka penempatan tempatan dan kawalan autonomi, anda boleh mendapatkan akses daripada repositori GitHub dan menggunakan Arthur Bench ke persekitaran setempat anda sendiri. Dengan cara ini, semua orang boleh menguasai dan mengawal sepenuhnya operasi Arthur Bench dan menyesuaikan serta mengkonfigurasinya mengikut keperluan mereka sendiri.

Sebaliknya, bagi pengguna yang lebih suka kemudahan dan fleksibiliti, produk SaaS berasaskan awan juga disediakan. Anda boleh memilih untuk mendaftar untuk mengakses dan menggunakan Arthur Bench melalui awan. Kaedah ini menghapuskan keperluan untuk pemasangan dan konfigurasi tempatan yang menyusahkan, dan membolehkan anda menikmati fungsi dan perkhidmatan yang disediakan dengan segera.

3. Sumber terbuka sepenuhnya

Sebagai projek sumber terbuka, Arthur Bench menunjukkan ciri sumber terbuka biasa dari segi ketelusan, skalabiliti dan kerjasama komuniti. Sifat sumber terbuka ini memberikan pengguna dengan banyak kelebihan dan peluang untuk mendapatkan pemahaman yang lebih mendalam tentang cara projek itu berfungsi, dan untuk menyesuaikan serta memanjangkannya agar sesuai dengan keperluan mereka. Pada masa yang sama, keterbukaan Arthur Bench juga menggalakkan pengguna untuk mengambil bahagian secara aktif dalam kerjasama komuniti, bekerjasama dan membangun dengan pengguna lain. Model kerjasama terbuka ini membantu menggalakkan pembangunan berterusan dan inovasi projek, di samping mewujudkan nilai dan peluang yang lebih besar untuk pengguna.

Ringkasnya, Arthur Bench menyediakan rangka kerja terbuka dan fleksibel yang membolehkan pengguna menyesuaikan penunjuk penilaian, dan telah digunakan secara meluas dalam bidang kewangan. Perkongsian dengan Amazon Web Services dan Cohere memajukan lagi rangka kerja, menggalakkan pembangun untuk mencipta metrik baharu untuk Bench dan menyumbang kepada kemajuan dalam bidang penilaian model bahasa.

Rujukan:

  • [1] https://github.com/arthur-ai/bench
  • [2] https://neurohive.io/en/news/arthur-bench-framework-for-evaluating- model bahasa/

Atas ialah kandungan terperinci Fahami penilaian LLM menggunakan Arthur Bench dalam satu artikel. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!

Kenyataan:
Artikel ini dikembalikan pada:51cto.com. Jika ada pelanggaran, sila hubungi admin@php.cn Padam