Rumah  >  Artikel  >  Peranti teknologi  >  Bagaimana untuk menjalankan penilaian LLM berdasarkan Arthur Bench?

Bagaimana untuk menjalankan penilaian LLM berdasarkan Arthur Bench?

WBOY
WBOYke hadapan
2024-03-04 09:40:47340semak imbas

Hello semua, saya Luga, hari ini kita akan bercakap tentang teknologi yang berkaitan dengan bidang ekologi kecerdasan buatan (AI) - penilaian LLM.

如何基于 Arthur Bench 进行 LLM 评估 ?

1. Cabaran yang dihadapi oleh penilaian teks tradisional

Dalam beberapa tahun kebelakangan ini, dengan perkembangan pesat dan peningkatan model bahasa besar (LLM), kaedah penilaian teks tradisional mungkin tidak lagi digunakan dalam beberapa aspek. Dalam bidang penilaian teks, kita mungkin pernah mendengar kaedah seperti kaedah penilaian berasaskan "kejadian perkataan", seperti BLEU dan kaedah penilaian berasaskan "model pemprosesan bahasa semula jadi yang telah terlatih", seperti BERTScore.

Walaupun kaedah ini telah menunjukkan prestasi yang baik pada masa lalu, dengan pembangunan berterusan teknologi ekologi LLM, mereka nampaknya sedikit tidak dapat memenuhi keperluan semasa sepenuhnya.

Dengan perkembangan pesat dan peningkatan berterusan teknologi LLM, kami menghadapi cabaran dan peluang baharu. LLM terus bertambah baik dalam tahap keupayaan dan prestasi, yang menjadikan kaedah penilaian berasaskan kekerapan perkataan (seperti BLEU) berpotensi tidak dapat menangkap sepenuhnya kualiti dan ketepatan semantik teks yang dijana LLM. LLM boleh menjana teks yang lebih fasih, koheren dan kaya semantik, manakala kaedah penilaian berasaskan kekerapan perkataan tradisional sukar untuk menilai kelebihan ini dengan tepat.

Selain itu, kaedah penilaian berdasarkan model pra-latihan, seperti BERTScore, juga menghadapi beberapa cabaran. Walaupun model pra-latihan berfungsi dengan baik pada banyak tugas, mereka mungkin tidak mengambil kira sepenuhnya ciri khas LLM dan prestasinya pada tugas tertentu. LLM mungkin mempamerkan tingkah laku dan prestasi yang berbeza daripada model pra-latihan semasa mengendalikan tugasan tertentu, jadi bergantung semata-mata pada kaedah penilaian berdasarkan model pra-latihan mungkin tidak menilai sepenuhnya keupayaan LLM.

2. Mengapakah penilaian bimbingan LLM diperlukan? Dan apakah cabaran yang dibawanya

Secara umumnya, dalam persekitaran perniagaan sebenar, nilai kaedah LLM dicerminkan terutamanya dalam "kepantasan" dan "kepekaan". adalah Penunjuk penilaian yang paling penting.

1. Cekap

Pertama sekali, secara amnya, pelaksanaan lebih cepat. Berbanding dengan jumlah kerja yang diperlukan oleh saluran paip penilaian sebelumnya, mewujudkan pelaksanaan pertama penilaian berpandukan LLM adalah agak cepat dan mudah. Untuk penilaian berpandukan LLM, kami hanya perlu menyediakan dua perkara: terangkan kriteria penilaian dalam perkataan dan berikan beberapa contoh untuk digunakan dalam templat segera. Berbanding dengan jumlah kerja dan pengumpulan data yang diperlukan untuk membina model NLP terlatih anda sendiri (atau memperhalusi model NLP sedia ada) untuk berfungsi sebagai penganggar, menggunakan LLM untuk menyelesaikan tugasan ini adalah lebih cekap. Dengan LLM, lelaran kriteria penilaian adalah lebih pantas.

2. Sensitiviti

LLM biasanya menunjukkan kepekaan yang lebih tinggi. Kepekaan ini mungkin mempunyai sisi positifnya, kerana LLM lebih fleksibel dalam mengendalikan pelbagai situasi berbanding model NLP pra-latihan dan kaedah penilaian yang telah dibincangkan sebelum ini. Walau bagaimanapun, kepekaan yang tinggi ini juga boleh menyebabkan keputusan penilaian LLM sukar untuk diramalkan. Perubahan kecil dalam data input LLM boleh memberi kesan yang ketara, yang memungkinkan untuk mempamerkan turun naik yang lebih besar apabila memproses tugas tertentu. Oleh itu, semasa menilai LLM, perhatian khusus perlu diberikan kepada sensitivitinya untuk memastikan kestabilan dan kebolehpercayaan keputusan.

Seperti yang kita bincangkan sebelum ini, penilai LLM lebih sensitif berbanding kaedah penilaian lain. Terdapat banyak cara berbeza untuk mengkonfigurasi LLM sebagai penilai, dan tingkah lakunya boleh berbeza-beza bergantung pada konfigurasi yang dipilih. Sementara itu, cabaran lain ialah penilai LLM boleh tersekat jika penilaian melibatkan terlalu banyak langkah inferens atau memerlukan pemprosesan terlalu banyak pembolehubah secara serentak.

Disebabkan ciri-ciri LLM, keputusan penilaiannya mungkin dipengaruhi oleh konfigurasi dan tetapan parameter yang berbeza. Ini bermakna apabila menilai LLM, model perlu dipilih dan dikonfigurasikan dengan teliti untuk memastikan ia berkelakuan seperti yang diharapkan. Konfigurasi yang berbeza mungkin membawa kepada hasil output yang berbeza, jadi penilai perlu meluangkan sedikit masa dan usaha untuk melaraskan dan mengoptimumkan tetapan LLM untuk mendapatkan keputusan penilaian yang tepat dan boleh dipercayai.

Selain itu, penilai mungkin menghadapi beberapa cabaran apabila berhadapan dengan tugas penilaian yang memerlukan penaakulan kompleks atau pemprosesan berbilang pembolehubah secara serentak. Ini kerana keupayaan penaakulan LLM mungkin terhad apabila berhadapan dengan situasi yang kompleks. LLM mungkin memerlukan usaha tambahan untuk menangani tugas-tugas ini untuk memastikan ketepatan dan kebolehpercayaan penilaian.

3. Apakah Arthur Bench?

Arthur Bench ialah alat penilaian sumber terbuka yang digunakan untuk membandingkan prestasi model teks generatif (LLM). Ia boleh digunakan untuk menilai model, isyarat dan hiperparameter LLM yang berbeza dan menyediakan laporan terperinci tentang prestasi LLM pada pelbagai tugas.

Ciri utama Arthur Bench termasuk: Ciri utama Arthur Bench termasuk:

  • Bandingkan model LLM yang berbeza: Arthur Bench boleh digunakan untuk membandingkan prestasi model LLM yang berbeza, termasuk model daripada vendor yang berbeza, versi model yang berbeza dan model yang menggunakan set data latihan yang berbeza.
  • Menilai Petua: Arthur Bench boleh digunakan untuk menilai kesan petua berbeza pada prestasi LLM. Prompt ialah arahan yang digunakan untuk membimbing LLM dalam menjana teks.
  • Menguji hiperparameter: Arthur Bench boleh digunakan untuk menguji kesan hiperparameter berbeza pada prestasi LLM. Hiperparameter ialah tetapan yang mengawal kelakuan LLM.

Secara amnya, aliran kerja Arthur Bench terutamanya melibatkan peringkat berikut, dan analisis terperinci adalah seperti berikut:

如何基于 Arthur Bench 进行 LLM 评估 ?

1 Definisi tugasan

Pada peringkat ini, kami perlu menjelaskan matlamat kami, Arthur Bangku Menyokong pelbagai tugas penilaian, termasuk:

  • Soal Jawab: Uji keupayaan LLM untuk memahami dan menjawab soalan terbuka, mencabar atau samar-samar.
  • Ringkasan: Nilai keupayaan LLM untuk mengekstrak maklumat penting daripada teks dan menjana ringkasan ringkas.
  • Terjemahan: Periksa keupayaan LLM untuk menterjemah antara bahasa yang berbeza dengan tepat dan lancar.
  • Penjanaan kod: Uji keupayaan LLM untuk menjana kod berdasarkan penerangan bahasa semula jadi.

2. Pemilihan model

Pada peringkat ini, kerja utama ialah memilih objek penilaian. Arthur Bench menyokong pelbagai model LLM, meliputi teknologi terkemuka daripada institusi terkenal seperti OpenAI, Google AI, Microsoft, dsb., seperti GPT-3, LaMDA, Megatron-Turing NLG, dsb. Kita boleh memilih model tertentu untuk penilaian berdasarkan keperluan penyelidikan.

3. Konfigurasi parameter

Selepas melengkapkan pemilihan model, langkah seterusnya ialah menjalankan kawalan yang diperhalusi. Untuk menilai prestasi LLM dengan lebih tepat, Arthur Bench membenarkan pengguna mengkonfigurasi pembayang dan hiperparameter.

  • Petua: Bimbing LLM ke arah dan kandungan teks yang dijana, seperti soalan, penerangan atau arahan.
  • Hiperparameter: tetapan utama yang mengawal tingkah laku LLM, seperti kadar pembelajaran, bilangan langkah latihan, seni bina model, dsb.

Melalui konfigurasi yang diperhalusi, kami boleh meneroka secara mendalam perbezaan prestasi LLM di bawah tetapan parameter yang berbeza dan mendapatkan hasil penilaian dengan lebih banyak nilai rujukan.

4. Larian penilaian: proses automatik

Langkah terakhir ialah menjalankan penilaian tugas dengan bantuan proses automatik. Biasanya, Arthur Bench menyediakan proses penilaian automatik yang memerlukan konfigurasi mudah untuk menjalankan tugas penilaian. Ia akan melakukan langkah berikut secara automatik:

  • Panggil model LLM dan jana output teks.
  • Untuk tugasan tertentu, gunakan penunjuk penilaian yang sepadan untuk analisis.
  • Jana laporan terperinci dan bentangkan hasil penilaian.

4. Analisis senario penggunaan Arthur Bench

Sebagai kunci kepada penilaian LLM yang dipacu data, Arthur Bench terutamanya menyediakan penyelesaian berikut, khususnya yang melibatkan:

1 Pemilihan dan pengesahan Model

merupakan langkah penting dalam bidang kecerdasan buatan dan amat penting untuk memastikan kesahihan dan kebolehpercayaan model. Dalam proses ini, peranan Arthur Bench adalah penting. Matlamatnya adalah untuk menyediakan syarikat rangka kerja perbandingan yang boleh dipercayai untuk membantu mereka membuat keputusan termaklum di antara banyak pilihan model bahasa besar (LLM) melalui penggunaan metrik dan kaedah penilaian yang konsisten.

如何基于 Arthur Bench 进行 LLM 评估 ?

Arthur Bench akan menggunakan kepakaran dan pengalamannya untuk menilai setiap pilihan LLM dan memastikan metrik yang konsisten digunakan untuk membandingkan kekuatan dan kelemahan mereka. Beliau akan mempertimbangkan faktor seperti prestasi model, ketepatan, kelajuan, keperluan sumber dan banyak lagi untuk memastikan syarikat boleh membuat pilihan yang termaklum dan jelas.

Dengan menggunakan metrik dan metodologi penilaian yang konsisten, Arthur Bench akan menyediakan syarikat rangka kerja perbandingan yang boleh dipercayai, membolehkan mereka menilai sepenuhnya faedah dan had setiap pilihan LLM. Ini akan membolehkan syarikat membuat keputusan termaklum untuk memaksimumkan kemajuan pesat dalam kecerdasan buatan dan memastikan pengalaman terbaik dengan aplikasi mereka.

2. Pengoptimuman Belanjawan dan Privasi

Apabila memilih model AI, tidak semua aplikasi memerlukan model bahasa besar (LLM) yang paling canggih atau mahal. Dalam sesetengah kes, keperluan misi boleh dipenuhi menggunakan model AI yang lebih murah.

Pendekatan pengoptimuman belanjawan ini boleh membantu syarikat membuat pilihan bijak dengan sumber yang terhad. Daripada memilih model yang paling mahal atau terkini, pilih model yang betul berdasarkan keperluan khusus anda. Model yang lebih mampu milik mungkin berprestasi lebih buruk sedikit daripada LLM tercanggih dalam beberapa aspek, tetapi untuk beberapa tugas mudah atau standard, Arthur Bench masih boleh menyediakan penyelesaian yang memenuhi keperluan.

Selain itu, Arthur Bench menekankan bahawa membawa model secara dalaman membolehkan kawalan yang lebih baik ke atas privasi data. Untuk aplikasi yang melibatkan data sensitif atau isu privasi, syarikat mungkin lebih suka menggunakan model terlatih dalaman mereka sendiri daripada bergantung pada LLM pihak ketiga luaran. Dengan menggunakan model dalaman, syarikat boleh memperoleh kawalan yang lebih besar ke atas pemprosesan dan penyimpanan data serta melindungi privasi data dengan lebih baik.

3. Terjemahkan tanda aras akademik kepada prestasi dunia sebenar

Tanda aras akademik merujuk kepada metrik dan kaedah penilaian model yang ditetapkan dalam penyelidikan akademik. Penunjuk dan kaedah ini biasanya khusus untuk tugas atau domain tertentu dan boleh menilai prestasi model dalam tugas atau domain itu dengan berkesan.

Walau bagaimanapun, penanda aras akademik tidak selalu mencerminkan prestasi model secara langsung dalam dunia sebenar. Ini kerana senario aplikasi dalam dunia nyata selalunya lebih kompleks dan memerlukan lebih banyak faktor untuk dipertimbangkan, seperti pengedaran data, persekitaran penggunaan model, dsb.

Arthur Bench membantu menterjemahkan tanda aras akademik kepada prestasi dunia sebenar. Ia mencapai matlamat ini dengan cara berikut:

  • Menyediakan set petunjuk penilaian yang komprehensif meliputi pelbagai aspek ketepatan model, kecekapan, keteguhan, dsb. Penunjuk ini bukan sahaja dapat mencerminkan prestasi model di bawah penanda aras akademik, tetapi juga potensi prestasi model dalam dunia sebenar.
  • Menyokong pelbagai jenis model dan boleh membandingkan pelbagai jenis model. Ini membolehkan perusahaan memilih model yang paling sesuai dengan senario aplikasi mereka.
  • Menyediakan alat analisis visual untuk membantu syarikat memahami secara intuitif perbezaan prestasi model yang berbeza. Ini membolehkan perniagaan membuat keputusan dengan lebih mudah.

5. Analisis Ciri Arthur Bench

Sebagai kunci kepada penilaian LLM yang dipacu data yang pantas, Arthur Bench mempunyai ciri berikut:

1 Set penuh penunjuk pemarkahan

Arthur Bench mempunyai set pemarkahan yang lengkap penunjuk, meliputi segala-galanya daripada Ringkaskan semua aspek kualiti kepada pengalaman pengguna. Dia boleh menggunakan metrik pemarkahan ini pada bila-bila masa untuk menilai dan membandingkan model yang berbeza. Penggunaan gabungan metrik pemarkahan ini boleh membantunya memahami sepenuhnya kekuatan dan kelemahan setiap model.

Skop penunjuk pemarkahan ini sangat luas, termasuk tetapi tidak terhad kepada kualiti ringkasan, ketepatan, kelancaran, ketepatan tatabahasa, kebolehan memahami konteks, koheren logik, dsb. Arthur Bench akan menilai setiap model berdasarkan metrik ini dan menggabungkan hasilnya ke dalam skor komprehensif untuk membantu syarikat membuat keputusan termaklum.

Selain itu, jika syarikat mempunyai keperluan atau kebimbangan khusus, Arthur Bench juga boleh membuat dan menambah metrik pemarkahan tersuai berdasarkan keperluan syarikat. Ini dilakukan untuk memenuhi keperluan khusus syarikat dengan lebih baik dan memastikan proses penilaian adalah konsisten dengan matlamat dan piawaian syarikat. . Dengan cara ini, semua orang boleh menguasai dan mengawal sepenuhnya operasi Arthur Bench dan menyesuaikan serta mengkonfigurasinya mengikut keperluan mereka sendiri.

Sebaliknya, bagi pengguna yang lebih suka kemudahan dan fleksibiliti, produk SaaS berasaskan awan juga disediakan. Anda boleh memilih untuk mendaftar untuk mengakses dan menggunakan Arthur Bench melalui awan. Kaedah ini menghapuskan keperluan untuk pemasangan dan konfigurasi tempatan yang menyusahkan, dan membolehkan anda menikmati fungsi dan perkhidmatan yang disediakan dengan segera.

3. Sumber terbuka sepenuhnya如何基于 Arthur Bench 进行 LLM 评估 ?

Sebagai projek sumber terbuka, Arthur Bench menunjukkan ciri sumber terbuka biasa dari segi ketelusan, skalabiliti dan kerjasama komuniti. Sifat sumber terbuka ini memberikan pengguna dengan banyak kelebihan dan peluang untuk mendapatkan pemahaman yang lebih mendalam tentang cara projek itu berfungsi, dan untuk menyesuaikan serta memanjangkannya agar sesuai dengan keperluan mereka. Pada masa yang sama, keterbukaan Arthur Bench juga menggalakkan pengguna untuk mengambil bahagian secara aktif dalam kerjasama komuniti, bekerjasama dan membangun dengan pengguna lain. Model kerjasama terbuka ini membantu menggalakkan pembangunan berterusan dan inovasi projek, di samping mewujudkan nilai dan peluang yang lebih besar untuk pengguna.

Ringkasnya, Arthur Bench menyediakan rangka kerja terbuka dan fleksibel yang membolehkan pengguna menyesuaikan penunjuk penilaian, dan telah digunakan secara meluas dalam bidang kewangan. Perkongsian dengan Amazon Web Services dan Cohere memajukan lagi rangka kerja, menggalakkan pembangun untuk mencipta metrik baharu untuk Bench dan menyumbang kepada kemajuan dalam bidang penilaian model bahasa.

Rujukan:

[1] https://github.com/arthur-ai/bench

[2] https://neurohive.io/en/news/arthur-bench-framework-for-evaluating- model bahasa/

Atas ialah kandungan terperinci Bagaimana untuk menjalankan penilaian LLM berdasarkan Arthur Bench?. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!

Kenyataan:
Artikel ini dikembalikan pada:51cto.com. Jika ada pelanggaran, sila hubungi admin@php.cn Padam