13 bilion parameter, 8 latihan A100, UC Berkeley mengeluarkan model dialog Koala-AI-php.cn

Rumah

Peranti teknologi

13 bilion parameter, 8 latihan A100, UC Berkeley mengeluarkan model dialog Koala

PHPz

Apr 07, 2023 pm 03:12 PM

Modelkereta api

Sejak Meta mengeluarkan dan menggunakan sumber terbuka siri model LLaMA, penyelidik dari Universiti Stanford, UC Berkeley dan institusi lain telah menjalankan "penciptaan kedua" berdasarkan LLaMA, dan melancarkan Alpaca, Vicuna dan lain-lain " secara berturut-turut Alpaca" model besar.

Alpaca telah menjadi pemimpin baharu dalam komuniti sumber terbuka. Disebabkan oleh banyaknya "ciptaan sekunder", perkataan bahasa Inggeris untuk genus alpaca biologi hampir tidak digunakan, tetapi ia juga mungkin untuk menamakan model besar selepas haiwan lain.

Baru-baru ini, Institut Kepintaran Buatan Berkeley (BAIR) di UC Berkeley mengeluarkan model perbualan Koala (diterjemahkan secara literal sebagai koala) yang boleh dijalankan pada GPU gred pengguna. Koala memperhalusi model LLaMA menggunakan data perbualan yang dikumpul daripada web.

13 bilion parameter, 8 latihan A100, UC Berkeley mengeluarkan model dialog Koala

Alamat projek: https://bair.berkeley.edu/blog/2023/04/03/koala/

Koala telah melancarkan demo ujian dalam talian:

13 bilion parameter, 8 latihan A100, UC Berkeley mengeluarkan model dialog Koala

Alamat demo: https://chat.lmsys.org/?model=koala-13b
Alamat sumber terbuka: https://github.com/young-geng/ EasyLM

Gambaran Keseluruhan Koala

Sama seperti Vicuna, Koala juga menggunakan data perbualan yang dikumpul daripada rangkaian untuk memperhalusi model LLaMA, dengan fokus pada ChatGPT Data awam bagi dialog model besar sumber tertutup.

Pasukan penyelidik menyatakan bahawa model Koala dilaksanakan dalam EasyLM menggunakan JAX/Flax dan model Koala dilatih pada pelayan Nvidia DGX tunggal yang dilengkapi dengan 8 GPU A100. Ia mengambil masa 6 jam untuk menyelesaikan 2 zaman latihan. Kos latihan sedemikian biasanya kurang daripada $100 pada platform pengkomputeran awan awam.

Pasukan penyelidik secara eksperimen membandingkan Koala dengan ChatGPT dan Alpaca Universiti Stanford Hasilnya menunjukkan bahawa Koala-13B dengan 13 bilion parameter boleh bertindak balas dengan berkesan kepada pelbagai pertanyaan pengguna dan menjana Respons pada umumnya lebih baik daripada. Alpaca dan setanding dengan prestasi ChatGPT dalam lebih separuh daripada kes.

Kepentingan Koala yang paling penting ialah ia menunjukkan bahawa apabila dilatih pada set data berkualiti tinggi, model yang cukup kecil untuk dijalankan secara tempatan juga boleh mencapai prestasi cemerlang yang serupa dengan model besar. Ini bermakna komuniti sumber terbuka harus bekerja lebih keras untuk menyusun set data berkualiti tinggi, kerana ini boleh membawa kepada model yang lebih selamat, realistik dan berkuasa daripada hanya meningkatkan saiz sistem sedia ada. Dari perspektif ini, Koala ialah alternatif yang kecil tetapi halus kepada ChatGPT.

Walau bagaimanapun, Koala hanyalah prototaip penyelidikan dan masih mempunyai kelemahan ketara dalam kandungan, keselamatan dan kebolehpercayaan, dan tidak boleh digunakan untuk sebarang tujuan selain daripada penyelidikan.

Set Data dan Latihan

Halangan utama dalam membina model perbualan ialah mengurus data latihan. Model perbualan besar seperti ChatGPT, Bard, Bing Chat dan Claude semuanya menggunakan set data proprietari dengan anotasi manusia yang luas. Untuk membina set data latihan Koala, pasukan penyelidik mengumpul dan memilih data perbualan daripada web dan set data awam, yang mengandungi data yang dikongsi secara terbuka oleh pengguna yang bercakap dengan model bahasa besar seperti ChatGPT.

Tidak seperti model lain yang merangkak sebanyak mungkin data web untuk memaksimumkan set data, Koala menumpukan pada pengumpulan set data berkualiti tinggi yang kecil, termasuk bahagian soal jawab set data awam, Maklum Balas manusia (positif dan negatif) dan dialog dengan model bahasa sedia ada. Khususnya, set data latihan Koala termasuk bahagian berikut:

Data penyulingan ChatGPT:

Tersedia secara umum data perbualan chatGPT (ShareGPT);
Korpus perbandingan Human ChatGPT (HC3), yang menggunakan kedua-dua respons manusia dan ChatGPT daripada set data HC3.

Data sumber terbuka:

Open Instruction Generalist (OIG);
Set data yang digunakan oleh model Stanford Alpaca; ;
OpenAI WebGPT;
Ringkasan OpenAI.
Eksperimen dan Penilaian

Kajian ini menjalankan penilaian manual membandingkan penjanaan Koala-All dengan Koala-Distill, Alpaca dan ChatGPT Hasilnya dibandingkan dan keputusan ditunjukkan dalam rajah di bawah. Antaranya, dua set data berbeza digunakan untuk ujian, satu set ujian Alpaca Stanford, yang merangkumi 180 pertanyaan ujian (Set Ujian Alpaca), dan satu lagi ialah Set Ujian Koala.

Secara keseluruhannya, model Koala mencukupi untuk menunjukkan banyak ciri LLM semasa cukup kecil untuk memudahkan penalaan halus atau dalam situasi di mana sumber pengkomputeran terhad. Pasukan penyelidik berharap model Koala akan menjadi platform yang berguna untuk penyelidikan akademik masa hadapan tentang model bahasa berskala besar Arah permohonan penyelidikan yang berpotensi mungkin termasuk: 13 bilion parameter, 8 latihan A100, UC Berkeley mengeluarkan model dialog Koala

Keselamatan dan penjajaran: Koala membenarkan penyelidikan lanjut tentang keselamatan model bahasa dan penjajaran yang lebih baik dengan niat manusia.

Bias Model: Koala membolehkan kami lebih memahami berat sebelah dalam model bahasa besar, menyelidiki isu kualiti dalam set data perbualan dan akhirnya membantu meningkatkan prestasi model bahasa besar.
Memahami model bahasa yang besar: Oleh kerana model Koala boleh dijalankan pada GPU gred pengguna yang agak murah dan melaksanakan pelbagai tugas, Koala membolehkan kami memeriksa dan memahami bahasa perbualan dengan lebih baik Struktur dalaman model menjadikan model bahasa lebih mudah ditafsir.

Atas ialah kandungan terperinci 13 bilion parameter, 8 latihan A100, UC Berkeley mengeluarkan model dialog Koala. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!

Kenyataan

Artikel ini dikembalikan pada:51CTO.COM. Jika ada pelanggaran, sila hubungi admin@php.cn Padam

Artikel Berkaitan

Pembangunan permainan AI memasuki era agentiknya dengan portal pemimpi UphealMay 02, 2025 am 11:17 AM

Permainan Upheaval: Merevolusi Pembangunan Permainan Dengan Ejen AI Upheaval, sebuah studio pembangunan permainan yang terdiri daripada veteran dari gergasi industri seperti Blizzard dan Obsidian, bersedia untuk merevolusikan penciptaan permainan dengan platfor AI yang inovatif

Uber mahu menjadi kedai Robotaxi anda, adakah pembekal membiarkan mereka?May 02, 2025 am 11:16 AM

Strategi Robotaxi Uber: ekosistem perjalanan untuk kenderaan autonomi Pada persidangan Curbivore baru-baru ini, Uber's Richard Willder melancarkan strategi mereka untuk menjadi platform perjalanan untuk penyedia Robotaxi. Memanfaatkan kedudukan dominan mereka di

Ejen AI bermain permainan video akan mengubah robot masa depanMay 02, 2025 am 11:15 AM

Permainan video terbukti menjadi alasan ujian yang tidak ternilai untuk penyelidikan AI canggih, terutamanya dalam pembangunan agen autonomi dan robot dunia nyata, malah berpotensi menyumbang kepada pencarian kecerdasan umum buatan (AGI). A

Kompleks Perindustrian Permulaan, VC 3.0, dan Manifesto James CurrierMay 02, 2025 am 11:14 AM

Kesan landskap modal teroka yang berkembang jelas dalam media, laporan kewangan, dan perbualan setiap hari. Walau bagaimanapun, akibat khusus untuk pelabur, permulaan, dan dana sering diabaikan. Venture Capital 3.0: Paradigma

Adobe mengemas kini Cloud Creative dan Firefly di Adobe Max London 2025May 02, 2025 am 11:13 AM

Adobe Max London 2025 menyampaikan kemas kini penting kepada Awan Kreatif dan Firefly, mencerminkan peralihan strategik ke arah aksesibiliti dan AI generatif. Analisis ini menggabungkan pandangan dari taklimat pra-peristiwa dengan kepimpinan Adobe. (Nota: Adob

Segala -galanya Meta diumumkan di LlamaconMay 02, 2025 am 11:12 AM

Pengumuman Llamacon Meta mempamerkan strategi AI yang komprehensif yang direka untuk bersaing secara langsung dengan sistem AI yang tertutup seperti OpenAI, sementara pada masa yang sama mencipta aliran pendapatan baru untuk model sumber terbuka. Pendekatan beragam ini mensasarkan bo

Kontroversi pembuatan bir atas cadangan bahawa AI tidak lebih dari sekadar teknologi biasaMay 02, 2025 am 11:10 AM

Terdapat perbezaan yang serius dalam bidang kecerdasan buatan pada kesimpulan ini. Ada yang menegaskan bahawa sudah tiba masanya untuk mendedahkan "pakaian baru Maharaja", sementara yang lain menentang idea bahawa kecerdasan buatan hanyalah teknologi biasa. Mari kita bincangkannya. Analisis terobosan AI yang inovatif ini adalah sebahagian daripada lajur Forbes yang berterusan yang meliputi kemajuan terkini dalam bidang AI, termasuk mengenal pasti dan menjelaskan pelbagai kerumitan AI yang berpengaruh (klik di sini untuk melihat pautan). Kecerdasan Buatan sebagai Teknologi Biasa Pertama, beberapa pengetahuan asas diperlukan untuk meletakkan asas untuk perbincangan penting ini. Pada masa ini terdapat banyak penyelidikan yang didedikasikan untuk terus membangunkan kecerdasan buatan. Matlamat keseluruhan adalah untuk mencapai kecerdasan umum buatan (AGI) dan juga kecerdasan super buatan (AS)

Model warga, mengapa nilai AI adalah ukuran perniagaan seterusnyaMay 02, 2025 am 11:09 AM

Keberkesanan model AI syarikat kini merupakan penunjuk prestasi utama. Sejak ledakan AI, AI generatif telah digunakan untuk segala -galanya daripada menyusun jemputan ulang tahun untuk menulis kod perisian. Ini telah membawa kepada percambahan mod bahasa

See all articles