


13 bilion parameter, 8 latihan A100, UC Berkeley mengeluarkan model dialog Koala
Sejak Meta mengeluarkan dan menggunakan sumber terbuka siri model LLaMA, penyelidik dari Universiti Stanford, UC Berkeley dan institusi lain telah menjalankan "penciptaan kedua" berdasarkan LLaMA, dan melancarkan Alpaca, Vicuna dan lain-lain " secara berturut-turut Alpaca" model besar.
Alpaca telah menjadi pemimpin baharu dalam komuniti sumber terbuka. Disebabkan oleh banyaknya "ciptaan sekunder", perkataan bahasa Inggeris untuk genus alpaca biologi hampir tidak digunakan, tetapi ia juga mungkin untuk menamakan model besar selepas haiwan lain.
Baru-baru ini, Institut Kepintaran Buatan Berkeley (BAIR) di UC Berkeley mengeluarkan model perbualan Koala (diterjemahkan secara literal sebagai koala) yang boleh dijalankan pada GPU gred pengguna. Koala memperhalusi model LLaMA menggunakan data perbualan yang dikumpul daripada web.
Alamat projek: https://bair.berkeley.edu/blog/2023/04/03/koala/
Koala telah melancarkan demo ujian dalam talian:
- Alamat demo: https://chat.lmsys.org/?model=koala-13b
- Alamat sumber terbuka: https://github.com/young-geng/ EasyLM
Gambaran Keseluruhan Koala
Sama seperti Vicuna, Koala juga menggunakan data perbualan yang dikumpul daripada rangkaian untuk memperhalusi model LLaMA, dengan fokus pada ChatGPT Data awam bagi dialog model besar sumber tertutup.
Pasukan penyelidik menyatakan bahawa model Koala dilaksanakan dalam EasyLM menggunakan JAX/Flax dan model Koala dilatih pada pelayan Nvidia DGX tunggal yang dilengkapi dengan 8 GPU A100. Ia mengambil masa 6 jam untuk menyelesaikan 2 zaman latihan. Kos latihan sedemikian biasanya kurang daripada $100 pada platform pengkomputeran awan awam.
Pasukan penyelidik secara eksperimen membandingkan Koala dengan ChatGPT dan Alpaca Universiti Stanford Hasilnya menunjukkan bahawa Koala-13B dengan 13 bilion parameter boleh bertindak balas dengan berkesan kepada pelbagai pertanyaan pengguna dan menjana Respons pada umumnya lebih baik daripada. Alpaca dan setanding dengan prestasi ChatGPT dalam lebih separuh daripada kes.
Kepentingan Koala yang paling penting ialah ia menunjukkan bahawa apabila dilatih pada set data berkualiti tinggi, model yang cukup kecil untuk dijalankan secara tempatan juga boleh mencapai prestasi cemerlang yang serupa dengan model besar. Ini bermakna komuniti sumber terbuka harus bekerja lebih keras untuk menyusun set data berkualiti tinggi, kerana ini boleh membawa kepada model yang lebih selamat, realistik dan berkuasa daripada hanya meningkatkan saiz sistem sedia ada. Dari perspektif ini, Koala ialah alternatif yang kecil tetapi halus kepada ChatGPT.
Walau bagaimanapun, Koala hanyalah prototaip penyelidikan dan masih mempunyai kelemahan ketara dalam kandungan, keselamatan dan kebolehpercayaan, dan tidak boleh digunakan untuk sebarang tujuan selain daripada penyelidikan.
Set Data dan Latihan
Halangan utama dalam membina model perbualan ialah mengurus data latihan. Model perbualan besar seperti ChatGPT, Bard, Bing Chat dan Claude semuanya menggunakan set data proprietari dengan anotasi manusia yang luas. Untuk membina set data latihan Koala, pasukan penyelidik mengumpul dan memilih data perbualan daripada web dan set data awam, yang mengandungi data yang dikongsi secara terbuka oleh pengguna yang bercakap dengan model bahasa besar seperti ChatGPT.
Tidak seperti model lain yang merangkak sebanyak mungkin data web untuk memaksimumkan set data, Koala menumpukan pada pengumpulan set data berkualiti tinggi yang kecil, termasuk bahagian soal jawab set data awam, Maklum Balas manusia (positif dan negatif) dan dialog dengan model bahasa sedia ada. Khususnya, set data latihan Koala termasuk bahagian berikut:
Data penyulingan ChatGPT:
- Tersedia secara umum data perbualan chatGPT (ShareGPT);
- Korpus perbandingan Human ChatGPT (HC3), yang menggunakan kedua-dua respons manusia dan ChatGPT daripada set data HC3.
Data sumber terbuka:
- Open Instruction Generalist (OIG);
- Set data yang digunakan oleh model Stanford Alpaca; ;
- OpenAI WebGPT;
- Ringkasan OpenAI.
- Eksperimen dan Penilaian
Secara keseluruhannya, model Koala mencukupi untuk menunjukkan banyak ciri LLM semasa cukup kecil untuk memudahkan penalaan halus atau dalam situasi di mana sumber pengkomputeran terhad. Pasukan penyelidik berharap model Koala akan menjadi platform yang berguna untuk penyelidikan akademik masa hadapan tentang model bahasa berskala besar Arah permohonan penyelidikan yang berpotensi mungkin termasuk:
Keselamatan dan penjajaran: Koala membenarkan penyelidikan lanjut tentang keselamatan model bahasa dan penjajaran yang lebih baik dengan niat manusia.
- Bias Model: Koala membolehkan kami lebih memahami berat sebelah dalam model bahasa besar, menyelidiki isu kualiti dalam set data perbualan dan akhirnya membantu meningkatkan prestasi model bahasa besar.
- Memahami model bahasa yang besar: Oleh kerana model Koala boleh dijalankan pada GPU gred pengguna yang agak murah dan melaksanakan pelbagai tugas, Koala membolehkan kami memeriksa dan memahami bahasa perbualan dengan lebih baik Struktur dalaman model menjadikan model bahasa lebih mudah ditafsir.
Atas ialah kandungan terperinci 13 bilion parameter, 8 latihan A100, UC Berkeley mengeluarkan model dialog Koala. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!

Permainan Upheaval: Merevolusi Pembangunan Permainan Dengan Ejen AI Upheaval, sebuah studio pembangunan permainan yang terdiri daripada veteran dari gergasi industri seperti Blizzard dan Obsidian, bersedia untuk merevolusikan penciptaan permainan dengan platfor AI yang inovatif

Strategi Robotaxi Uber: ekosistem perjalanan untuk kenderaan autonomi Pada persidangan Curbivore baru-baru ini, Uber's Richard Willder melancarkan strategi mereka untuk menjadi platform perjalanan untuk penyedia Robotaxi. Memanfaatkan kedudukan dominan mereka di

Permainan video terbukti menjadi alasan ujian yang tidak ternilai untuk penyelidikan AI canggih, terutamanya dalam pembangunan agen autonomi dan robot dunia nyata, malah berpotensi menyumbang kepada pencarian kecerdasan umum buatan (AGI). A

Kesan landskap modal teroka yang berkembang jelas dalam media, laporan kewangan, dan perbualan setiap hari. Walau bagaimanapun, akibat khusus untuk pelabur, permulaan, dan dana sering diabaikan. Venture Capital 3.0: Paradigma

Adobe Max London 2025 menyampaikan kemas kini penting kepada Awan Kreatif dan Firefly, mencerminkan peralihan strategik ke arah aksesibiliti dan AI generatif. Analisis ini menggabungkan pandangan dari taklimat pra-peristiwa dengan kepimpinan Adobe. (Nota: Adob

Pengumuman Llamacon Meta mempamerkan strategi AI yang komprehensif yang direka untuk bersaing secara langsung dengan sistem AI yang tertutup seperti OpenAI, sementara pada masa yang sama mencipta aliran pendapatan baru untuk model sumber terbuka. Pendekatan beragam ini mensasarkan bo

Terdapat perbezaan yang serius dalam bidang kecerdasan buatan pada kesimpulan ini. Ada yang menegaskan bahawa sudah tiba masanya untuk mendedahkan "pakaian baru Maharaja", sementara yang lain menentang idea bahawa kecerdasan buatan hanyalah teknologi biasa. Mari kita bincangkannya. Analisis terobosan AI yang inovatif ini adalah sebahagian daripada lajur Forbes yang berterusan yang meliputi kemajuan terkini dalam bidang AI, termasuk mengenal pasti dan menjelaskan pelbagai kerumitan AI yang berpengaruh (klik di sini untuk melihat pautan). Kecerdasan Buatan sebagai Teknologi Biasa Pertama, beberapa pengetahuan asas diperlukan untuk meletakkan asas untuk perbincangan penting ini. Pada masa ini terdapat banyak penyelidikan yang didedikasikan untuk terus membangunkan kecerdasan buatan. Matlamat keseluruhan adalah untuk mencapai kecerdasan umum buatan (AGI) dan juga kecerdasan super buatan (AS)

Keberkesanan model AI syarikat kini merupakan penunjuk prestasi utama. Sejak ledakan AI, AI generatif telah digunakan untuk segala -galanya daripada menyusun jemputan ulang tahun untuk menulis kod perisian. Ini telah membawa kepada percambahan mod bahasa


Alat AI Hot

Undresser.AI Undress
Apl berkuasa AI untuk mencipta foto bogel yang realistik

AI Clothes Remover
Alat AI dalam talian untuk mengeluarkan pakaian daripada foto.

Undress AI Tool
Gambar buka pakaian secara percuma

Clothoff.io
Penyingkiran pakaian AI

Video Face Swap
Tukar muka dalam mana-mana video dengan mudah menggunakan alat tukar muka AI percuma kami!

Artikel Panas

Alat panas

Versi Mac WebStorm
Alat pembangunan JavaScript yang berguna

SublimeText3 versi Inggeris
Disyorkan: Versi Win, menyokong gesaan kod!

EditPlus versi Cina retak
Saiz kecil, penyerlahan sintaks, tidak menyokong fungsi gesaan kod

ZendStudio 13.5.1 Mac
Persekitaran pembangunan bersepadu PHP yang berkuasa

Muat turun versi mac editor Atom
Editor sumber terbuka yang paling popular
