Rumah >Peranti teknologi >AI >Klon ChatGPT dengan ambang sifar! Selepas 30 minit latihan, prestasi 6 bilion parameter adalah setanding dengan GPT-3.5

Klon ChatGPT dengan ambang sifar! Selepas 30 minit latihan, prestasi 6 bilion parameter adalah setanding dengan GPT-3.5

王林
王林ke hadapan
2023-04-11 20:55:012770semak imbas

Sebelum ini, insiden OpenAI tidak dibuka telah menimbulkan banyak kontroversi kepada orang ramai.

Hanya mengeluarkan penanda aras dan keputusan ujian tanpa menyediakan data latihan, kos dan kaedah adalah benar-benar situasi "pemenang mengambil semua".

Klon ChatGPT dengan ambang sifar! Selepas 30 minit latihan, prestasi 6 bilion parameter adalah setanding dengan GPT-3.5

Melihat model bahasa besar seolah-olah dimonopoli oleh syarikat gergasi, kini syarikat permulaan tiba-tiba muncul dan memberikan OpenAI peluang - dengan 6 bilion Parameter "Dolly" melaksanakan keupayaan yang serupa dengan ChatGPT.

Ya, kami hanya perlu menyediakan beberapa data latihan berkualiti tinggi sekarang, dan kemudian secara rawak mengambil model bahasa sumber terbuka yang besar Selepas latihan selama 30 minit, kami boleh mendapatkan ChatGPT "penggantian" ”!

Dalam hal ini, Databricks dengan bangganya menyatakan bahawa pengeluaran Dolly adalah langkah pertamanya dalam menuju pendemokrasian teknologi kecerdasan buatan.

Klon ChatGPT dengan ambang sifar! Selepas 30 minit latihan, prestasi 6 bilion parameter adalah setanding dengan GPT-3.5

6 bilion parameter adalah setanding dengan ChatGPT dan boleh dilatih dalam masa 30 minit

Kerana ChatGPT menggunakan banyak data dan pengkomputeran sumber (Latihan menggunakan trilion perkataan menggunakan banyak GPU), jadi model bahasa besar jenis ini ditakdirkan untuk dikuasai hanya oleh beberapa gergasi.

Bertentangan dengan "CloseAI", Meta mengeluarkan satu set model bahasa LLaMA berkualiti tinggi (tetapi tidak mengikut arahan) kepada komuniti akademik pada bulan Mac tahun ini model melebihi 80,000 jam GPU.

Stanford kemudian membina Alpaca berdasarkan LLaMA, tetapi perbezaannya ialah ia telah diperhalusi menggunakan set data kecil 50,000 soalan dan jawapan. Yang menghairankan, ini memberikan interaktiviti Alpaca serupa dengan ChatGPT.

Dan Dolly diilhamkan oleh Alpaca.

Apa yang lebih menarik ialah Dolly, yang mempunyai 6 bilion parameter, tidak menggunakan model terbaharu, tetapi memilih model sumber terbuka yang dikeluarkan pada 2021-GPT-J.

Memandangkan Dolly sendiri adalah "klon" model, pasukan akhirnya memutuskan untuk menamakannya "Dolly" - haiwan klon pertama yang pernah ada.

Klon ChatGPT dengan ambang sifar! Selepas 30 minit latihan, prestasi 6 bilion parameter adalah setanding dengan GPT-3.5

Berbanding dengan model bahasa besar semasa (seperti GPT-3), Dolly membenarkan pengguna menggunakan model yang lebih kecil dan lebih profesional, "Complex The ability untuk "mengukir" ChatGPT.

Lagipun, bagi pengguna khusus tersebut, dapat memanfaatkan model yang telah diperhalusi untuk industri mereka boleh meningkatkan prestasi dan ketepatan dengan ketara.

Walaupun Databricks tidak bersaing secara langsung dengan OpenAI, ia nampaknya cuba mencuri tumpuan OpenAI dengan membuktikan bahawa membina perkhidmatan seperti ChatGPT tidaklah sesukar yang disangka.

Khususnya, OpenAI telah mengambil pendekatan "lebih besar adalah lebih baik" untuk membangunkan model bahasa dan telah menjadi semakin berahsia tentang kerjanya.

Selain mengeluarkan Dolly sebagai perisian sumber terbuka, Databricks turut menekankan bahawa Dolly hanya mempunyai 6 bilion parameter (bahagian model bahasa yang diperhalusi semasa latihan), manakala OpenAI Model GPT-3 mempunyai 175 bilion parameter. (OpenAI tidak mendedahkan bilangan parameter untuk GPT-4).

Klon ChatGPT dengan ambang sifar! Selepas 30 minit latihan, prestasi 6 bilion parameter adalah setanding dengan GPT-3.5

Biar model lama dilahirkan semula

Selepas menilai Dolly berdasarkan arahan mengikut keupayaan yang diterangkan dalam kertas InstructGPT, kami dapati bahawa Prestasinya sangat serupa dengan ChatGPT dalam banyak keupayaan, termasuk penjanaan teks, sumbang saran dan soal jawab terbuka.

Apa yang patut diberi perhatian dalam contoh ini bukanlah kualiti teks yang dijana, tetapi peningkatan besar dalam arahan berikutan keupayaan yang datang daripada penalaan halus model sumber terbuka lama pada set data kecil dan berkualiti tinggi.

Penjanaan kandungan

Sebagai contoh, tulis tweet tentang pengumuman rasmi model bahasa berskala besar Databricks Dolly.

Seperti yang anda lihat, kandungan yang dijana oleh model 6 bilion parameter asal (GPT-J) adalah tidak tepat sama sekali dan Dolly memberikan tweet yang boleh digunakan sepenuhnya— —

Bukan sahaja kandungan memenuhi keperluan, tetapi ia juga ditambah dengan teg dan pautan dengan teliti untuk mengingatkan anda supaya menyertai siaran.

Klon ChatGPT dengan ambang sifar! Selepas 30 minit latihan, prestasi 6 bilion parameter adalah setanding dengan GPT-3.5

Untuk soalan ini, jawapan yang diberikan oleh ChatGPT juga selari dengan jangkaan Berbanding dengan Dolly, tweet yang diberikan oleh ChatGPT mengandungi lebih Ada perkataan dan ayat yang lebih deskriptif, dan labelnya lebih tepat dan spesifik, tetapi perbezaan keseluruhannya tidaklah besar.

Klon ChatGPT dengan ambang sifar! Selepas 30 minit latihan, prestasi 6 bilion parameter adalah setanding dengan GPT-3.5

Apabila menulis iklan untuk menjual kamera Nikon D-750, anda boleh melihat bahawa kandungan yang dijana oleh GPT-J pada asasnya Menyusun secara rawak cerita tentang jual beli kamera seperti menulis novel...

Dan Dolly memberikan cerita yang menarik berdasarkan ciri-ciri dan kelebihan slogan jualan semula kamera Nikon D-750, tetapi malangnya parameter piksel adalah salah.

Klon ChatGPT dengan ambang sifar! Selepas 30 minit latihan, prestasi 6 bilion parameter adalah setanding dengan GPT-3.5

CtGPT juga berjaya menyelesaikan tugasan pada soalan ini Slogan pengiklanan menyerlahkan kelebihan kamera ini, dan teg masih ditambah dengan teliti di akhir artikel. ​

Klon ChatGPT dengan ambang sifar! Selepas 30 minit latihan, prestasi 6 bilion parameter adalah setanding dengan GPT-3.5

Soalan terakhir: Tulis buku kepada Edgar Allan Poe.

Dalam hal ini, GPT-J purba secara langsung enggan menjawab Alasannya ternyata - Edgar Allan Poe telah meninggal dunia, dan anda tidak boleh menulis surat cinta kepada orang mati.

Dolly berjaya menyelesaikan tugasan itu, dan kesannya boleh dipanggil "Nirvana" sebagai perbandingan.

Klon ChatGPT dengan ambang sifar! Selepas 30 minit latihan, prestasi 6 bilion parameter adalah setanding dengan GPT-3.5

Dan masalah "kreatif" seperti ini jelas merupakan kekuatan ChatGPT Ia menulis lebih daripada 300 perkataan dengan fasih.

Klon ChatGPT dengan ambang sifar! Selepas 30 minit latihan, prestasi 6 bilion parameter adalah setanding dengan GPT-3.5

Soal Jawab Terbuka

Dalam ujian soal jawab soalan fakta, pasukan memilih yang berikut : "Jelaskan kepada saya perbezaan antara pembelahan nuklear dan gabungan nuklear." menyebut " Perkataan "gabungan" digunakan, tetapi "pembelahan" diabaikan sepenuhnya.

Dolly secara langsung menunjukkan topik dalam ayat pertama - perbezaan antara pembelahan nuklear dan pelakuran nuklear terletak pada cara melepaskan tenaga, dan kemudian menerangkan secara ringkas perbezaannya.

Sebaliknya, jawapan yang diberikan oleh ChatGPT jelas lebih bermaklumat. Klon ChatGPT dengan ambang sifar! Selepas 30 minit latihan, prestasi 6 bilion parameter adalah setanding dengan GPT-3.5

Brainstorming

Apabila diminta untuk membuat brainstorming senarai lima novel fiksyen sains yang patut mereka baca, GPT-J hanya menggumam sesuatu seperti saya tenggelam dalam rasa bersalah yang disebabkan oleh penangguhan. membaca, dan mengelak sepenuhnya soalan ini.

Dolly stabil seperti biasa dan mengikut arahan untuk memberikan tajuk 5 novel fiksyen sains dan pengarangnya.

Klon ChatGPT dengan ambang sifar! Selepas 30 minit latihan, prestasi 6 bilion parameter adalah setanding dengan GPT-3.5

CtGPT memberikan jawapan yang lebih kaya untuk soalan ini, termasuk bukan sahaja tajuk dan pengarang buku, tetapi juga kandungan dan jenis setiap buku A brief ulasan dan pengenalan telah diberikan.

Klon ChatGPT dengan ambang sifar! Selepas 30 minit latihan, prestasi 6 bilion parameter adalah setanding dengan GPT-3.5

Jika anda mahu Tutup, saya akan Buka

Bagi kebanyakan syarikat, mereka lebih suka membina sendiri model yang kurang berkuasa. Anda juga tidak mahu menghantar data kepada vendor model bahasa besar yang hanya menyediakan API.

Salah satu sebab penting ialah soalan dan set data ini merupakan harta intelek yang paling sensitif dan proprietari syarikat, dan jelas sekali tidak boleh dipercayai untuk menyerahkannya terus kepada pihak ketiga.

Selain itu, syarikat sendiri mungkin mempunyai pertukaran yang berbeza dalam kualiti model, kos dan tingkah laku yang diingini, dan model bahasa yang boleh disesuaikan lebih sesuai dengan keperluan mereka.

Kini, keluaran Dolly memberi harapan kepada mereka - malah model bahasa besar (LLM) sumber terbuka yang "ketinggalan zaman" boleh dilatih selama 30 minit untuk memberikannya ajaib Serupa dengan arahan ChatGPT berikutan kebolehan.

Tidak sukar untuk membayangkan bahawa model bahasa besar mungkin tidak lagi eksklusif untuk gergasi AI!

Seperti kata CEO syarikat Ali Ghodsi, "Kepercayaan kami ialah setiap organisasi di dunia boleh memanfaatkan teknologi ini."

Atas ialah kandungan terperinci Klon ChatGPT dengan ambang sifar! Selepas 30 minit latihan, prestasi 6 bilion parameter adalah setanding dengan GPT-3.5. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!

Kenyataan:
Artikel ini dikembalikan pada:51cto.com. Jika ada pelanggaran, sila hubungi admin@php.cn Padam