Klon ChatGPT dengan ambang sifar! Selepas 30 minit latihan, prestasi 6 bilion parameter adalah setanding dengan GPT-3.5-AI-php.cn

Rumah

Peranti teknologi

Klon ChatGPT dengan ambang sifar! Selepas 30 minit latihan, prestasi 6 bilion parameter adalah setanding dengan GPT-3.5

王林

Apr 11, 2023 pm 08:55 PM

chatgptklon

Sebelum ini, insiden OpenAI tidak dibuka telah menimbulkan banyak kontroversi kepada orang ramai.

Hanya mengeluarkan penanda aras dan keputusan ujian tanpa menyediakan data latihan, kos dan kaedah adalah benar-benar situasi "pemenang mengambil semua".

Klon ChatGPT dengan ambang sifar! Selepas 30 minit latihan, prestasi 6 bilion parameter adalah setanding dengan GPT-3.5

Melihat model bahasa besar seolah-olah dimonopoli oleh syarikat gergasi, kini syarikat permulaan tiba-tiba muncul dan memberikan OpenAI peluang - dengan 6 bilion Parameter "Dolly" melaksanakan keupayaan yang serupa dengan ChatGPT.

Ya, kami hanya perlu menyediakan beberapa data latihan berkualiti tinggi sekarang, dan kemudian secara rawak mengambil model bahasa sumber terbuka yang besar Selepas latihan selama 30 minit, kami boleh mendapatkan ChatGPT "penggantian" ”!

Dalam hal ini, Databricks dengan bangganya menyatakan bahawa pengeluaran Dolly adalah langkah pertamanya dalam menuju pendemokrasian teknologi kecerdasan buatan.

Klon ChatGPT dengan ambang sifar! Selepas 30 minit latihan, prestasi 6 bilion parameter adalah setanding dengan GPT-3.5

6 bilion parameter adalah setanding dengan ChatGPT dan boleh dilatih dalam masa 30 minit

Kerana ChatGPT menggunakan banyak data dan pengkomputeran sumber (Latihan menggunakan trilion perkataan menggunakan banyak GPU), jadi model bahasa besar jenis ini ditakdirkan untuk dikuasai hanya oleh beberapa gergasi.

Bertentangan dengan "CloseAI", Meta mengeluarkan satu set model bahasa LLaMA berkualiti tinggi (tetapi tidak mengikut arahan) kepada komuniti akademik pada bulan Mac tahun ini model melebihi 80,000 jam GPU.

Stanford kemudian membina Alpaca berdasarkan LLaMA, tetapi perbezaannya ialah ia telah diperhalusi menggunakan set data kecil 50,000 soalan dan jawapan. Yang menghairankan, ini memberikan interaktiviti Alpaca serupa dengan ChatGPT.

Dan Dolly diilhamkan oleh Alpaca.

Apa yang lebih menarik ialah Dolly, yang mempunyai 6 bilion parameter, tidak menggunakan model terbaharu, tetapi memilih model sumber terbuka yang dikeluarkan pada 2021-GPT-J.

Memandangkan Dolly sendiri adalah "klon" model, pasukan akhirnya memutuskan untuk menamakannya "Dolly" - haiwan klon pertama yang pernah ada.

Klon ChatGPT dengan ambang sifar! Selepas 30 minit latihan, prestasi 6 bilion parameter adalah setanding dengan GPT-3.5

Berbanding dengan model bahasa besar semasa (seperti GPT-3), Dolly membenarkan pengguna menggunakan model yang lebih kecil dan lebih profesional, "Complex The ability untuk "mengukir" ChatGPT.

Lagipun, bagi pengguna khusus tersebut, dapat memanfaatkan model yang telah diperhalusi untuk industri mereka boleh meningkatkan prestasi dan ketepatan dengan ketara.

Walaupun Databricks tidak bersaing secara langsung dengan OpenAI, ia nampaknya cuba mencuri tumpuan OpenAI dengan membuktikan bahawa membina perkhidmatan seperti ChatGPT tidaklah sesukar yang disangka.

Khususnya, OpenAI telah mengambil pendekatan "lebih besar adalah lebih baik" untuk membangunkan model bahasa dan telah menjadi semakin berahsia tentang kerjanya.

Selain mengeluarkan Dolly sebagai perisian sumber terbuka, Databricks turut menekankan bahawa Dolly hanya mempunyai 6 bilion parameter (bahagian model bahasa yang diperhalusi semasa latihan), manakala OpenAI Model GPT-3 mempunyai 175 bilion parameter. (OpenAI tidak mendedahkan bilangan parameter untuk GPT-4).

Klon ChatGPT dengan ambang sifar! Selepas 30 minit latihan, prestasi 6 bilion parameter adalah setanding dengan GPT-3.5

Biar model lama dilahirkan semula

Selepas menilai Dolly berdasarkan arahan mengikut keupayaan yang diterangkan dalam kertas InstructGPT, kami dapati bahawa Prestasinya sangat serupa dengan ChatGPT dalam banyak keupayaan, termasuk penjanaan teks, sumbang saran dan soal jawab terbuka.

Apa yang patut diberi perhatian dalam contoh ini bukanlah kualiti teks yang dijana, tetapi peningkatan besar dalam arahan berikutan keupayaan yang datang daripada penalaan halus model sumber terbuka lama pada set data kecil dan berkualiti tinggi.

Penjanaan kandungan

Sebagai contoh, tulis tweet tentang pengumuman rasmi model bahasa berskala besar Databricks Dolly.

Seperti yang anda lihat, kandungan yang dijana oleh model 6 bilion parameter asal (GPT-J) adalah tidak tepat sama sekali dan Dolly memberikan tweet yang boleh digunakan sepenuhnya— —

Bukan sahaja kandungan memenuhi keperluan, tetapi ia juga ditambah dengan teg dan pautan dengan teliti untuk mengingatkan anda supaya menyertai siaran.

Klon ChatGPT dengan ambang sifar! Selepas 30 minit latihan, prestasi 6 bilion parameter adalah setanding dengan GPT-3.5

Untuk soalan ini, jawapan yang diberikan oleh ChatGPT juga selari dengan jangkaan Berbanding dengan Dolly, tweet yang diberikan oleh ChatGPT mengandungi lebih Ada perkataan dan ayat yang lebih deskriptif, dan labelnya lebih tepat dan spesifik, tetapi perbezaan keseluruhannya tidaklah besar.

Klon ChatGPT dengan ambang sifar! Selepas 30 minit latihan, prestasi 6 bilion parameter adalah setanding dengan GPT-3.5

Apabila menulis iklan untuk menjual kamera Nikon D-750, anda boleh melihat bahawa kandungan yang dijana oleh GPT-J pada asasnya Menyusun secara rawak cerita tentang jual beli kamera seperti menulis novel...

Dan Dolly memberikan cerita yang menarik berdasarkan ciri-ciri dan kelebihan slogan jualan semula kamera Nikon D-750, tetapi malangnya parameter piksel adalah salah.

Klon ChatGPT dengan ambang sifar! Selepas 30 minit latihan, prestasi 6 bilion parameter adalah setanding dengan GPT-3.5

CtGPT juga berjaya menyelesaikan tugasan pada soalan ini Slogan pengiklanan menyerlahkan kelebihan kamera ini, dan teg masih ditambah dengan teliti di akhir artikel.

Klon ChatGPT dengan ambang sifar! Selepas 30 minit latihan, prestasi 6 bilion parameter adalah setanding dengan GPT-3.5

Soalan terakhir: Tulis buku kepada Edgar Allan Poe.

Dalam hal ini, GPT-J purba secara langsung enggan menjawab Alasannya ternyata - Edgar Allan Poe telah meninggal dunia, dan anda tidak boleh menulis surat cinta kepada orang mati.

Dolly berjaya menyelesaikan tugasan itu, dan kesannya boleh dipanggil "Nirvana" sebagai perbandingan.

Klon ChatGPT dengan ambang sifar! Selepas 30 minit latihan, prestasi 6 bilion parameter adalah setanding dengan GPT-3.5

Dan masalah "kreatif" seperti ini jelas merupakan kekuatan ChatGPT Ia menulis lebih daripada 300 perkataan dengan fasih.

Klon ChatGPT dengan ambang sifar! Selepas 30 minit latihan, prestasi 6 bilion parameter adalah setanding dengan GPT-3.5

Soal Jawab Terbuka

Dalam ujian soal jawab soalan fakta, pasukan memilih yang berikut : "Jelaskan kepada saya perbezaan antara pembelahan nuklear dan gabungan nuklear." menyebut " Perkataan "gabungan" digunakan, tetapi "pembelahan" diabaikan sepenuhnya.

Dolly secara langsung menunjukkan topik dalam ayat pertama - perbezaan antara pembelahan nuklear dan pelakuran nuklear terletak pada cara melepaskan tenaga, dan kemudian menerangkan secara ringkas perbezaannya.

Sebaliknya, jawapan yang diberikan oleh ChatGPT jelas lebih bermaklumat. Klon ChatGPT dengan ambang sifar! Selepas 30 minit latihan, prestasi 6 bilion parameter adalah setanding dengan GPT-3.5

Brainstorming

Apabila diminta untuk membuat brainstorming senarai lima novel fiksyen sains yang patut mereka baca, GPT-J hanya menggumam sesuatu seperti saya tenggelam dalam rasa bersalah yang disebabkan oleh penangguhan. membaca, dan mengelak sepenuhnya soalan ini.

Dolly stabil seperti biasa dan mengikut arahan untuk memberikan tajuk 5 novel fiksyen sains dan pengarangnya.

Klon ChatGPT dengan ambang sifar! Selepas 30 minit latihan, prestasi 6 bilion parameter adalah setanding dengan GPT-3.5

CtGPT memberikan jawapan yang lebih kaya untuk soalan ini, termasuk bukan sahaja tajuk dan pengarang buku, tetapi juga kandungan dan jenis setiap buku A brief ulasan dan pengenalan telah diberikan.

Klon ChatGPT dengan ambang sifar! Selepas 30 minit latihan, prestasi 6 bilion parameter adalah setanding dengan GPT-3.5

Jika anda mahu Tutup, saya akan Buka

Bagi kebanyakan syarikat, mereka lebih suka membina sendiri model yang kurang berkuasa. Anda juga tidak mahu menghantar data kepada vendor model bahasa besar yang hanya menyediakan API.

Salah satu sebab penting ialah soalan dan set data ini merupakan harta intelek yang paling sensitif dan proprietari syarikat, dan jelas sekali tidak boleh dipercayai untuk menyerahkannya terus kepada pihak ketiga.

Selain itu, syarikat sendiri mungkin mempunyai pertukaran yang berbeza dalam kualiti model, kos dan tingkah laku yang diingini, dan model bahasa yang boleh disesuaikan lebih sesuai dengan keperluan mereka.

Kini, keluaran Dolly memberi harapan kepada mereka - malah model bahasa besar (LLM) sumber terbuka yang "ketinggalan zaman" boleh dilatih selama 30 minit untuk memberikannya ajaib Serupa dengan arahan ChatGPT berikutan kebolehan.

Tidak sukar untuk membayangkan bahawa model bahasa besar mungkin tidak lagi eksklusif untuk gergasi AI!

Seperti kata CEO syarikat Ali Ghodsi, "Kepercayaan kami ialah setiap organisasi di dunia boleh memanfaatkan teknologi ini."

Atas ialah kandungan terperinci Klon ChatGPT dengan ambang sifar! Selepas 30 minit latihan, prestasi 6 bilion parameter adalah setanding dengan GPT-3.5. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!

Kenyataan

Artikel ini dikembalikan pada:51CTO.COM. Jika ada pelanggaran, sila hubungi admin@php.cn Padam

Artikel Berkaitan

Skop Gemma: Mikroskop Google ' s untuk mengintip ke proses pemikiran AI 'Apr 17, 2025 am 11:55 AM

Meneroka kerja -kerja dalam model bahasa dengan skop Gemma Memahami kerumitan model bahasa AI adalah satu cabaran penting. Pelepasan Google Gemma Skop, Toolkit Komprehensif, menawarkan penyelidik cara yang kuat untuk menyelidiki

Siapa penganalisis perisikan perniagaan dan bagaimana menjadi satu?Apr 17, 2025 am 11:44 AM

Membuka Kejayaan Perniagaan: Panduan untuk Menjadi Penganalisis Perisikan Perniagaan Bayangkan mengubah data mentah ke dalam pandangan yang boleh dilakukan yang mendorong pertumbuhan organisasi. Ini adalah kuasa penganalisis Perniagaan Perniagaan (BI) - peranan penting dalam GU

Bagaimana untuk menambah lajur dalam SQL? - Analytics VidhyaApr 17, 2025 am 11:43 AM

Pernyataan Jadual Alter SQL: Menambah lajur secara dinamik ke pangkalan data anda Dalam pengurusan data, kebolehsuaian SQL adalah penting. Perlu menyesuaikan struktur pangkalan data anda dengan cepat? Pernyataan Jadual ALTER adalah penyelesaian anda. Butiran panduan ini menambah colu

Penganalisis Perniagaan vs Penganalisis DataApr 17, 2025 am 11:38 AM

Pengenalan Bayangkan pejabat yang sibuk di mana dua profesional bekerjasama dalam projek kritikal. Penganalisis perniagaan memberi tumpuan kepada objektif syarikat, mengenal pasti bidang penambahbaikan, dan memastikan penjajaran strategik dengan trend pasaran. Simu

Apakah Count dan Counta dalam Excel? - Analytics VidhyaApr 17, 2025 am 11:34 AM

Pengiraan dan Analisis Data Excel: Penjelasan terperinci mengenai fungsi Count dan Counta Pengiraan dan analisis data yang tepat adalah kritikal dalam Excel, terutamanya apabila bekerja dengan set data yang besar. Excel menyediakan pelbagai fungsi untuk mencapai matlamat ini, dengan fungsi Count dan CountA menjadi alat utama untuk mengira bilangan sel di bawah keadaan yang berbeza. Walaupun kedua -dua fungsi digunakan untuk mengira sel, sasaran reka bentuk mereka disasarkan pada jenis data yang berbeza. Mari menggali butiran khusus fungsi Count dan Counta, menyerlahkan ciri dan perbezaan unik mereka, dan belajar cara menerapkannya dalam analisis data. Gambaran keseluruhan perkara utama Memahami kiraan dan cou

Chrome ada di sini dengan AI: mengalami sesuatu yang baru setiap hari !!Apr 17, 2025 am 11:29 AM

Revolusi AI Google Chrome: Pengalaman melayari yang diperibadikan dan cekap Kecerdasan Buatan (AI) dengan cepat mengubah kehidupan seharian kita, dan Google Chrome mengetuai pertuduhan di arena pelayaran web. Artikel ini meneroka exciti

Sisi Manusia Ai ' s: Kesejahteraan dan garis bawah empat kali gandaApr 17, 2025 am 11:28 AM

Impak Reimagining: garis bawah empat kali ganda Selama terlalu lama, perbualan telah dikuasai oleh pandangan sempit kesan AI, terutama memberi tumpuan kepada keuntungan bawah. Walau bagaimanapun, pendekatan yang lebih holistik mengiktiraf kesalinghubungan BU

5 Kes Pengkomputeran Kuantum Mengubah Permainan Yang Harus Anda KetahuiApr 17, 2025 am 11:24 AM

Perkara bergerak terus ke arah itu. Pelaburan yang dicurahkan ke dalam penyedia perkhidmatan kuantum dan permulaan menunjukkan bahawa industri memahami kepentingannya. Dan semakin banyak kes penggunaan dunia nyata muncul untuk menunjukkan nilainya

See all articles

Alat AI Hot

Undresser.AI Undress

Apl berkuasa AI untuk mencipta foto bogel yang realistik

AI Clothes Remover

Alat AI dalam talian untuk mengeluarkan pakaian daripada foto.

Undress AI Tool

Gambar buka pakaian secara percuma

Clothoff.io

Penyingkiran pakaian AI

AI Hentai Generator

Menjana ai hentai secara percuma.

Tunjukkan Lagi

Artikel Panas

R.E.P.O. Kristal tenaga dijelaskan dan apa yang mereka lakukan (kristal kuning)

1 bulan yang laluBy尊渡假赌尊渡假赌尊渡假赌

R.E.P.O. Tetapan grafik terbaik

1 bulan yang laluBy尊渡假赌尊渡假赌尊渡假赌

Assassin's Creed Shadows: Penyelesaian Riddle Seashell

3 minggu yang laluByDDD

Apa yang Baru di Windows 11 KB5054979 & Cara Memperbaiki Masalah Kemas Kini

2 minggu yang laluByDDD

Akan R.E.P.O. Ada Crossplay?

1 bulan yang laluBy尊渡假赌尊渡假赌尊渡假赌

Tunjukkan Lagi

Alat panas

Hantar Studio 13.0.1

Persekitaran pembangunan bersepadu PHP yang berkuasa

Versi Mac WebStorm

Alat pembangunan JavaScript yang berguna

SublimeText3 versi Mac

Perisian penyuntingan kod peringkat Tuhan (SublimeText3)

DVWA

Damn Vulnerable Web App (DVWA) ialah aplikasi web PHP/MySQL yang sangat terdedah. Matlamat utamanya adalah untuk menjadi bantuan bagi profesional keselamatan untuk menguji kemahiran dan alatan mereka dalam persekitaran undang-undang, untuk membantu pembangun web lebih memahami proses mengamankan aplikasi web, dan untuk membantu guru/pelajar mengajar/belajar dalam persekitaran bilik darjah Aplikasi web keselamatan. Matlamat DVWA adalah untuk mempraktikkan beberapa kelemahan web yang paling biasa melalui antara muka yang mudah dan mudah, dengan pelbagai tahap kesukaran. Sila ambil perhatian bahawa perisian ini

Dreamweaver Mac版

Alat pembangunan web visual

Tunjukkan Lagi

Topik panas

Di manakah pintu masuk log masuk untuk e-mel gmail?

7547

Tutorial CakePHP

1382

Apakah format nama akaun stim

kunci pengaktifan win11 kekal

Sambungan NYT menunjukkan dan jawapan

Tunjukkan Lagi