Rumah >Peranti teknologi >AI >Bercakap tentang AI berpusatkan data di sebalik model GPT
Kecerdasan buatan (AI) membuat kemajuan besar dalam mengubah cara kita hidup, bekerja dan berinteraksi dengan teknologi. Baru-baru ini, bidang di mana kemajuan ketara telah dicapai ialah pembangunan model bahasa besar (LLM) seperti GPT-3, ChatGPT dan GPT-4. Model ini boleh melaksanakan tugas dengan tepat seperti terjemahan bahasa, ringkasan teks dan menjawab soalan.
Walaupun sukar untuk mengabaikan saiz model LLM yang semakin meningkat, adalah sama penting untuk menyedari bahawa kejayaan mereka sebahagian besarnya disebabkan oleh jumlah data yang besar yang digunakan untuk melatih mereka data berkualiti tinggi.
Dalam artikel ini, kami akan memberikan gambaran keseluruhan kemajuan terkini dalam LLM daripada perspektif AI yang mengutamakan data. Kami akan memeriksa model GPT melalui lensa AI berpusatkan data, konsep yang semakin berkembang dalam komuniti sains data. Kami mendedahkan konsep AI tertumpu data di sebalik model GPT dengan membincangkan tiga matlamat AI tertumpu data: pembangunan data latihan, pembangunan data inferens dan penyelenggaraan data.
LLM ialah model pemprosesan bahasa semula jadi yang dilatih untuk membuat kesimpulan perkataan dalam konteks. Sebagai contoh, fungsi paling asas LLM adalah untuk meramalkan penanda yang hilang berdasarkan konteks. Untuk tujuan ini, LLM dilatih untuk meramalkan kebarangkalian setiap perkataan calon daripada jumlah data yang besar. Rajah di bawah ialah contoh ilustrasi menggunakan LLM dalam konteks untuk meramalkan kebarangkalian penanda hilang.
Model GPT merujuk kepada siri LLM yang dicipta oleh OpenAI, seperti GPT-1, GPT-2, GPT-3, InstructGPT, ChatGPT/GPT-4, dsb. . Seperti LLM lain, seni bina model GPT terutamanya berdasarkan Transformers, yang menggunakan pembenaman teks dan lokasi sebagai input dan menggunakan lapisan perhatian untuk memodelkan hubungan token.
Seni bina model GPT-1
Model GPT kemudiannya menggunakan seni bina yang serupa dengan GPT-1, kecuali mereka menggunakan lebih banyak parameter model dan lebih banyak lapisan panjang konteks, saiz lapisan tersembunyi, dsb.
AI berpusatkan data ialah cara pemikiran baharu yang muncul tentang cara membina sistem AI. AI berpusatkan data ialah disiplin mereka bentuk data secara sistematik yang digunakan untuk membina sistem kecerdasan buatan.
Pada masa lalu, kami telah memberi tumpuan terutamanya pada mencipta model yang lebih baik sambil mengekalkan data yang sebahagian besarnya tidak berubah (AI berpusatkan model). Walau bagaimanapun, pendekatan ini boleh menyebabkan masalah di dunia nyata kerana ia tidak mengambil kira isu berbeza yang boleh timbul dalam data, seperti ketidaktepatan label, pertindihan dan berat sebelah. Oleh itu, "overfitting" set data tidak semestinya membawa kepada tingkah laku model yang lebih baik.
Sebaliknya, AI berpusatkan data memfokuskan pada meningkatkan kualiti dan kuantiti data yang digunakan untuk membina sistem AI. Ini bermakna perhatian adalah pada data itu sendiri, dan modelnya secara relatifnya lebih tetap. Menggunakan pendekatan berpusatkan data untuk membangunkan sistem AI mempunyai potensi yang lebih besar dalam senario dunia sebenar, kerana data yang digunakan untuk latihan akhirnya menentukan keupayaan maksimum model.
Perlu diambil perhatian bahawa terdapat perbezaan asas antara "berpusatkan data" dan "berpandukan data". bukannya data.
Perbandingan antara kecerdasan buatan tertumpu data dan kecerdasan buatan tertumpu model
Rangka kerja AI tertumpu data mengandungi tiga Sasaran:
Rangka kerja AI mengutamakan data
Beberapa bulan yang lalu , Yann LeCun tweet bahawa ChatGPT bukanlah perkara baru. Sebenarnya, semua teknik yang digunakan dalam ChatGPT dan GPT-4 (transformer, pembelajaran pengukuhan daripada maklum balas manusia, dll.) bukanlah baru sama sekali. Walau bagaimanapun, mereka mencapai keputusan yang tidak mungkin dengan model sebelumnya. Jadi, apakah sebab kejayaan mereka?
Melatih pembangunan data. Kuantiti dan kualiti data yang digunakan untuk melatih model GPT telah meningkat dengan ketara melalui pengumpulan data, pelabelan data dan strategi penyediaan data yang lebih baik.
Pembangunan data inferens. Memandangkan model GPT terbaharu cukup berkuasa, kami boleh mencapai pelbagai matlamat dengan melaraskan pembayang atau melaraskan data inferens semasa model dibetulkan. Sebagai contoh, kita boleh melakukan ringkasan teks dengan menyediakan teks untuk diringkaskan dan arahan seperti "ringkaskan" atau "TL;DR" untuk membimbing proses penaakulan.
Merancang gesaan penaakulan yang betul ialah tugas yang mencabar. Ia sangat bergantung pada heuristik. Tinjauan yang baik meringkaskan kaedah promosi yang berbeza. Kadangkala, isyarat yang serupa secara semantik pun boleh mempunyai output yang sangat berbeza. Dalam kes ini, penentukuran berasaskan kiu lembut mungkin diperlukan untuk mengurangkan varians.
Penyelidikan mengenai pembangunan data inferens LLM masih di peringkat awal. Dalam masa terdekat, lebih banyak teknik pembangunan data inferensi yang telah digunakan untuk tugasan lain boleh digunakan dalam LLM.
Penyelenggaraan data. Sebagai produk komersial, ChatGPT/GPT-4 bukan sahaja dilatih sekali, tetapi juga dikemas kini dan diselenggara secara berterusan. Jelas sekali, kami tidak mempunyai cara untuk mengetahui cara penyelenggaraan data dilakukan di luar OpenAI. Oleh itu, kami membincangkan beberapa strategi AI berpusatkan data umum yang telah atau mungkin akan digunakan untuk model GPT:
- Pengumpulan data berterusan: Apabila kami menggunakan ChatGPT/GPT-4 Petua/maklum balas kami mungkin seterusnya digunakan oleh OpenAI untuk memajukan lagi model mereka. Metrik kualiti dan strategi jaminan mungkin telah direka dan dilaksanakan untuk mengumpul data berkualiti tinggi semasa proses.
- Alat Memahami Data: Pelbagai alat boleh dibangunkan untuk menggambarkan dan memahami data pengguna, menggalakkan pemahaman yang lebih baik tentang keperluan pengguna dan membimbing arah penambahbaikan masa hadapan.
- Pemprosesan data yang cekap: Dengan pertumbuhan pesat bilangan pengguna ChatGPT/GPT-4, sistem pengurusan data yang cekap diperlukan untuk mencapai pengumpulan data yang pantas.
Gambar di atas adalah contoh ChatGPT/GPT-4 mengumpul maklum balas pengguna melalui "suka" dan "tidak suka".
Kejayaan LLM telah merevolusikan kecerdasan buatan. Melangkah ke hadapan, LLM boleh merevolusikan lagi kitaran hayat sains data. Kami membuat dua ramalan:
Banyak tugas sains data yang membosankan boleh menjadi lebih berkesan dengan bantuan LLM yang dijalankan. Contohnya, ChaGPT/GPT-4 sudah memungkinkan untuk menulis kod kerja untuk memproses dan membersihkan data. Tambahan pula, LLM juga boleh digunakan untuk mencipta data latihan. Contohnya, menggunakan LLM untuk menjana data sintetik boleh meningkatkan prestasi model dalam perlombongan teks.
Atas ialah kandungan terperinci Bercakap tentang AI berpusatkan data di sebalik model GPT. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!