Rumah  >  Artikel  >  Peranti teknologi  >  Kekurangan data berkualiti tinggi untuk melatih model besar? Kami menemui penyelesaian baharu

Kekurangan data berkualiti tinggi untuk melatih model besar? Kami menemui penyelesaian baharu

WBOY
WBOYke hadapan
2023-09-18 17:37:01769semak imbas

Data, sebagai salah satu daripada tiga faktor utama yang menentukan prestasi model pembelajaran mesin, menjadi halangan yang menyekat pembangunan model besar. Seperti kata pepatah "Sampah masuk, sampah keluar" [1], tidak kira betapa baiknya algoritma anda dan sehebat mana sumber pengkomputeran anda, kualiti model secara langsung bergantung pada data yang anda gunakan untuk melatih model.

Dengan kemunculan pelbagai model besar sumber terbuka, kepentingan data diserlahkan lagi, terutamanya data industri berkualiti tinggi. Bloomberg membina model kewangan besar BloombergGPT berdasarkan rangka kerja GPT-3 sumber terbuka, yang membuktikan kebolehlaksanaan membangunkan model besar untuk industri menegak berdasarkan rangka kerja model besar sumber terbuka. Malah, membina atau menyesuaikan model besar ringan sumber tertutup untuk industri menegak ialah laluan yang dipilih oleh kebanyakan syarikat permulaan model besar di China.

Dalam trek ini, data industri menegak berkualiti tinggi, penalaan halus dan keupayaan penjajaran berdasarkan pengetahuan profesional adalah penting - BloombergGPT adalah berdasarkan dokumen kewangan yang dikumpul oleh Bloomberg selama lebih daripada 40 tahun, dan korpus latihan mempunyai lebih banyak daripada 700 bilion token[2].

Walau bagaimanapun, mendapatkan data berkualiti tinggi bukanlah mudah. Beberapa kajian telah menunjukkan bahawa pada kadar semasa di mana model besar memakan data, data bahasa domain awam berkualiti tinggi, seperti buku, laporan berita, kertas saintifik, Wikipedia, dan lain-lain, akan kehabisan sekitar 2026 [3].

Terdapat sedikit sumber data Cina berkualiti tinggi yang tersedia secara terbuka, dan perkhidmatan data profesional domestik masih di peringkat awal Pengumpulan data, pembersihan, pelabelan dan pengesahan memerlukan banyak tenaga kerja dan sumber material. Dilaporkan bahawa kos mengumpul dan membersihkan 3TB data Cina berkualiti tinggi untuk pasukan model besar universiti domestik, termasuk memuat turun lebar jalur data, sumber storan data (data asal yang tidak dibersihkan ialah kira-kira 100TB) dan kos sumber CPU untuk pembersihan data, berjumlah kira-kira ratusan ribu Yuan.

Memandangkan pembangunan model besar semakin mendalam, untuk melatih model industri menegak yang memenuhi keperluan industri dan mempunyai ketepatan yang sangat tinggi, lebih banyak kepakaran industri dan malah data domain peribadi sulit komersial diperlukan. Walau bagaimanapun, disebabkan keperluan perlindungan privasi dan kesukaran dalam mengesahkan hak dan membahagikan keuntungan, syarikat sering tidak mahu, tidak dapat atau takut untuk berkongsi data mereka.

Adakah terdapat penyelesaian yang bukan sahaja dapat menikmati faedah keterbukaan dan perkongsian data, tetapi juga melindungi keselamatan dan privasi data?

Bolehkah pengkomputeran privasi memecahkan dilema?

Pengiraan yang memelihara privasi boleh menganalisis, memproses dan menggunakan data tanpa memastikan bahawa pembekal data tidak mendedahkan data asal Ia dianggap sebagai teknologi utama untuk menggalakkan peredaran dan transaksi elemen data[4] , Oleh itu, menggunakan pengkomputeran privasi untuk melindungi keselamatan data model besar nampaknya merupakan pilihan semula jadi.

Kekurangan data berkualiti tinggi untuk melatih model besar? Kami menemui penyelesaian baharu

Pengkomputeran privasi bukan teknologi, tetapi sistem teknikal. Mengikut pelaksanaan khusus, pengkomputeran privasi terbahagi terutamanya kepada laluan kriptografi yang diwakili oleh pengkomputeran selamat berbilang pihak, laluan pengkomputeran sulit yang diwakili oleh persekitaran pelaksanaan yang dipercayai, dan laluan kecerdasan buatan yang diwakili oleh pembelajaran bersekutu [5].

Walau bagaimanapun, dalam aplikasi praktikal, pengkomputeran privasi mempunyai beberapa had. Sebagai contoh, pengenalan SDK pengkomputeran privasi biasanya membawa kepada pengubahsuaian peringkat kod kepada sistem perniagaan asal [6]. Jika ia dilaksanakan berdasarkan kriptografi, operasi penyulitan dan penyahsulitan akan meningkatkan jumlah pengiraan secara eksponen, dan pengiraan teks sifir memerlukan sumber pengkomputeran dan penyimpanan serta beban komunikasi yang lebih besar [7].

Selain itu, penyelesaian pengkomputeran privasi sedia ada akan menghadapi beberapa masalah baharu dalam senario latihan model besar yang melibatkan jumlah data yang sangat besar.

Skim Berasaskan Pembelajaran Bersekutu

Mari kita lihat dahulu kesukaran pembelajaran bersekutu. Idea teras pembelajaran bersekutu ialah "data tidak bergerak tetapi model bergerak". Setiap peranti atau pelayan mengambil bahagian dalam proses latihan dengan menghantar kemas kini model ke pelayan pusat, yang mengagregat dan menggabungkan kemas kini ini untuk menambah baik model global [8].

Walau bagaimanapun, latihan berpusat model besar sudah sangat sukar, dan kaedah latihan yang diedarkan sangat meningkatkan kerumitan sistem. Kami juga perlu mempertimbangkan kepelbagaian data apabila model dilatih pada pelbagai peranti, dan cara mengagregat pemberat pembelajaran dengan selamat merentas semua peranti - untuk latihan model besar, pemberat model itu sendiri merupakan aset penting. Selain itu, penyerang mesti dihalang daripada membuat kesimpulan data peribadi daripada kemas kini model tunggal, dan pertahanan yang sepadan akan meningkatkan lagi overhed latihan.

Penyelesaian berasaskan kriptografi

Penyulitan homomorfik boleh mengira secara langsung data yang disulitkan, menjadikan data itu "tersedia dan tidak kelihatan" [9]. Penyulitan homomorfik ialah alat yang berkuasa untuk melindungi privasi dalam senario di mana data sensitif diproses atau dianalisis dan kerahsiaannya dijamin. Teknik ini boleh digunakan bukan sahaja untuk latihan model besar, tetapi juga untuk membuat inferens sambil melindungi kerahsiaan input pengguna (prompt).

Walau bagaimanapun, menggunakan data yang disulitkan adalah lebih sukar daripada menggunakan data tidak disulitkan untuk latihan dan inferens model besar. Pada masa yang sama, pemprosesan data yang disulitkan memerlukan lebih banyak pengiraan, meningkatkan masa pemprosesan secara eksponen dan meningkatkan lagi keperluan kuasa pengkomputeran yang sudah sangat tinggi untuk melatih model besar.

Penyelesaian berdasarkan persekitaran pelaksanaan yang dipercayai#🎜🎜🎜🎜🎜🎜🎜 Mari kita bercakap tentang penyelesaian berdasarkan Persekitaran Pelaksanaan Dipercayai (TEE). Kebanyakan penyelesaian atau produk TEE memerlukan pembelian peralatan khusus tambahan, seperti nod pengkomputeran selamat berbilang pihak, peralatan persekitaran pelaksanaan yang dipercayai, kad pemecut kriptografi, dsb., dan tidak boleh menyesuaikan diri dengan sumber pengkomputeran dan storan sedia ada, menjadikan penyelesaian ini tidak sesuai untuk kebanyakan orang. perusahaan kecil dan sederhana Ia tidak realistik untuk perusahaan. Di samping itu, penyelesaian TEE semasa terutamanya berdasarkan CPU, manakala latihan model besar sangat bergantung pada GPU. Pada peringkat ini, penyelesaian GPU yang menyokong pengkomputeran privasi masih belum matang, sebaliknya mewujudkan risiko tambahan [10].

Secara umumnya, dalam senario pengkomputeran kolaboratif berbilang pihak, selalunya tidak munasabah untuk menghendaki data mentah menjadi "tidak kelihatan" dalam erti kata fizikal. Selain itu, memandangkan proses penyulitan menambah hingar pada data, latihan atau inferens pada data yang disulitkan juga akan menyebabkan kehilangan prestasi model dan mengurangkan ketepatan model. Penyelesaian pengkomputeran privasi sedia ada tidak sesuai untuk senario latihan model besar dari segi prestasi dan sokongan GPU. Ia juga menghalang perusahaan dan institusi yang mempunyai sumber data berkualiti tinggi daripada membuka dan berkongsi maklumat serta menyertai industri model besar.

Pengkomputeran boleh dikawal, paradigma baharu pengkomputeran persendirian Dilihat sebagai rantaian daripada data ke aplikasi, anda akan mendapati bahawa rantaian ini sebenarnya adalah rantaian edaran pelbagai data (termasuk data asal, termasuk data yang wujud dalam bentuk parameter dalam model) di kalangan entiti yang berbeza, dan perniagaan industri ini Model ini harus dibina berdasarkan data (atau model) yang beredar ini adalah aset yang boleh didagangkan,” kata Dr Tang Zaiyang, Ketua Pegawai Eksekutif YiZhi Technology.

"Peredaran elemen data melibatkan berbilang entiti, dan sumber rantaian industri mestilah pembekal data. Dalam erti kata lain, semua perniagaan sebenarnya disediakan oleh data Fang Lai memulakan bahawa urus niaga hanya boleh dilakukan jika diberi kuasa oleh pembekal data, jadi keutamaan harus diberikan untuk memastikan hak dan kepentingan penyedia data "

#🎜🎜. #Penyelesaian perlindungan privasi arus perdana pada masa ini di pasaran, seperti pengkomputeran selamat berbilang pihak, persekitaran pelaksanaan yang dipercayai dan pembelajaran bersekutu, semuanya menumpukan pada cara pengguna data memproses data perspektif pembekal data.

Yizhi Technology telah ditubuhkan pada 2019 dan diletakkan sebagai penyedia penyelesaian perlindungan privasi untuk kerjasama data. Pada tahun 2021, syarikat itu telah dipilih sebagai kumpulan pertama unit yang mengambil bahagian dalam "Inisiatif Keselamatan Data (DSI)" yang dimulakan oleh Akademi Teknologi Maklumat dan Komunikasi China, dan telah diperakui oleh DSI sebagai salah satu daripada sembilan wakil vendor perusahaan pengkomputeran privasi. . Pada tahun 2022, Yizhi Technology secara rasmi menjadi ahli komuniti sumber terbuka Open Islands, komuniti sumber terbuka pengkomputeran privasi bebas dan terkawal antarabangsa pertama di China, untuk bersama-sama mempromosikan pembinaan infrastruktur utama untuk peredaran elemen data.

Sebagai tindak balas kepada dilema data semasa latihan model besar, serta peredaran elemen data yang lebih luas, Yizhi Technology telah mencadangkan penyelesaian pengkomputeran privasi baharu berdasarkan amalan . Penyelesaian - Pengkomputeran Terkawal.

"Tumpuan teras pengkomputeran terkawal adalah untuk menemui dan berkongsi maklumat dengan cara memelihara privasi. Masalah yang kami selesaikan adalah dalam proses latihan Pastikan keselamatan data yang digunakan dan menghalang model terlatih daripada dicuri dengan niat jahat

" kata Tang Zaiyang.

Khususnya, pengkomputeran boleh dikawal memerlukan pengguna data memproses dan memproses data dalam domain keselamatan yang ditakrifkan oleh pembekal data.

Contoh domain keselamatan dalam senario peredaran data#🎜🎜

Domain keselamatan ialah konsep logik yang merujuk kepada unit storan dan pengkomputeran yang dilindungi oleh kunci yang sepadan dan algoritma penyulitan. Domain keselamatan ditakrifkan dan dikekang oleh pembekal data, tetapi storan dan sumber pengkomputeran yang sepadan tidak disediakan oleh pembekal data. Dari segi fizikal, domain keselamatan berada pada bahagian pengguna data tetapi dikawal oleh pembekal data. Selain data mentah, data perantaraan yang diproses dan diproses serta data hasil juga berada dalam domain keselamatan yang sama.

Dalam domain keselamatan, data boleh menjadi teks sifir (tidak kelihatan) atau teks biasa (kelihatan) Dalam kes plaintext, kerana julat data yang boleh dilihat dikawal, ia dipastikan bahawa data digunakan semasa keselamatan penggunaan). .

Kemerosotan prestasi yang disebabkan oleh pengiraan teks sifir yang kompleks merupakan faktor penting yang mengehadkan skop aplikasi pengkomputeran privasi Dengan menekankan kebolehkawalan data dan bukannya mengejar halimunan secara membuta tuli, pengkomputeran boleh dikawal menyelesaikan masalah penyelesaian pengkomputeran privasi tradisional mengganggu perniagaan, jadi ia sangat sesuai untuk senario latihan model besar yang perlu memproses data berskala sangat besar.

Perusahaan boleh memilih untuk menyimpan data mereka dalam berbilang domain keselamatan yang berbeza dan menetapkan tahap keselamatan yang berbeza, kebenaran penggunaan atau senarai putih untuk domain keselamatan ini. Untuk aplikasi yang diedarkan, domain keselamatan juga boleh ditetapkan pada berbilang nod komputer atau bahkan cip.

"Domain keselamatan boleh dirangkai bersama. Dalam setiap pautan peredaran data, penyedia data boleh menentukan berbilang domain keselamatan yang berbeza supaya data mereka hanya boleh mengalir antara domain keselamatan ini. Akhirnya, domain keselamatan bersiri ini membina rangkaian data. Pada rangkaian ini, data boleh dikawal, aliran, analisis, dan pemprosesan data juga boleh diukur dan dipantau, dan peredaran data juga boleh diwangkan dengan sewajarnya.

Berdasarkan idea pengkomputeran yang boleh dikawal, Teknologi YiZhi melancarkan "DataVault".

Kekurangan data berkualiti tinggi untuk melatih model besar? Kami menemui penyelesaian baharu

Prinsip DataVault: Menggabungkan permulaan metrik Linux dan teknologi penyulitan cakera penuh Linux untuk mencapai kawalan dan perlindungan data dalam domain keselamatan.

DataVault menggunakan Modul Platform Dipercayai TPM (Modul Platform Dipercayai, yang terasnya adalah untuk menyediakan fungsi berkaitan keselamatan berasaskan perkakasan) sebagai akar kepercayaan untuk melindungi integriti sistem ia menggunakan Modul Keselamatan Linux LSM ( Modul Keselamatan Linux, Linux Rangka kerja yang digunakan dalam kernel untuk menyokong pelbagai model keselamatan komputer, yang bebas daripada mana-mana teknologi pelaksanaan keselamatan individu supaya data dalam domain keselamatan hanya boleh digunakan dalam had yang boleh dikawal.

Atas dasar ini, DataVault menggunakan teknologi penyulitan cakera penuh yang disediakan oleh Linux untuk meletakkan data dalam domain selamat YiZhi Technology telah membangunkan sendiri protokol kriptografi yang lengkap seperti pengedaran kunci dan kebenaran tandatangan, dan telah menghasilkan banyak. pengoptimuman kejuruteraan, seterusnya memastikan kebolehkawalan data.

DataVault menyokong pelbagai kad pemecut khusus, termasuk CPU, GPU, FPGA dan perkakasan lain yang berbeza Ia juga menyokong pelbagai rangka kerja pemprosesan data dan rangka kerja latihan model, dan serasi binari.

Lebih penting lagi, ia mempunyai kehilangan prestasi yang jauh lebih rendah daripada penyelesaian pengkomputeran privasi yang lain Dalam kebanyakan aplikasi, berbanding sistem asli (iaitu, tanpa sebarang teknologi pengkomputeran privasi), kehilangan prestasi keseluruhan tidak melebihi. 5% .

Kekurangan data berkualiti tinggi untuk melatih model besar? Kami menemui penyelesaian baharu

Selepas menggunakan DataVault, kehilangan prestasi dalam penilaian (Penilaian) dan penilaian segera (Penilaian Segera) berdasarkan LLaMA-65B adalah kurang daripada 1‰.

DataVault case untuk melindungi peredaran data dan model aset

Kini, YiZhi Technology telah mencapai kerjasama dengan Pusat Pengkomputeran Super Nasional untuk menggunakan platform pengkomputeran berprestasi tinggi yang memelihara privasi untuk aplikasi AI pada platform pengkomputeran super. Berdasarkan DataVault, pengguna kuasa pengkomputeran boleh menetapkan domain keselamatan pada platform pengkomputeran untuk memastikan keseluruhan proses pemindahan data daripada nod storan kepada nod pengkomputeran hanya boleh bergerak antara domain keselamatan dan tidak meninggalkan julat yang ditetapkan.

Selain memastikan data boleh dikawal semasa latihan model, berdasarkan penyelesaian DataVault, model besar terlatih itu sendiri, sebagai aset data, juga boleh dilindungi dan didagangkan dengan selamat.

Pada masa ini, perusahaan yang ingin menggunakan model besar secara tempatan, seperti institusi data kewangan, perubatan dan lain-lain yang sangat sensitif, mengalami kekurangan infrastruktur untuk menjalankan model besar secara tempatan, termasuk kos latihan yang tinggi model besar. Perkakasan prestasi, dan pengalaman operasi dan penyelenggaraan seterusnya dalam menggunakan model besar. Bagi syarikat yang membina model industri yang besar, mereka bimbang jika model dihantar terus kepada pelanggan, data industri dan kepakaran terkumpul di sebalik model itu sendiri dan parameter model mungkin dijual semula.

Sebagai penerokaan pelaksanaan model berskala besar dalam industri menegak, YiZhi Technology turut bekerjasama dengan Penyelidikan Ekonomi Digital Kawasan Teluk Besar Guangdong-Hong Kong-Macao Institut (Institut Penyelidikan IDEA), Kedua-dua pihak bersama-sama mencipta mesin semua-dalam-satu model besar dengan fungsi perlindungan keselamatan model. Mesin semua-dalam-satu ini mempunyai beberapa model besar terbina dalam untuk industri menegak dan dilengkapi dengan sumber pengkomputeran asas yang diperlukan untuk latihan dan promosi model besar, yang boleh memenuhi keperluan pelanggan di luar kotak, antaranya, YiZhi yang boleh dikawal komponen pengkomputeran DataVault boleh memastikan bahawa model terbina dalam ini hanya Apabila digunakan dengan kebenaran, model dan semua data perantaraan tidak boleh dicuri oleh persekitaran luaran.

Sebagai paradigma pengkomputeran privasi baharu, Teknologi YiZhi berharap pengkomputeran yang boleh dikawal boleh membawa perubahan kepada industri model besar dan peredaran elemen data.

「DataVault hanyalah penyelesaian pelaksanaan yang ringan Memandangkan teknologi dan keperluan berubah, kami akan terus mengemas kini dan mempunyai lebih banyak percubaan dalam pasaran edaran elemen data Kami juga mengalu-alukan lebih banyak lagi rakan kongsi industri untuk menyertai dan membina komuniti pengkomputeran yang boleh dikawal,” kata Tang Zaiyang.

Atas ialah kandungan terperinci Kekurangan data berkualiti tinggi untuk melatih model besar? Kami menemui penyelesaian baharu. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!

Kenyataan:
Artikel ini dikembalikan pada:51cto.com. Jika ada pelanggaran, sila hubungi admin@php.cn Padam