Rumah  >  Artikel  >  Peranti teknologi  >  Pengurusan data adalah kunci kepada pembangunan kecerdasan buatan generatif yang sihat

Pengurusan data adalah kunci kepada pembangunan kecerdasan buatan generatif yang sihat

WBOY
WBOYke hadapan
2023-06-03 23:00:151164semak imbas

2023 telah menjadi permulaan rasmi era kecerdasan buatan, dan hampir semua orang bercakap tentang ChatGPT.

Pengurusan data adalah kunci kepada pembangunan kecerdasan buatan generatif yang sihat

Model bahasa AI Generatif seperti ChatGPT telah menarik perhatian dan minat kami sejak kami mula-mula Dapat menonton kecerdasan buatan bercakap dengan kami seperti orang sebenar dan menjana artikel, puisi dan kandungan baharu lain yang kami rasa kreatif. Penyelesaian AI Generatif nampaknya dipenuhi dengan potensi terobosan untuk inovasi, produktiviti dan realisasi nilai yang lebih pantas dan lebih baik. Walau bagaimanapun, batasan mereka tidak diberi perhatian secara meluas, privasi data dan amalan terbaik pengurusan data mereka juga tidak difahami secara meluas.

Baru-baru ini, ramai dalam komuniti teknologi dan keselamatan telah membunyikan penggera kerana kekurangan pemahaman dan peraturan yang mencukupi tentang penggunaan teknologi kecerdasan buatan. Kami telah pun melihat kebimbangan tentang kebolehpercayaan output alat AI, kebocoran IP (harta intelek) dan data sensitif, serta pelanggaran privasi dan keselamatan.

Insiden Samsung dengan ChatGPT menjadi tajuk utama selepas gergasi teknologi itu secara tidak sengaja membocorkan rahsianya kepada kecerdasan buatan. Samsung tidak bersendirian: Kajian Cyberhaven mendapati bahawa 4% pekerja meletakkan data korporat sensitif ke dalam model bahasa yang besar. Ramai orang tidak tahu bahawa apabila mereka melatih model mengenai data syarikat, syarikat AI mungkin boleh menggunakan semula data tersebut di tempat lain.

Syarikat risikan keselamatan siber Recorded Future mendedahkan: “Dalam beberapa hari selepas keluaran ChatGPT, kami menemui beberapa pelakon ancaman di web gelap dan forum akses khas berkongsi perisian hasad yang cacat tetapi berkuasa, tutorial kejuruteraan sosial , skim menjana wang dan banyak lagi, semuanya dimungkinkan dengan menggunakan ChatGPT”

Dari segi privasi, apabila seseorang individu mendaftar untuk alat seperti ChatGPT , yang mempunyai akses kepada IP alamat, tetapan penyemak imbas dan tingkah laku menyemak imbas seperti enjin carian hari ini. Tetapi pertaruhannya lebih tinggi kerana "ia boleh mendedahkan kepercayaan politik atau orientasi seksual tanpa persetujuan individu dan boleh bermakna maklumat yang memalukan atau malah memusnahkan kerjaya dikeluarkan," kata Jose Blaya, pengarah kejuruteraan di Akses Internet Persendirian.

Jelas sekali, kami memerlukan peraturan dan piawaian yang lebih baik untuk melaksanakan teknologi AI baharu ini. Walau bagaimanapun, terdapat kekurangan perbincangan mengenai peranan penting tadbir urus data dan pengurusan data – tetapi ini memainkan peranan penting dalam penerimaan perusahaan dan penggunaan AI yang selamat.

Ini semua tentang data

Berikut ialah tiga bidang yang harus kita fokuskan:

Tadbir urus data dan ketelusan data latihan: Isu teras merangkumi model AI pra-latihan proprietari atau model bahasa besar (LLM). Program pembelajaran mesin menggunakan LLM mengandungi set data yang besar daripada pelbagai sumber yang berbeza. Masalahnya, LLM ialah kotak hitam yang memberikan sedikit ketelusan ke dalam data sumber. Kami tidak tahu sama ada sumber ini mengandungi data penipuan, mengandungi PII (maklumat yang boleh dikenal pasti secara peribadi), boleh dipercayai, tidak berat sebelah, tepat atau undang-undang. LLM R&D tidak berkongsi data sumbernya.

The Washington Post menganalisis set data C4 Google merentas 15 juta tapak web dan mendapati berpuluh-puluh tapak yang tidak menyenangkan yang mengandungi data yang meradang dan PII serta kandungan lain yang mencurigakan. Kami memerlukan tadbir urus data, yang memerlukan ketelusan ke dalam sumber data yang digunakan dan kesahihan/kebolehpercayaan pengetahuan yang terkandung dalam sumber tersebut. Contohnya, bot AI anda mungkin sedang dilatih mengenai data daripada sumber yang tidak disahkan atau tapak berita palsu, memihakkan pengetahuannya yang kini menjadi sebahagian daripada dasar baharu atau inisiatif R&D syarikat anda.

Pengasingan Data dan Domain Data: Pada masa ini, vendor AI yang berbeza mempunyai dasar privasi yang berbeza tentang cara mengendalikan data yang anda berikan. Secara tidak sengaja, pekerja mungkin memberikan data kepada LLM dalam gesaan mereka, tanpa mengetahui bahawa model itu mungkin memasukkan data ke dalam pangkalan pengetahuannya. Syarikat mungkin secara tidak sedar mendedahkan rahsia perdagangan, kod perisian dan data peribadi kepada dunia.

Sesetengah penyelesaian AI menawarkan penyelesaian, seperti menggunakan API, untuk melindungi privasi data dengan mengecualikan data anda daripada model pra-latihan, tetapi ini juga mengehadkan nilai fungsi AI. Kerana kes penggunaan yang ideal adalah untuk menambah model terlatih dengan data khusus kes anda sambil mengekalkan privasi data.

Satu penyelesaian adalah untuk mempunyai alat AI yang telah terlatih memahami konsep "domain" data. Domain "biasa" data latihan digunakan untuk pra-latihan dan dikongsi antara aplikasi biasa, manakala model latihan berdasarkan "data proprietari" dihadkan dengan selamat dalam sempadan organisasi. Pengurusan data memastikan bahawa sempadan ini dicipta dan dipelihara.

Derivatif Kepintaran Buatan: Bidang ketiga pengurusan data melibatkan data yang dihasilkan oleh proses AI dan pemilik muktamadnya. Contohnya, gunakan bot AI untuk menyelesaikan masalah pengekodan. Jika sesuatu telah dilakukan dengan tidak betul, mengakibatkan pepijat atau pepijat, biasanya kita akan tahu siapa yang melakukan perkara untuk menyiasat dan membetulkannya. Tetapi dengan AI, sukar bagi organisasi untuk menentukan siapa yang bertanggungjawab atas sebarang ralat atau keputusan buruk yang terhasil daripada tugas yang dilakukan oleh AI—anda tidak boleh menyalahkan mesin: pada tahap tertentu, manusialah yang menyebabkan ralat atau keputusan buruk.

Persoalan yang lebih rumit ialah IP Adakah anda memiliki IP karya yang dibuat menggunakan alat kecerdasan buatan generatif? Bagaimana anda akan mempertahankan diri anda di mahkamah? Menurut Harvard Business Review, dunia seni telah mula memfailkan tuntutan terhadap aplikasi kecerdasan buatan tertentu.

Fikirkan tentang strategi pengurusan data sekarang

Pada zaman awal, kami tidak mengetahui peranan AI dalam data yang buruk, privasi dan keselamatan, harta intelek dan lain-lain Perkara yang tidak diketahui tentang risiko set data sensitif. Kecerdasan buatan juga merupakan bidang yang luas dengan pelbagai pendekatan seperti LLM, automasi berdasarkan logik proses perniagaan, ini hanyalah sebahagian daripada topik yang diterokai melalui gabungan dasar tadbir urus data dan amalan pengurusan data:

Jeda percubaan dengan AI generatif sehingga anda mempunyai strategi pengawasan, dasar dan prosedur untuk mengurangkan risiko dan mengesahkan keputusan.

Menggabungkan garis panduan pengurusan data bermula dengan pemahaman yang kukuh tentang data anda, tidak kira di mana ia berada. Di manakah PII sensitif anda dan data pelanggan? Berapa banyak data IP yang anda ada dan di manakah lokasi fail ini? Bolehkah anda memantau penggunaan untuk memastikan jenis data ini tidak dimasukkan ke dalam alatan AI secara tidak sengaja dan mencegah pelanggaran keselamatan atau privasi?

Jangan berikan lebih banyak data kepada aplikasi AI daripada yang diperlukan dan jangan kongsi sebarang data proprietari yang sensitif. Kunci/sulitkan IP dan data pelanggan untuk mengelakkannya daripada dikongsi.

Fahami cara dan sama ada alatan AI boleh telus kepada sumber data.

Bolehkah pembekal melindungi data anda? Google berkongsi pengumuman di blognya, tetapi "bagaimana" tidak jelas: "Sama ada syarikat melatih model dalam Vertex AI atau membina pengalaman perkhidmatan pelanggan pada Generative AI App Builder, data peribadi kekal peribadi, Tidak akan digunakan dalam korpus latihan model asas yang lebih luas "Baca bahasa kontrak setiap alat AI untuk memahami sama ada sebarang data yang anda berikan kepadanya boleh dirahsiakan.

Data yang melabelkan karya terbitan daripada pemilik, orang atau jabatan yang menugaskan projek itu. Ini berguna kerana akhirnya anda mungkin bertanggungjawab ke atas sebarang kerja yang dihasilkan oleh syarikat anda, dan anda ingin mengetahui cara AI disepadukan ke dalam proses dan siapa yang terlibat.

Memastikan mudah alih data antara domain. Sebagai contoh, pasukan mungkin mahu menanggalkan data IPnya dan mengenal pasti ciri dan memasukkannya ke dalam set data latihan biasa untuk kegunaan masa hadapan. Automasi dan penjejakan proses ini adalah kritikal.

Kekal dimaklumkan tentang sebarang peraturan dan panduan industri yang sedang dibangunkan, dan berbincang dengan rakan sebaya dalam organisasi lain untuk memahami cara mereka menghampiri pengurangan risiko dan pengurusan data.

Sebelum memulakan sebarang projek AI generatif, berunding dengan pakar undang-undang untuk memahami risiko dan proses sekiranya berlaku pelanggaran data, privasi dan pelanggaran IP, pelaku berniat jahat atau keputusan palsu/salah .

Pendekatan Praktikal untuk Kecerdasan Buatan dalam Perusahaan

Kecerdasan buatan berkembang pesat dan memegang janji besar, dengan potensi untuk mempercepatkan inovasi, mengurangkan kos dan meningkatkan pengalaman pengguna di kadar yang tidak pernah berlaku sebelum ini. Tetapi seperti kebanyakan alat yang berkuasa, AI perlu digunakan dengan berhati-hati dan dalam konteks yang betul, dengan tadbir urus data yang sesuai dan pagar pengurusan data disediakan. Tiada piawaian yang jelas telah muncul untuk pengurusan data untuk kecerdasan buatan, dan ini adalah bidang yang memerlukan penerokaan lanjut. Pada masa yang sama, perusahaan harus berhati-hati dan memastikan mereka mempunyai pemahaman yang jelas tentang pendedahan data, pelanggaran data dan potensi risiko keselamatan data sebelum menggunakan aplikasi AI.

Atas ialah kandungan terperinci Pengurusan data adalah kunci kepada pembangunan kecerdasan buatan generatif yang sihat. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!

Kenyataan:
Artikel ini dikembalikan pada:51cto.com. Jika ada pelanggaran, sila hubungi admin@php.cn Padam