Rumah  >  Artikel  >  Peranti teknologi  >  Enam perangkap untuk dielakkan dengan model bahasa yang besar

Enam perangkap untuk dielakkan dengan model bahasa yang besar

王林
王林ke hadapan
2023-05-12 13:01:351276semak imbas

Daripada kebimbangan keselamatan dan privasi kepada maklumat yang salah dan berat sebelah, model bahasa yang besar datang dengan risiko dan ganjaran.

Terdapat kemajuan luar biasa dalam kecerdasan buatan (AI) baru-baru ini, sebahagian besarnya disebabkan oleh kemajuan dalam membangunkan model bahasa yang besar. Ini adalah teras alat penjanaan teks dan kod seperti ChatGPT, Bard, dan Copilot GitHub.

Model ini diterima pakai oleh semua sektor. Tetapi bagaimana ia dicipta dan digunakan, dan bagaimana ia boleh disalahgunakan, tetap menjadi sumber kebimbangan. Sesetengah negara telah memutuskan untuk mengambil pendekatan drastik dan melarang sementara model bahasa besar tertentu sehingga peraturan yang sesuai diwujudkan.

Berikut ialah melihat beberapa kesan buruk dunia sebenar daripada alatan berasaskan model bahasa besar dan beberapa strategi untuk mengurangkan kesan ini.

1. Kandungan berniat jahat

Model bahasa yang besar boleh meningkatkan produktiviti dalam pelbagai cara. Keupayaan mereka untuk mentafsir permintaan orang dan menyelesaikan masalah yang agak rumit bermakna orang ramai boleh meninggalkan tugas biasa yang memakan masa kepada chatbot kegemaran mereka dan hanya menyemak hasilnya.

Sudah tentu, dengan kuasa yang besar datang tanggungjawab yang besar. Walaupun model bahasa yang besar boleh mencipta bahan berguna dan mempercepatkan pembangunan perisian, mereka juga boleh mengakses maklumat berbahaya dengan cepat, mempercepatkan aliran kerja pelakon jahat, dan juga menjana kandungan berniat jahat seperti e-mel pancingan data dan perisian hasad. Apabila halangan untuk masuk adalah serendah menulis gesaan chatbot yang dibina dengan baik, istilah "script kiddie" membawa maksud baharu.

Walaupun terdapat cara untuk menyekat akses kepada kandungan secara objektif berbahaya, ia tidak selalunya boleh dilaksanakan atau berkesan. Seperti perkhidmatan yang dihoskan seperti chatbots, penapisan kandungan sekurang-kurangnya boleh membantu memperlahankan perkara untuk pengguna yang tidak berpengalaman. Melaksanakan penapis kandungan yang kukuh sepatutnya diperlukan, tetapi ia tidak mahakuasa.

2. Suntikan petunjuk

Petua yang dibuat khas boleh memaksa model bahasa besar mengabaikan penapis kandungan dan menghasilkan output yang menyalahi undang-undang. Masalah ini adalah biasa kepada semua llms, tetapi akan diperkuatkan kerana model ini disambungkan ke dunia luar sebagai contoh, sebagai pemalam untuk ChatGPT. Ini boleh membenarkan chatbot untuk "eval" kod jana pengguna, yang membawa kepada pelaksanaan kod arbitrari. Dari perspektif keselamatan, melengkapkan chatbots dengan fungsi ini sangat bermasalah.

Untuk membantu mengurangkan keadaan ini, adalah penting untuk memahami keupayaan penyelesaian berasaskan LLM anda dan cara ia berinteraksi dengan titik akhir luaran. Tentukan sama ada ia disambungkan kepada API, menjalankan akaun media sosial atau berinteraksi dengan pelanggan tanpa pengawasan, dan menilai model benang dengan sewajarnya.

Walaupun suntikan pembayang mungkin kelihatan tidak penting pada masa lalu, serangan ini kini boleh membawa akibat yang sangat serius apabila ia mula melaksanakan kod yang dijana, menyepadukan ke dalam API luaran dan juga membaca tab penyemak imbas .

3. Maklumat privasi/pelanggaran hak cipta

Melatih model bahasa besar memerlukan sejumlah besar data dan sesetengah model mempunyai lebih daripada 500 bilion parameter. Pada skala ini, memahami asal usul, kepengarangan dan status hak cipta adalah tugas yang sukar, jika tidak mustahil. Set latihan yang tidak disemak boleh menyebabkan model membocorkan data peribadi, mengaitkan petikan palsu atau memplagiat kandungan berhak cipta.

Undang-undang privasi data mengenai penggunaan model bahasa yang besar juga sangat kabur. Seperti yang telah kita pelajari dalam media sosial, jika ada sesuatu yang percuma, kemungkinan besar pengguna adalah produknya. Perlu diingat bahawa jika orang meminta chatbot untuk mencari pepijat dalam kod kami atau menulis dokumen sensitif, kami akan menghantar data tersebut kepada pihak ketiga yang mungkin menggunakannya untuk latihan model, pengiklanan atau kelebihan daya saing. Pelanggaran data yang didorong oleh AI boleh merosakkan terutamanya dalam tetapan perniagaan.

Memandangkan perkhidmatan berdasarkan model bahasa besar disepadukan dengan alatan produktiviti tempat kerja seperti Slack and Teams, baca dengan teliti dasar privasi penyedia, fahami cara gesaan AI digunakan dan kawal model bahasa besar dengan sewajarnya Untuk kegunaan di tempat kerja, ini kritikal. Apabila menyentuh tentang perlindungan hak cipta, kami perlu mengawal selia akses dan penggunaan data melalui ikut serta atau lesen khas, tanpa menghalang Internet terbuka dan sebahagian besarnya percuma yang kami ada hari ini.

4 Mesej Ralat

Walaupun model bahasa yang besar boleh meyakinkan berpura-pura pintar, mereka tidak benar-benar "memahami" apa yang mereka hasilkan. Sebaliknya, mata wang mereka adalah hubungan kebarangkalian antara perkataan. Mereka tidak dapat membezakan antara fakta dan fiksyen - sesetengah keluaran mungkin kelihatan sangat boleh dipercayai, tetapi ternyata kenyataan dengan kata-kata yakin yang tidak benar. Contohnya ialah petikan pengubatan ChatGPT dan juga keseluruhan kertas kerja, seperti yang ditemui secara langsung oleh seorang pengguna Twitter baru-baru ini.

Alat model bahasa berskala besar boleh terbukti sangat berguna dalam pelbagai tugas, tetapi manusia mesti terlibat dalam mengesahkan ketepatan, faedah dan kebolehpercayaan keseluruhan respons mereka.

Keluaran alatan LLM hendaklah sentiasa diambil dengan sebutir garam. Alat ini berguna dalam pelbagai tugas, tetapi manusia mesti terlibat dalam mengesahkan ketepatan, faedah, dan kebolehpercayaan keseluruhan respons mereka. Jika tidak, kita akan kecewa.

5. Nasihat Berbahaya

Apabila bersembang dalam talian, semakin sukar untuk mengetahui sama ada anda bercakap dengan manusia atau mesin, dan sesetengah entiti mungkin cuba memanfaatkannya. Sebagai contoh, pada awal tahun ini, sebuah syarikat teknologi kesihatan mental mengakui bahawa sesetengah pengguna yang mendapatkan kaunseling dalam talian tanpa disedari berinteraksi dengan bot berasaskan GPT3 dan bukannya sukarelawan manusia. Ini menimbulkan kebimbangan etika tentang penggunaan model bahasa yang besar dalam penjagaan kesihatan mental dan mana-mana tetapan lain yang bergantung pada tafsiran emosi manusia.

Pada masa ini, terdapat sedikit pengawasan kawal selia untuk memastikan syarikat tidak dapat memanfaatkan AI dengan cara ini tanpa persetujuan jelas pengguna akhir. Selain itu, musuh boleh memanfaatkan bot AI yang meyakinkan untuk menjalankan pengintipan, penipuan dan aktiviti haram yang lain.

Kecerdasan buatan tidak mempunyai emosi, tetapi tindak balasnya mungkin menyakiti perasaan orang dan malah membawa kepada akibat yang lebih tragis. Adalah tidak bertanggungjawab untuk menganggap bahawa penyelesaian AI boleh mentafsir dan bertindak balas sepenuhnya terhadap keperluan emosi manusia secara bertanggungjawab dan selamat.

Penggunaan model bahasa yang besar dalam penjagaan kesihatan dan aplikasi sensitif lain harus dikawal dengan ketat untuk mengelakkan sebarang risiko bahaya kepada pengguna. Penyedia perkhidmatan berasaskan LLM hendaklah sentiasa memaklumkan pengguna tentang skop sumbangan AI kepada perkhidmatan dan berinteraksi dengan bot hendaklah sentiasa menjadi pilihan, bukan lalai.

6. Bias

Penyelesaian AI hanya sebaik data yang dilatih. Data ini selalunya menggambarkan berat sebelah kami terhadap parti politik, kaum, jantina atau demografi lain. Bias boleh memberi kesan negatif kepada kumpulan yang terjejas, di mana model membuat keputusan yang tidak adil, dan boleh menjadi halus dan berpotensi sukar untuk ditangani. Model yang dilatih pada data internet yang tidak ditapis akan sentiasa mencerminkan kecenderungan manusia yang sentiasa belajar daripada interaksi pengguna juga terdedah kepada manipulasi yang disengajakan.

Untuk mengurangkan risiko diskriminasi, penyedia perkhidmatan model bahasa yang besar mesti menilai dengan teliti set data latihan mereka untuk mengelakkan sebarang ketidakseimbangan yang boleh membawa kepada akibat negatif. Model pembelajaran mesin juga harus disemak dengan kerap untuk memastikan ramalan kekal adil dan tepat.

Model bahasa berskala besar mentakrifkan semula sepenuhnya cara kami berinteraksi dengan perisian, membawa banyak peningkatan pada aliran kerja kami. Walau bagaimanapun, disebabkan kekurangan peraturan semasa yang bermakna untuk kecerdasan buatan dan kekurangan keselamatan untuk model pembelajaran mesin, pelaksanaan model bahasa besar yang meluas dan tergesa-gesa mungkin menimbulkan kemunduran yang ketara. Oleh itu, teknologi berharga ini mesti dikawal dan dilindungi dengan cepat. ?

Atas ialah kandungan terperinci Enam perangkap untuk dielakkan dengan model bahasa yang besar. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!

Kenyataan:
Artikel ini dikembalikan pada:51cto.com. Jika ada pelanggaran, sila hubungi admin@php.cn Padam