Rumah  >  Artikel  >  Peranti teknologi  >  ChatGPT dan model bahasa besar: apakah risikonya?

ChatGPT dan model bahasa besar: apakah risikonya?

PHPz
PHPzke hadapan
2023-04-08 10:41:051209semak imbas

Model bahasa berskala besar (LLM) dan AI chatbots menarik minat seluruh dunia disebabkan oleh keluaran ChatGPT pada akhir 2022 dan kemudahan pertanyaan yang disediakannya. Ia kini merupakan salah satu aplikasi pengguna yang paling pesat berkembang sepanjang masa, dan popularitinya mendorong ramai pesaing untuk membangunkan perkhidmatan dan model mereka sendiri, atau dengan cepat menggunakan aplikasi yang telah mereka bangunkan secara dalaman.

Seperti mana-mana teknologi baru muncul, sentiasa ada kebimbangan tentang maksud ini untuk keselamatan. Blog ini baru-baru ini telah mempertimbangkan beberapa aspek keselamatan siber ChatGPT dan LLM secara lebih umum.

Apakah itu ChatGPT dan apakah itu LLM?

ChatGPT ialah chatbot kecerdasan buatan yang dibangunkan oleh permulaan teknologi Amerika OpenAI. Ia berdasarkan GPT-3, model bahasa yang dikeluarkan pada tahun 2020 yang menggunakan pembelajaran mendalam untuk menjana teks seperti manusia, tetapi teknologi LLM asas telah wujud sejak sekian lama.

LLM ialah tempat algoritma dilatih mengenai sejumlah besar data berasaskan teks, sering dikikis daripada internet terbuka, sekali gus meliputi halaman web dan – bergantung pada LLM – sumber lain , seperti penyelidikan saintifik, buku, atau siaran media sosial ini merangkumi sejumlah besar data sehingga mustahil untuk menapis semua kandungan yang tidak menyenangkan atau tidak tepat apabila tertelan, jadi kandungan "kontroversial" mungkin akan dimasukkan ke dalam model tersebut.

Algoritma ini menganalisis hubungan antara perkataan yang berbeza dan menukarnya kepada model kebarangkalian. Algoritma kemudiannya boleh diberi "petunjuk" (contohnya, dengan bertanya soalan) dan ia akan memberikan jawapan berdasarkan perhubungan perkataan dalam modelnya.

Lazimnya, data dalam modelnya adalah statik selepas latihan, walaupun ia boleh diperbaiki melalui "penalaan halus" (latihan mengenai data tambahan) dan "pembesaran pembayang" (menyediakan maklumat kontekstual tentang masalah). Contoh peningkatan segera mungkin:

Dengan mengambil kira maklumat di bawah, bagaimana anda akan menerangkan...

Kemudian menyalin kemungkinan sejumlah besar teks (atau keseluruhan dokumen) ke dalam gesaan/soalan .

ChatGPT dengan berkesan membolehkan pengguna bertanya soalan LLM seperti yang anda lakukan dalam perbualan dengan chatbot. Contoh terbaru LLM yang lain termasuk pengumuman daripada Bard Google dan LLaMa Meta (untuk kertas saintifik).

LL.M.s sememangnya mengagumkan kerana keupayaan mereka menjana banyak kandungan yang menarik dalam pelbagai bahasa manusia dan komputer. Walau bagaimanapun, mereka bukan sihir, dan juga bukan kecerdasan am buatan, dan mengandungi beberapa kelemahan yang serius, termasuk:

  • Mereka boleh membuat kesilapan dan "menghaluskan" fakta yang salah
  • Mereka boleh berat sebelah dan sering mudah tertipu (cth. semasa menjawab soalan utama)
  • Mereka memerlukan sumber pengkomputeran yang besar dan sejumlah besar data untuk dilatih dari awal
  • Mereka boleh ditipu untuk mencipta kandungan toksik dan terdedah kepada "serangan suntikan"

Adakah LLM membocorkan maklumat saya?

Kebimbangan biasa ialah LLM mungkin "belajar" daripada gesaan anda dan memberikan maklumat tersebut kepada orang lain yang menanyakan kandungan berkaitan. Terdapat beberapa sebab untuk dibimbangkan di sini, tetapi bukan atas sebab yang dipertimbangkan oleh ramai orang. Pada masa ini, LLM dilatih dan kemudian model yang dihasilkan ditanya. LLM tidak (pada masa penulisan) secara automatik menambah maklumat daripada pertanyaan kepada modelnya untuk orang lain bertanya. Iaitu, memasukkan maklumat dalam pertanyaan tidak akan menyebabkan data tersebut dimasukkan ke dalam LLM.

Walau bagaimanapun, pertanyaan akan dapat dilihat oleh organisasi yang menyediakan LLM (untuk ChatGPT, juga untuk OpenAI). Pertanyaan ini disimpan dan hampir pasti akan digunakan pada satu ketika untuk membangunkan perkhidmatan atau model LLM. Ini mungkin bermakna pembekal LLM (atau rakan kongsi/kontraktornya) boleh membaca pertanyaan dan mungkin memasukkannya ke dalam keluaran masa hadapan dalam beberapa cara. Oleh itu, anda perlu memahami sepenuhnya Syarat Penggunaan dan Dasar Privasi sebelum bertanya soalan sensitif.

Sesuatu soalan mungkin sensitif kerana data yang terkandung dalam pertanyaan, atau kerana siapa (dan bila) bertanya soalan itu. Contoh yang terakhir mungkin adalah jika didapati bahawa Ketua Pegawai Eksekutif telah bertanya "Cara terbaik untuk memecat pekerja?", atau jika seseorang telah bertanya soalan kesihatan atau perhubungan yang mendedahkan. Juga ingat untuk menggunakan log masuk yang sama untuk mengagregatkan maklumat merentas berbilang pertanyaan.

Satu lagi risiko yang meningkat apabila lebih banyak organisasi menghasilkan LLM ialah pertanyaan yang disimpan dalam talian boleh digodam, dibocorkan atau kemungkinan besar boleh diakses secara terbuka secara tidak sengaja. Ini mungkin termasuk maklumat yang mungkin mengenal pasti pengguna. Risiko lain ialah pengendali LLM kemudiannya diperoleh oleh organisasi yang menggunakan pendekatan privasi yang berbeza daripada semasa pengguna memasukkan data mereka.

Oleh itu, NCSC mengesyorkan:

  • Jangan masukkan maklumat sensitif dalam pertanyaan kepada LLM awam
  • Jangan serahkan pertanyaan kepada LLM awam yang akan menyebabkan masalah

Bagaimanakah saya boleh menyerahkan pertanyaan kepada LLM dengan selamat Maklumat sensitif?

Dengan peningkatan LLM, banyak organisasi mungkin tertanya-tanya sama ada mereka boleh menggunakan LLM untuk mengautomasikan tugas perniagaan tertentu, yang mungkin melibatkan penyediaan maklumat sensitif melalui penalaan halus atau penambahan tepat pada masanya. Walaupun pendekatan ini tidak disyorkan untuk LLM awam, "LLM peribadi" mungkin disediakan oleh penyedia awan (contohnya), atau mungkin dihoskan sendiri sepenuhnya:

  • Untuk LLM yang disediakan awan, Syarat Penggunaan dan dasar Privasi sekali lagi penting (seperti untuk LLM awam), tetapi lebih berkemungkinan konsisten dengan syarat sedia ada perkhidmatan awan. Organisasi perlu memahami cara mengurus data yang digunakan untuk penalaan halus atau pembesaran segera. Bolehkah penyelidik atau rakan kongsi vendor menggunakannya? Jika ya, dalam bentuk apa? Adakah data dikongsi secara individu atau secara agregat dengan organisasi lain? Dalam keadaan apakah pekerja pembekal boleh melihat pertanyaan?
  • LLM yang dihoskan sendiri boleh menjadi sangat mahal. Walau bagaimanapun, selepas penilaian keselamatan, mereka mungkin sesuai untuk memproses data organisasi. Khususnya, organisasi harus merujuk kepada panduan kami tentang melindungi infrastruktur dan rantaian bekalan data.

Adakah LLM memudahkan kehidupan penjenayah siber?

Terdapat beberapa demonstrasi yang luar biasa tentang cara LLM boleh membantu menulis perisian hasad. Kebimbangannya ialah LLM boleh membantu individu yang berniat jahat (tetapi tidak mahir) mencipta alat yang tidak akan dapat mereka gunakan. Dalam keadaan semasa mereka, LLM kelihatan meyakinkan (sama ada ia atau tidak) dan sesuai untuk tugas yang mudah dan bukannya yang kompleks. Ini bermakna LLM boleh digunakan untuk "membantu pakar menjimatkan masa" kerana pakar boleh mengesahkan output LLM.

Untuk tugasan yang lebih kompleks, pada masa ini lebih mudah bagi pakar untuk mencipta perisian hasad dari awal daripada perlu meluangkan masa untuk membetulkan perkara yang dijana oleh LLM. Walau bagaimanapun, pakar yang mampu mencipta perisian hasad yang berkuasa mungkin boleh memperdaya LLM untuk menulis perisian hasad yang berkuasa. Pertukaran antara "menggunakan LLM untuk mencipta perisian hasad dari awal" dan "mengesahkan perisian hasad buatan LLM" akan berubah apabila LLM bertambah baik.

Anda juga boleh meminta nasihat LLM tentang isu teknikal. Penjenayah boleh menggunakan LLM untuk membantu menjalankan serangan siber melebihi keupayaan semasa mereka, terutamanya selepas penyerang mendapat akses kepada rangkaian. Contohnya, jika penyerang berusaha untuk meningkatkan keistimewaan atau mencari data, mereka mungkin bertanya kepada LLM dan menerima jawapan yang berbeza daripada hasil enjin carian tetapi dengan lebih konteks. LLM semasa memberikan jawapan yang kelihatan meyakinkan tetapi mungkin hanya sebahagiannya betul, terutamanya apabila topik menjadi lebih khusus. Jawapannya mungkin membantu penjenayah melakukan serangan yang tidak boleh mereka lakukan, atau mereka mungkin mencadangkan tindakan untuk mempercepatkan pengesanan penjenayah. Sama ada cara, pertanyaan penyerang boleh disimpan dan dikekalkan oleh pengendali LLM.

Oleh kerana LLM pandai menyalin gaya penulisan atas permintaan, terdapat risiko penjenayah boleh menggunakan LLM untuk menulis e-mel pancingan data yang meyakinkan, termasuk e-mel dalam pelbagai bahasa. Ini boleh membantu penyerang dengan kebolehan teknikal yang tinggi tetapi kurang kemahiran bahasa, membantu mereka mencipta e-mel pancingan data yang meyakinkan (atau menjalankan kejuruteraan sosial) dalam bahasa ibunda sasaran.

Secara keseluruhan, dalam jangka pendek kita mungkin melihat:

  • E-mel pancingan data yang lebih meyakinkan disebabkan oleh LLM
  • Penyerang mencuba perkara yang mereka tidak akan lakukan sebelum ini Teknologi Familiar

Risiko penyerang yang kurang mahir menulis perisian hasad yang berkuasa juga rendah.

Ringkasan

Ini adalah masa yang menarik untuk LLM, terutamanya dengan ChatGPT menangkap imaginasi dunia. Seperti semua perkembangan teknologi, akan ada orang yang berminat untuk menggunakannya dan mengkaji perkara yang ditawarkannya, dan orang yang mungkin tidak pernah menggunakannya.

Seperti yang telah kami gariskan di atas, sudah pasti terdapat risiko yang berkaitan dengan penggunaan LLM awam tanpa had. Individu dan organisasi harus sangat berhati-hati tentang data yang mereka pilih untuk diserahkan dalam gesaan. Anda harus memastikan bahawa mereka yang ingin mencuba LLM boleh, tetapi berbuat demikian tanpa meletakkan data organisasi pada risiko.

NCSC sedar tentang ancaman (dan peluang) lain yang muncul berkaitan keselamatan siber dan penerimaan LLM, dan kami sudah tentu akan memaklumkan perkara ini kepada anda dalam catatan blog akan datang.

David C - Pengarah Teknikal Penyelidikan Platform Paul J - Pengarah Teknikal Penyelidikan Sains Data

——Disusun daripada UK NCSC

Atas ialah kandungan terperinci ChatGPT dan model bahasa besar: apakah risikonya?. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!

Kenyataan:
Artikel ini dikembalikan pada:51cto.com. Jika ada pelanggaran, sila hubungi admin@php.cn Padam