Rumah > Artikel > Peranti teknologi > Chatbots sedang mencerna internet, dan internet mahu meraih ganjarannya
Syarikat kecerdasan buatan mengeksploitasi kandungan yang dicipta oleh ramai orang di Internet tanpa persetujuan atau pampasan mereka. Kini, semakin banyak syarikat teknologi dan media menuntut bayaran dengan harapan mendapat sekeping kegilaan chatbot.
Jika anda pernah menulis blog, menyiarkan di Reddit atau berkongsi apa-apa di web terbuka, kemungkinan besar anda telah menyumbang kepada Menyumbang kepada kelahiran generasi terkini daripada kecerdasan buatan.
Bard Google, ChatGPT OpenAI, Bing versi baharu Microsoft dan alatan serupa yang disediakan oleh pemula lain semuanya menyepadukan model bahasa kecerdasan buatan. Tetapi penulis robot pintar ini tidak akan dapat dilakukan tanpa sejumlah besar teks yang tersedia secara percuma di Internet.
Kini, kandungan web sekali lagi menjadi tumpuan persaingan. Ini tidak berlaku sejak zaman awal perang enjin carian. Gergasi teknologi cuba mengukir sumber maklumat yang tidak boleh diganti ini, kaya dengan nilai baharu, sebagai wilayah mereka sendiri.
Jika tidak, syarikat teknologi dan media yang tidak curiga menyedari bahawa data ini penting untuk memupuk generasi baharu kecerdasan buatan berasaskan bahasa. Reddit ialah salah satu sumber latihan berharga OpenAI, tetapi baru-baru ini mengumumkan bahawa ia akan mengenakan bayaran kepada syarikat kecerdasan buatan untuk akses data. OpenAI enggan mengulas.
Baru-baru ini, Twitter juga telah mula mengenakan bayaran untuk perkhidmatan akses data, perubahan yang mempengaruhi banyak aspek perniagaan Twitter, termasuk penggunaan data oleh syarikat kecerdasan buatan. Perikatan Media Berita, yang mewakili penerbit, mengumumkan dalam kertas kerja bulan ini bahawa syarikat harus membayar yuran pelesenan apabila mereka menggunakan kerja yang dihasilkan oleh ahli mereka untuk melatih kecerdasan buatan.
"Apa yang sangat penting bagi kami ialah pemilikan maklumat," kata Prashanth Chandrasekar, Ketua Pegawai Eksekutif Stack Overflow, tapak Soal Jawab untuk pengaturcara Untuk kecerdasan buatan berskala besar Syarikat pintar merancang untuk mula mengecaj untuk akses kepada pengguna -menjana kandungan di tapak. "Komuniti Stack Overflow telah menghabiskan begitu banyak usaha untuk menjawab soalan sepanjang 15 tahun yang lalu, dan kami benar-benar ingin memastikan usaha itu membuahkan hasil." sebelum ini, seperti Dall-E 2 OpenAI, yang boleh menjana imej melalui pembelajaran, tetapi telah dituduh mencuri harta intelek berskala besar. Syarikat yang mencipta sistem ini sedang terlibat dalam tindakan undang-undang berhubung dakwaan ini. Pertempuran terhadap teks yang dijana AI mungkin lebih besar, melibatkan bukan sahaja isu pampasan dan kredit, tetapi juga isu privasi.
Tetapi Emily M. Bender, ahli bahasa pengiraan di Universiti Washington, percaya bahawa di bawah undang-undang semasa, agensi AI tidak bertanggungjawab ke atas tindakan mereka.
Pertikaian timbul mengenai cara chatbot kecerdasan buatan dibangunkan. Algoritma teras robot ini dipanggil "algoritma model bahasa besar", yang perlu meniru kandungan dan cara pertuturan manusia dengan menyerap dan memproses sejumlah besar data teks bahasa sedia ada. Jenis data ini berbeza daripada maklumat tingkah laku dan peribadi yang digunakan oleh perkhidmatan seperti Meta Platforms syarikat induk Facebook untuk menyasarkan iklan yang biasa kita lakukan di internet.
Data ini dicipta oleh pengguna manusia menggunakan pelbagai perkhidmatan, seperti ratusan juta siaran yang dibuat oleh pengguna Reddit. Hanya di Internet anda boleh menemui perpustakaan perkataan yang dijana secara buatan yang cukup besar. Tanpa itu, tiada satu pun daripada AI berasaskan sembang dan teknologi berkaitan hari ini tidak akan berjaya.
Dalam kertas kerja 2021, Jesse Dodge, seorang saintis penyelidikan di Institut bukan untung Allen untuk Kecerdasan Buatan, mendapati bahawa Wikipedia dan banyak lagi kandungan berhak cipta lain daripada organisasi media, besar dan kecil, artikel berita Dilindungi terdapat dalam kebanyakan kes. pangkalan data perangkak web yang biasa digunakan. Kedua-dua Google dan Facebook menggunakan set data ini untuk melatih model bahasa yang besar, dan OpenAI menggunakan pangkalan data yang serupa.
OpenAI tidak lagi mendedahkan sumber datanya, tetapi menurut kertas 2020 yang diterbitkan oleh syarikat itu, model bahasa besarnya menggunakan siaran yang dikikis daripada Reddit untuk menapis dan menambah baik data yang digunakan untuk melatih kecerdasan buatannya.
Tim Rathschmidt, jurucakap Reddit, berkata masih belum pasti berapa banyak hasil yang akan dijana daripada syarikat yang mengecaj untuk mengakses datanya, tetapi percaya data yang mereka ada boleh Membantu menambah baik teknologi terkini hari ini model bahasa berskala besar.
Laporan mengatakan eksekutif industri penerbitan telah menyiasat: Sejauh manakah kandungan mereka digunakan untuk melatih ChatGPT dan alatan kecerdasan buatan yang lain? Bagaimana mereka fikir mereka patut diberi pampasan? Dan apakah undang-undang yang boleh mereka gunakan untuk mempertahankan hak mereka? Bagaimanapun, Danielle Coffey, peguam am organisasi itu, berkata setakat ini, tiada persetujuan dicapai dengan mana-mana pemilik enjin sembang AI yang besar (seperti Google, OpenAI, Microsoft, dll.) untuk membenarkan Mereka membayar sebahagian daripada data latihan yang dikikis daripada ahli Perikatan Media Berita.
Twitter tidak membalas permintaan untuk mengulas. Microsoft enggan mengulas. Jurucakap Google berkata: "Kami mempunyai sejarah panjang dalam membantu pencipta dan penerbit mengewangkan kandungan mereka dan mengukuhkan hubungan dengan khalayak mereka. Selaras dengan prinsip AI kami, kami akan terus berbuat demikian dengan cara yang bertanggungjawab dan beretika. "Ia masih awal hari," kata jurucakap itu, dan Google sedang mencari input tentang cara membina kecerdasan buatan yang memberi manfaat kepada web terbuka.
Menyalin data yang tersedia di web terbuka (juga dikenali sebagai mengikis) adalah sah dalam keadaan tertentu, walaupun syarikat masih membincangkan bagaimana dan di mana Perbahasan diteruskan mengenai butiran bila mereka dibenarkan berbuat demikian.
Kebanyakan syarikat dan organisasi bersedia untuk meletakkan data mereka dalam talian kerana mereka mahu data itu ditemui dan diindeks oleh enjin carian supaya orang ramai dapat mencari kandungan tersebut. Walau bagaimanapun, menyalin data ini untuk melatih kecerdasan buatan, menggantikan keperluan untuk mencari sumber asal, adalah sama sekali berbeza.
Ahli bahasa pengiraan Bender berkata bahawa syarikat teknologi yang mengumpul maklumat daripada Internet untuk melatih kecerdasan buatan beroperasi berdasarkan prinsip: "Kami boleh menerimanya, oleh itu ia adalah milik kami." Menukar teks (termasuk buku, artikel majalah, esei pada blog peribadi, paten, kertas saintifik dan kandungan Wikipedia) kepada jawapan chatbot akan mengalih keluar pautan ke sumber bahan. Ia juga menyukarkan pengguna untuk mengesahkan perkara yang bot beritahu mereka. Ini adalah masalah besar untuk sistem yang sering berbohong.
Pengikisan berskala besar ini juga mencuri maklumat peribadi kami. Common Crawl ialah organisasi bukan untung yang telah merangkak sejumlah besar kandungan di web terbuka selama lebih sedekad dan menjadikan pangkalan datanya tersedia secara bebas kepada penyelidik. Pangkalan data Common Crawl juga digunakan sebagai titik permulaan untuk syarikat yang ingin melatih kecerdasan buatan, termasuk Google, Meta, OpenAI dan lain-lain.
Sebastian Nagel, seorang saintis data dan jurutera di Common Crawl, berkata catatan blog yang anda tulis beberapa tahun lalu yang telah dipadamkan mungkin masih terdapat dalam data latihan yang digunakan oleh OpenAI, yang menggunakan kandungan web daripada tahun lalu untuk melatih kecerdasan buatannya.
Tidak seperti indeks carian yang dimiliki oleh Google dan Microsoft, mengalih keluar maklumat peribadi daripada AI terlatih memerlukan latihan semula keseluruhan model, kata Bender. Dodge juga berkata kerana kos untuk melatih semula model bahasa yang besar boleh menjadi sangat tinggi, walaupun pengguna boleh membuktikan bahawa data peribadi digunakan untuk melatih kecerdasan buatan, syarikat itu tidak mungkin berbuat demikian. Disebabkan kuasa pengkomputeran yang sangat besar yang diperlukan, model sedemikian boleh menelan belanja berpuluh-puluh juta dolar untuk dilatih.
Tetapi Dodge menambah bahawa dalam kebanyakan kes adalah sukar juga untuk mendapatkan latihan AI pada set data yang termasuk maklumat peribadi untuk memuntahkan maklumat ini. OpenAI berkata ia telah melaraskan sistem berasaskan sembangnya untuk menolak permintaan untuk maklumat peribadi. Kesatuan Eropah dan kerajaan A.S. sedang mempertimbangkan undang-undang dan peraturan baharu untuk mengawal jenis kecerdasan buatan ini.
Sesetengah penyokong AI percaya bahawa AI sepatutnya mempunyai akses kepada semua data yang boleh diperoleh oleh jurutera mereka kerana itulah cara manusia belajar. Secara logiknya, mengapa mesin tidak boleh melakukan ini?
Bender berkata selain fakta bahawa kecerdasan buatan pada masa ini tidak sama dengan manusia, terdapat masalah dengan sudut pandangan di atas, iaitu, mengikut undang-undang semasa, kecerdasan buatan tidak boleh bertanggungjawab ke atasnya. tindakan sendiri. Orang yang memplagiat karya orang lain, atau yang cuba membungkus semula maklumat yang salah sebagai kebenaran, boleh menghadapi akibat yang teruk, tetapi mesin dan penciptanya tidak berkongsi tanggungjawab yang sama.
Sudah tentu, ini mungkin tidak selalu berlaku. Sama seperti pemilik hak cipta Getty menyaman syarikat AI penjana imej kerana menggunakan harta intelek mereka sebagai data latihan, perniagaan dan organisasi lain mungkin akan menyaman pembuat AI berasaskan sembang jika mereka menggunakan kandungan mereka tanpa kebenaran Pergi ke mahkamah melainkan mereka bersetuju kepada waran.
Karangan peribadi yang ditulis oleh orang yang tidak terkira banyaknya, serta siaran yang disiarkan di forum yang tidak jelas dan rangkaian sosial yang hilang, dan pelbagai perkara lain, benar-benar boleh menjadikan chatbots hari ini berkebolehan sebagai penulis OK? Mungkin satu-satunya faedah yang boleh diperoleh oleh pencipta kandungan ini ialah mereka telah menyumbang sesuatu kepada penanaman chatbot dari segi penggunaan bahasa mereka.
Atas ialah kandungan terperinci Chatbots sedang mencerna internet, dan internet mahu meraih ganjarannya. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!