Rumah >Peranti teknologi >AI >Sumber data masih menjadi hambatan utama kecerdasan buatan

Sumber data masih menjadi hambatan utama kecerdasan buatan

WBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBke hadapan: 2023-04-09 10:41:031206semak imbas

Agensi masih bergelut untuk mendapatkan data yang baik dan bersih untuk mengekalkan AI dan program pembelajaran mesin mereka, menurut laporan State of Artificial Intelligence dan Pembelajaran Mesin Appen yang dikeluarkan minggu ini.

Menurut tinjauan Appen terhadap 504 pemimpin perniagaan dan pakar teknologi, antara empat peringkat kecerdasan buatan, penyediaan data model; penyebaran; fasa penilaian model yang diterajui manusia—sumber data menggunakan paling banyak sumber, mengambil masa paling lama dan paling mencabar.

Menurut tinjauan Appen, sumber data menggunakan purata 34% daripada belanjawan AI organisasi, dengan penyediaan data, ujian model dan penggunaan masing-masing menyumbang 24%, dan penilaian model menyumbang 15%. Tinjauan itu dijalankan oleh Harris Poll dan termasuk pembuat keputusan IT, pemimpin dan pengurus perniagaan, dan pengamal teknologi dari Amerika Syarikat, United Kingdom, Ireland dan Jerman.

Sumber data masih menjadi hambatan utama kecerdasan buatan

Dari segi masa, sumber data menggunakan kira-kira 26% masa, masa penyediaan data ialah 24%, ujian model, penggunaan dan masa penilaian model ialah 23% setiap satu. . Akhir sekali, 42% juruteknik percaya bahawa penyumberan data adalah peringkat paling mencabar dalam kitaran hayat AI Peringkat lain ialah: penilaian model (41%), ujian dan penggunaan model (38%), dan penyediaan data (34%). ).

Walaupun menghadapi cabaran, organisasi bekerja keras untuk memastikannya berfungsi. Menurut Appen, empat daripada lima responden (81%) berkata mereka mempunyai data yang mencukupi untuk menyokong inisiatif AI mereka. Kunci kejayaan mungkin ini: Sebahagian besar (88%) syarikat menambah data mereka dengan menggunakan pembekal data latihan AI luaran seperti Appen.

Walau bagaimanapun, ketepatan data masih terbuka untuk dipersoalkan. Appen mendapati hanya 20% responden melaporkan ketepatan data melebihi 80%. Hanya 6% (kira-kira satu dalam 20 orang) mengatakan data mereka adalah 90% tepat atau lebih baik.

Dengan mengambil kira perkara ini, hampir separuh (46%) responden percaya ketepatan data adalah penting, menurut tinjauan Appen. Hanya 2% percaya ketepatan data bukanlah keperluan besar, manakala 51% percaya ia adalah keperluan kritikal.

CTO Appen Wilson Pang mempunyai pandangan berbeza tentang kepentingan kualiti data, dengan 48% pelanggannya percaya kualiti data tidak penting.

"Ketepatan data adalah penting untuk kejayaan model AI dan ML, kerana data yang kaya dengan kualiti menghasilkan output model yang lebih baik dan pemprosesan yang konsisten serta membuat keputusan," kata laporan itu "Untuk mendapatkan hasil yang baik , set data mestilah tepat, komprehensif dan berskala ”

Peningkatan pembelajaran mendalam dan AI berpusatkan data telah mengalihkan kuasa kejayaan AI daripada peralihan model model dan pembelajaran mesin yang baik kepada pengumpulan data yang baik , pengurusan dan pelabelan. Ini benar terutamanya dalam teknik pembelajaran pemindahan hari ini. Pengamal kecerdasan buatan akan meninggalkan bahasa pra-latihan besar atau model penglihatan komputer dan melatih semula sebahagian kecil daripadanya pada data mereka sendiri.

Data yang lebih baik juga boleh membantu menghalang berat sebelah yang tidak perlu daripada meresap ke dalam model AI, menghalang hasil buruk yang boleh membawa kepada AI. Ini benar terutamanya untuk model bahasa besar.

Laporan itu mengatakan: "Dengan peningkatan model bahasa besar (LLM) yang dilatih pada data pengikisan web berbilang bahasa, perusahaan menghadapi cabaran lain kerana korpora latihan dipenuhi dengan bahasa toksik, dan kaum, jantina dan agama berat sebelah, model ini sering mempamerkan tingkah laku yang tidak diingini ”

Bias dalam data rangkaian menimbulkan isu pelik, walaupun terdapat beberapa penyelesaian (mengubah rejimen latihan, menapis data latihan dan output model, serta belajar daripada maklum balas dan ujian manusia) , tetapi lebih banyak penyelidikan diperlukan untuk mencipta penanda aras "LLM berpusatkan manusia" dan standard yang baik untuk kaedah penilaian model.

Appen berkata pengurusan data kekal sebagai halangan terbesar yang dihadapi oleh kecerdasan buatan. Tinjauan mendapati bahawa 41% orang percaya bahawa pengurusan data adalah kesesakan terbesar dalam kitaran kecerdasan buatan. Di tempat keempat ialah kekurangan data, dengan 30% responden menyebut ini sebagai halangan terbesar kepada kejayaan AI.

Tetapi ada berita baik: masa yang diluangkan oleh perusahaan untuk mengurus dan menyediakan data semakin berkurangan. Kadar tahun ini hanya melebihi 47%, berbanding 53% dalam laporan tahun lepas, kata Appen.

"Memandangkan majoriti responden menggunakan penyedia data luaran, boleh disimpulkan bahawa dengan penyumberan luar penyumberan dan penyediaan data, saintis data menjimatkan masa yang diperlukan untuk mengurus, membersihkan dan melabelkan data mereka dengan betul." kata syarikat.

Walau bagaimanapun, berdasarkan kadar ralat yang agak tinggi dalam data, mungkin organisasi tidak seharusnya mengecilkan sumber data dan proses penyediaan mereka (sama ada dalaman atau luaran). Terdapat banyak keperluan yang bersaing dalam membina dan menyelenggara proses AI—keperluan untuk mengupah profesional data yang berkelayakan merupakan satu lagi keperluan utama yang dikenal pasti oleh Appen. Walau bagaimanapun, sehingga kemajuan ketara dicapai dalam pengurusan data, organisasi harus terus menekan pasukan mereka untuk terus memacu kepentingan kualiti data.

Kaji selidik itu juga mendapati bahawa 93% organisasi sangat atau sedikit sebanyak bersetuju bahawa etika AI harus menjadi "asas" projek AI. Ketua Pegawai Eksekutif Appen Mark Brayan berkata ia adalah permulaan yang baik tetapi masih banyak kerja yang perlu dilakukan. "Masalahnya, ramai yang menghadapi cabaran untuk cuba membina AI yang hebat dengan set data yang lemah, mewujudkan halangan besar untuk mencapai matlamat mereka," kata Brayan dalam kenyataan akhbar

Menurut laporan Appen, adat-. data yang dikumpul dalam perusahaan kekal sebagai set data utama yang digunakan untuk AI, menyumbang 38% hingga 42% daripada data. Data sintetik menunjukkan prestasi yang mengejutkan, menyumbang 24% hingga 38% daripada data organisasi, manakala data pra-label (biasanya daripada penyedia perkhidmatan data) menyumbang 23% hingga 31% daripada data.

Khususnya, data sintetik berpotensi untuk mengurangkan kejadian berat sebelah dalam projek AI yang sensitif, dengan 97% peserta tinjauan Appen mengatakan mereka menggunakan data sintetik dalam "membangun set data latihan inklusif."

Sumber data masih menjadi hambatan utama kecerdasan buatan

Penemuan menarik lain daripada laporan itu termasuk:

77% organisasi melatih semula model mereka setiap bulan atau suku tahunan; ( Tafsiran barisan hadapan; Era AI: Kepintaran buatan bukan penyelesaian sekali sahaja Ia terus bertambah baik mengikut keperluan aplikasi dan perlu sentiasa dikemas kini)
55% syarikat Amerika mendakwa bahawa mereka mendahului pesaing mereka. manakala perkadaran di Eropah ialah 44%; (Tafsiran dari barisan hadapan era AI: Orang Eropah lebih rendah daripada orang Amerika.)
42% organisasi melaporkan bahawa kecerdasan buatan telah "secara meluas. " dilancarkan, dan dalam "Laporan Kepintaran Buatan 2021", perkadaran ini ialah 51%; (Tafsiran daripada barisan hadapan era AI: Aplikasi kecerdasan buatan semakin meluas.)
7% daripada institusi melaporkan bahawa belanjawan AI mereka melebihi AS$5 juta, berbanding 9% tahun lepas. (Tafsiran dari barisan hadapan era AI: Di satu pihak, ia mungkin disebabkan oleh kematangan kecerdasan buatan secara beransur-ansur yang mengurangkan kos, tetapi juga menunjukkan bahawa kecerdasan buatan bukan lagi "produk mewah" dan secara beransur-ansur menjadi "mesti ada" untuk perusahaan.)

Atas ialah kandungan terperinci Sumber data masih menjadi hambatan utama kecerdasan buatan. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!

Kenyataan：

Artikel ini dikembalikan pada:51cto.com. Jika ada pelanggaran, sila hubungi admin@php.cn Padam

Artikel sebelumnya：Pembelajaran pelbagai tugasan berskala besar Jeff Dean SOTA telah dikritik, dan memerlukan kos sebanyak AS$60,000 untuk menghasilkan semulaArtikel seterusnya：Pembelajaran pelbagai tugasan berskala besar Jeff Dean SOTA telah dikritik, dan memerlukan kos sebanyak AS$60,000 untuk menghasilkan semula

Artikel berkaitan

Lihat lagi