Adakah data sintetik akan memacu masa depan latihan AI/ML?-AI-php.cn

Rumah

Peranti teknologi

Adakah data sintetik akan memacu masa depan latihan AI/ML?

王林

Apr 14, 2023 am 09:52 AM

aidata sintetikml

合成数据会推动 AI/ML 训练的未来吗？

Tidak dinafikan bahawa mengumpul data sebenar untuk melatih kecerdasan buatan atau pembelajaran mesin (AI/ML) memakan masa dan mahal. Dan, banyak kali ia penuh dengan risiko, tetapi masalah yang lebih biasa ialah terlalu sedikit data atau data berat sebelah boleh menyesatkan organisasi. Tetapi bagaimana jika anda boleh menjana data baharu, yang dipanggil data sintetik?

Kedengarannya tidak mungkin, tetapi itulah yang Synthesis AI merancang untuk meningkatkan daripada firma modal teroka termasuk 468 Capital, Sorenson Ventures, Strawberry Creek Ventures, Bee Partners, PJC, iRobot Ventures, Boom Capital dan Kubera Venture Capital of $17 juta dalam pembiayaan Siri A.

Ini adalah bukti yang sangat boleh dipercayai. Syarikat itu merancang untuk menggunakan pembiayaan untuk mengembangkan penyelidikan dan pembangunannya dalam bidang pencampuran data sebenar dan sintetik.

Yashar Behzadi, Ketua Pegawai Eksekutif Synthesis AI, berkata dalam satu kenyataan: "Data sintetik berada pada titik perubahan dalam penerimaan, dan matlamat kami adalah untuk membangunkan lagi teknologi dan memacu anjakan paradigma dalam cara sistem penglihatan komputer Dibina. Industri tidak lama lagi akan mereka bentuk dan melatih model penglihatan komputer sepenuhnya dalam dunia maya, membolehkan kecerdasan buatan yang lebih maju dan beretika.”

Tetapi apakah itu data sintetik?

Data sintetik dicipta oleh manusia dan bukannya dikumpulkan dari dunia nyata. Pada masa ini, banyak aplikasi menumpukan pada data visual, seperti data yang dikumpul daripada sistem penglihatan komputer. Namun, tiada sebab praktikal mengapa data sintetik tidak boleh dibuat untuk kes penggunaan lain, seperti menguji aplikasi atau memperbaik algoritma untuk mengesan penipuan. Mereka agak seperti kembar digital rekod fizikal yang sangat berstruktur.

Dengan menyediakan set data dunia nyata yang besar-besaran pada skala, saintis data dan penganalisis secara teori boleh melangkau proses pengumpulan data dan terus ke ujian atau latihan.

Ini kerana sebahagian besar kos untuk mencipta set data dunia sebenar melangkaui hanya mengumpul data mentah. Ambil penglihatan komputer dan kereta pandu sendiri sebagai contoh Pembuat dan penyelidik boleh melampirkan pelbagai kamera, radar dan penderia lidar pada kenderaan untuk mengumpulnya, tetapi data mentah tidak bermakna apa-apa kepada algoritma AI/ML. Cabaran yang sama menakutkan ialah menandai data secara manual dengan maklumat kontekstual untuk membantu sistem membuat keputusan yang lebih baik.

Mari kita lihat konteks cabaran ini: Bayangkan anda memandu jarak dekat dengan kerap, dengan semua papan tanda berhenti, persimpangan, kereta yang diletakkan, pejalan kaki, dsb., dan kemudian bayangkan bahawa, diberi Pelabelan setiap potensi bahaya adalah satu tugas yang sukar.

Kelebihan teras data sintetik ialah, secara teori, ia boleh mencipta set data berlabel sempurna yang cukup besar untuk melatih aplikasi AI/ML dengan betul, bermakna saintis data tiba-tiba boleh menguji algoritma mereka di sejumlah besar tempat baharu , dan kemudian hanya data dunia boleh benar-benar dilaksanakan atau dalam situasi di mana ia sukar diperoleh. Meneruskan contoh kereta pandu sendiri, saintis data boleh mencipta data sintetik untuk melatih kereta memandu dalam keadaan yang teruk, seperti jalan yang dilitupi salji, tanpa perlu menghantar pemandu ke utara atau ke pergunungan untuk mengumpul data secara manual.

Kelebihan teras data sintetik ialah ia secara teorinya boleh mencipta set data berlabel sempurna pada skala yang diperlukan untuk melatih aplikasi AI/ML dengan betul, bermakna saintis data boleh mencipta data sebelum data sebenar tersedia atau secara tiba-tiba menguji algoritma mereka di banyak tempat baharu apabila data sukar diperoleh. Masih dengan contoh kereta pandu sendiri, saintis data boleh mencipta data sintetik untuk melatih kereta memandu dalam keadaan buruk, seperti jalan yang dilitupi salji, tanpa perlu pemandu pergi ke utara atau ke pergunungan untuk mengumpul data secara manual.

Walau bagaimanapun, terdapat masalah ayam-dan-telur dengan data sintetik, kerana ia hanya boleh dibuat menggunakan... lebih banyak data dan lebih banyak algoritma AI/ML. Mulakan dengan set data "benih" dan kemudian gunakannya sebagai garis dasar untuk ciptaan sintetik anda, bermakna ia hanya akan sebaik data yang anda mulakan.

Faedah (Tidak Ketara)

Apakah saintis atau penyelidik data yang tidak akan mendapat manfaat daripada bekalan penjana data yang kelihatan tidak berkesudahan Manfaat teras – keupayaan untuk mengelak daripada mengumpul data dunia sebenar secara manual – hanya salah satu cara data sintetik boleh mempercepatkan aplikasi AI/ML.

Oleh kerana penganalisis dan saintis data boleh mengawal data benih dengan ketat dan juga membuat usaha tambahan untuk menggabungkan kepelbagaian, atau bekerjasama dengan perunding luar untuk mendedahkan dan menyahkod berat sebelah, mereka boleh mengekalkan standard yang lebih tinggi. Synthesis AI, sebagai contoh, sedang membangunkan sistem yang memantau status pemandu dan menyertakan wajah yang berbeza dengan teliti dalam set data sintetik yang dijana komputer mereka untuk memastikan aplikasi dunia sebenar berfungsi untuk semua orang.

Privasi ialah satu lagi potensi kemenangan. Jika syarikat menghabiskan berjuta-juta batu mengumpul data dunia sebenar untuk kereta pandu sendiri mereka, mereka mengumpul banyak data yang dianggap oleh ramai orang peribadi - terutamanya wajah mereka. Syarikat besar seperti Google dan Apple telah menemui cara untuk mengelakkan jenis masalah ini dalam perisian pemetaan mereka, tetapi laluan mereka tidak sesuai untuk pasukan AI/ML kecil yang ingin menguji algoritma mereka.

"Syarikat juga bergelut dengan isu etika yang berkaitan dengan berat sebelah model dan privasi pengguna dalam produk berpusatkan manusia Jelas sekali bahawa membina wawasan komputer generasi seterusnya memerlukan paradigma baharu," Ketua Pegawai Eksekutif dan pengasas syarikat Yashar Behzadi. berkata kepada media.

Walaupun data sintetik bergantung pada benih untuk bermula, ia boleh disesuaikan dan diubah suai untuk membantu melatih aplikasi AI/ML dalam kes tepi yang sukar atau berbahaya untuk ditangkap dalam kehidupan sebenar. Syarikat di sebalik kereta pandu sendiri berharap dapat mengenal pasti objek atau orang yang hanya sebahagiannya kelihatan, seperti tanda berhenti yang tersembunyi di belakang trak atau pejalan kaki yang berdiri di antara dua kereta yang melesat ke jalan raya.

Memandangkan kemenangan ini, dan walaupun terdapat kebimbangan mengenai masalah ayam-dan-telur pengekodan berat sebelah ke dalam data sintetik, Gartnermeramalkan bahawa menjelang 2024 60% daripada data yang digunakan untuk membangunkan AI dan produk analitik akan dihasilkan secara sintetik. Mereka meramalkan bahawa kebanyakan data baharu akan menumpukan pada membetulkan model ramalan apabila data sejarah yang menjadi asasnya kehilangan perkaitan atau andaian berdasarkan pengalaman lalu rosak.

Tetapi sentiasa ada keperluan untuk mengumpul beberapa data dunia sebenar, jadi kami masih jauh daripada ketinggalan sepenuhnya oleh avatar diri kami yang generik dan tidak berat sebelah.

Atas ialah kandungan terperinci Adakah data sintetik akan memacu masa depan latihan AI/ML?. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!

Kenyataan

Artikel ini dikembalikan pada:51CTO.COM. Jika ada pelanggaran, sila hubungi admin@php.cn Padam

Artikel Berkaitan

ai合并图层的快捷键是什么Jan 07, 2021 am 10:59 AM

ai合并图层的快捷键是“Ctrl+Shift+E”，它的作用是把目前所有处在显示状态的图层合并，在隐藏状态的图层则不作变动。也可以选中要合并的图层，在菜单栏中依次点击“窗口”-“路径查找器”，点击“合并”按钮。

ai橡皮擦擦不掉东西怎么办Jan 13, 2021 am 10:23 AM

ai橡皮擦擦不掉东西是因为AI是矢量图软件，用橡皮擦不能擦位图的，其解决办法就是用蒙板工具以及钢笔勾好路径再建立蒙板即可实现擦掉东西。

谷歌超强AI超算碾压英伟达A100！TPU v4性能提升10倍，细节首次公开Apr 07, 2023 pm 02:54 PM

虽然谷歌早在2020年，就在自家的数据中心上部署了当时最强的AI芯片——TPU v4。但直到今年的4月4日，谷歌才首次公布了这台AI超算的技术细节。论文地址：https://arxiv.org/abs/2304.01433相比于TPU v3，TPU v4的性能要高出2.1倍，而在整合4096个芯片之后，超算的性能更是提升了10倍。另外，谷歌还声称，自家芯片要比英伟达A100更快、更节能。与A100对打，速度快1.7倍论文中，谷歌表示，对于规模相当的系统，TPU v4可以提供比英伟达A100强1.

ai可以转成psd格式吗Feb 22, 2023 pm 05:56 PM

ai可以转成psd格式。转换方法：1、打开Adobe Illustrator软件，依次点击顶部菜单栏的“文件”-“打开”，选择所需的ai文件；2、点击右侧功能面板中的“图层”，点击三杠图标，在弹出的选项中选择“释放到图层（顺序）”；3、依次点击顶部菜单栏的“文件”-“导出”-“导出为”；4、在弹出的“导出”对话框中，将“保存类型”设置为“PSD格式”，点击“导出”即可；

GPT-4的研究路径没有前途？Yann LeCun给自回归判了死刑Apr 04, 2023 am 11:55 AM

Yann LeCun 这个观点的确有些大胆。「从现在起 5 年内，没有哪个头脑正常的人会使用自回归模型。」最近，图灵奖得主 Yann LeCun 给一场辩论做了个特别的开场。而他口中的自回归，正是当前爆红的 GPT 家族模型所依赖的学习范式。当然，被 Yann LeCun 指出问题的不只是自回归模型。在他看来，当前整个的机器学习领域都面临巨大挑战。这场辩论的主题为「Do large language models need sensory grounding for meaning and u

ai顶部属性栏不见了怎么办Feb 22, 2023 pm 05:27 PM

ai顶部属性栏不见了的解决办法：1、开启Ai新建画布，进入绘图页面；2、在Ai顶部菜单栏中点击“窗口”；3、在系统弹出的窗口菜单页面中点击“控制”，然后开启“控制”窗口即可显示出属性栏。

ai移动不了东西了怎么办Mar 07, 2023 am 10:03 AM

ai移动不了东西的解决办法：1、打开ai软件，打开空白文档；2、选择矩形工具，在文档中绘制矩形；3、点击选择工具，移动文档中的矩形；4、点击图层按钮，弹出图层面板对话框，解锁图层；5、点击选择工具，移动矩形即可。

强化学习再登Nature封面，自动驾驶安全验证新范式大幅减少测试里程Mar 31, 2023 pm 10:38 PM

引入密集强化学习，用 AI 验证 AI。自动驾驶汽车 (AV) 技术的快速发展，使得我们正处于交通革命的风口浪尖，其规模是自一个世纪前汽车问世以来从未见过的。自动驾驶技术具有显着提高交通安全性、机动性和可持续性的潜力，因此引起了工业界、政府机构、专业组织和学术机构的共同关注。过去 20 年里，自动驾驶汽车的发展取得了长足的进步，尤其是随着深度学习的出现更是如此。到 2015 年，开始有公司宣布他们将在 2020 之前量产 AV。不过到目前为止，并且没有 level 4 级别的 AV 可以在市场

See all articles

Alat AI Hot

Undresser.AI Undress

Apl berkuasa AI untuk mencipta foto bogel yang realistik

AI Clothes Remover

Alat AI dalam talian untuk mengeluarkan pakaian daripada foto.

Undress AI Tool

Gambar buka pakaian secara percuma

Clothoff.io

Penyingkiran pakaian AI

AI Hentai Generator

Menjana ai hentai secara percuma.

Tunjukkan Lagi

Artikel Panas

R.E.P.O. Kristal tenaga dijelaskan dan apa yang mereka lakukan (kristal kuning)

2 minggu yang laluBy尊渡假赌尊渡假赌尊渡假赌

Repo: Cara menghidupkan semula rakan sepasukan

4 minggu yang laluBy尊渡假赌尊渡假赌尊渡假赌

Hello Kitty Island Adventure: Cara mendapatkan biji gergasi

4 minggu yang laluBy尊渡假赌尊渡假赌尊渡假赌

Berapa lama masa yang diperlukan untuk mengalahkan fiksyen berpecah?

3 minggu yang laluByDDD

R.E.P.O. Simpan Fail Lokasi: Di manakah & bagaimana untuk melindunginya?

3 minggu yang laluByDDD

Tunjukkan Lagi

Alat panas

EditPlus versi Cina retak

Saiz kecil, penyerlahan sintaks, tidak menyokong fungsi gesaan kod

Dreamweaver Mac版

Alat pembangunan web visual

ZendStudio 13.5.1 Mac

Persekitaran pembangunan bersepadu PHP yang berkuasa

SublimeText3 versi Mac

Perisian penyuntingan kod peringkat Tuhan (SublimeText3)

mPDF

mPDF ialah perpustakaan PHP yang boleh menjana fail PDF daripada HTML yang dikodkan UTF-8. Pengarang asal, Ian Back, menulis mPDF untuk mengeluarkan fail PDF "dengan cepat" dari tapak webnya dan mengendalikan bahasa yang berbeza. Ia lebih perlahan dan menghasilkan fail yang lebih besar apabila menggunakan fon Unicode daripada skrip asal seperti HTML2FPDF, tetapi menyokong gaya CSS dsb. dan mempunyai banyak peningkatan. Menyokong hampir semua bahasa, termasuk RTL (Arab dan Ibrani) dan CJK (Cina, Jepun dan Korea). Menyokong elemen peringkat blok bersarang (seperti P, DIV),

Tunjukkan Lagi

Topik panas

Di manakah pintu masuk log masuk untuk e-mel gmail?

7322

1625

1350

1262

1209