Rumah  >  Artikel  >  Peranti teknologi  >  Bagaimana untuk meningkatkan kualiti data untuk memenuhi keperluan projek AI dengan lebih baik

Bagaimana untuk meningkatkan kualiti data untuk memenuhi keperluan projek AI dengan lebih baik

王林
王林ke hadapan
2023-04-16 08:13:02763semak imbas

​Penterjemah |. Cui Hao

Penilai |. . Walau bagaimanapun, satu lagi masalah yang berkait rapat dengan kecerdasan buatan telah diabaikan: kualiti data yang lemah.

Algoritma AI bergantung pada data yang boleh dipercayai untuk menghasilkan hasil yang optimum – jika data itu berat sebelah, tidak lengkap, tidak mencukupi atau bahkan tidak tepat, akibatnya boleh memudaratkan.

Sistem AI yang mengenal pasti penyakit pesakit adalah contoh baik kualiti data yang lemah yang membawa kepada akibat buruk. Apabila data tidak mencukupi, sistem ini boleh menghasilkan diagnosis yang salah dan ramalan yang tidak tepat, yang membawa kepada diagnosis yang salah dan rawatan yang tertangguh. Sebagai contoh, kajian Universiti Cambridge terhadap lebih daripada 400 alat yang digunakan untuk mendiagnosis Covid-19 mendapati bahawa laporan yang dijana AI tidak dapat digunakan sepenuhnya kerana penggunaan set data yang cacat.

Dalam erti kata lain, jika data tidak cukup baik, inisiatif AI akan membawa kesan buruk kepada dunia sebenar.

Apakah maksud data "cukup baik"?

Terdapat perdebatan besar tentang apakah data yang "cukup baik". Ada yang mengatakan data yang cukup baik tidak wujud. Orang lain mengatakan bahawa data "terlalu baik" boleh menyebabkan kelumpuhan analisis (Penterjemah: harus merujuk kepada pemasangan berlebihan) - sementara HBR menyatakan secara terang-terangan bahawa maklumat yang tidak baik akan menyebabkan alatan pembelajaran mesin gagal berfungsi.

Di WinPure, data yang cukup baik ditakrifkan sebagai "lengkap, tepat, sah dan boleh digunakan dengan yakin dalam proses perniagaan yang berisiko, pada tahap yang bergantung pada matlamat peribadi dan keadaan perniagaan." 🎜>Kebanyakan syarikat bergelut dengan kualiti data dan tadbir urus, walaupun mereka tidak mahu mengakuinya. Penyeksaan ini terus meningkatkan ketegangan projek dan mengatasi mereka Anda boleh bayangkan bahawa mereka berada di bawah tekanan yang hebat untuk menggunakan rancangan kecerdasan buatan untuk mengekalkan kelebihan daya saing. Malangnya, isu seperti data kotor tidak mungkin dibincangkan di bilik lembaga sehingga ia menyebabkan projek gagal.

Bagaimanakah data buruk mempengaruhi sistem kecerdasan buatan?

Isu kualiti data timbul pada permulaan proses apabila algoritma belajar berdasarkan data latihan. Contohnya, jika algoritma AI diberi data media sosial yang tidak ditapis, ia akan mengeluarkan penyalahgunaan, komen perkauman dan kenyataan misoginis, seperti yang ditunjukkan oleh bot AI Microsoft. Baru-baru ini, ketidakupayaan kecerdasan buatan untuk mengesan orang berkulit gelap juga telah dipersalahkan atas masalah dengan data latihan.

Bagaimanakah ini berkaitan dengan kualiti data?

Kekurangan tadbir urus data, kesedaran yang rendah tentang kualiti data dan pandangan senyap data adalah punca utama kualiti data yang lemah.

Apa yang perlu saya lakukan?

Apabila syarikat menyedari terdapat masalah dengan kualiti data, mereka panik tentang pengambilan pekerja. Dengan mengupah perunding, jurutera dan penganalisis secara membabi buta untuk mendiagnosis dan membersihkan data, dengan harapan dapat menyelesaikan masalah secepat mungkin. Malangnya, beberapa bulan berlalu dan walaupun berjuta-juta dolar dibelanjakan, masalah itu nampaknya tidak hilang. Mengambil pendekatan tanpa henti terhadap isu kualiti data jarang membantu.

Perubahan sebenar bermula di akar umbi.

Jika anda mahu projek AI/ML anda bergerak ke arah yang betul, lakukan tiga langkah utama ini.

Mengiktiraf dan mengakui isu kualiti data

Pertama, menilai kualiti data dengan mewujudkan budaya literasi data. Bill Schmarzo adalah suara yang kuat dalam hal ini, mengesyorkan menggunakan pemikiran reka bentuk untuk mencipta budaya di mana semua orang memahami dan menyumbang kepada matlamat dan cabaran data organisasi.

Dalam persekitaran perniagaan hari ini, data dan kualiti data bukan lagi tanggungjawab sepenuhnya IT atau pasukan data. Pengguna perniagaan mesti menyedari isu seperti isu data kotor dan data yang tidak konsisten dan pendua.

Jadi, mulakan dengan menjadikan latihan kualiti data sebagai usaha organisasi yang dihargai dan memperkasakan pasukan untuk mengenal pasti atribut data yang lemah.

Dengan senarai semak di bawah, anda boleh menggunakannya untuk menjejak kualiti data.

Senarai Semak Kesihatan Data

Bagaimanakah data ditangkap, disimpan dan diuruskan?

Berapa banyak sumber data yang disambungkan ke pangkalan data pusat anda dan sejauh manakah data itu disebarkan?

Sejauh manakah anda mengurus data anda? Adakah anda telah melaksanakan piawaian tadbir urus data? Berapa banyak data berstruktur, separa berstruktur atau tidak berstruktur?
  • Berapa banyak yang anda belanjakan untuk pembaikan data manual berbanding pengurusan data automatik? Bagaimanakah pasukan anda berkoordinasi antara satu sama lain semasa mengakses dan memproses data? Adakah terdapat konflik dalaman yang kerap antara pengguna IT dan perniagaan?
  • Bagaimanakah kualiti data anda? Adakah data anda tepat pada masanya, lengkap, tepat, unik dan mengikut peraturan piawai?
  • Membangunkan rancangan untuk memenuhi metrik kualiti
  • Perniagaan sering melakukan kesilapan apabila melibatkan isu kualiti data. Sebagai contoh, penganalisis data diupah untuk menyelesaikan tugas pembersihan data rutin dan bukannya menumpukan pada perancangan dan kerja strategik. Sesetengah perniagaan menggunakan alat pengurusan data untuk membersihkan, menyahduplikasi, menyatukan dan membersihkan data tanpa rancangan. Malangnya, alat dan bakat tidak dapat menyelesaikan masalah secara berasingan. Strategi yang memenuhi dimensi kualiti data adalah penyelesaian asas kepada masalah tersebut.

Strategi mesti menyelesaikan masalah pengumpulan data, pelabelan, pemprosesan dan pemadanan data dengan projek AI/ML. Sebagai contoh, jika program pengambilan AI hanya memilih calon lelaki untuk jawatan teknikal, maka data latihan program jelas berat sebelah, tidak lengkap (tidak cukup data tentang calon wanita dikumpul) dan tidak tepat. Oleh itu, data ini tidak memenuhi tujuan sebenar projek AI.

Keperluan untuk kualiti data melangkaui tugas harian membersihkan dan membaiki data. Jadi, integriti data dan piawaian tadbir urus perlu ditetapkan sebelum memulakan sesuatu projek. Ia menyelamatkan projek daripada jatuh ke dalam kegagalan!

Tanya soalan yang betul dan tetapkan akauntabiliti

Tiada standard universal untuk "data atau tahap kualiti data yang cukup baik". Sebaliknya, semuanya bergantung pada sistem pengurusan maklumat perusahaan, garis panduan tadbir urus data, pengetahuan tentang matlamat pasukan dan perniagaan, dan banyak faktor lain.

Tetapi sebelum memulakan projek, terdapat beberapa soalan untuk ditanya kepada pasukan:

  • Apakah sumber maklumat kami dan apakah kaedah pengumpulan data?
  • Apakah isu yang boleh memberi kesan kepada proses pengumpulan data dan mengancam hasil yang positif?
  • Apakah maklumat yang disampaikan oleh data? Adakah ia memenuhi piawaian kualiti data (iaitu maklumat adalah tepat, boleh dipercayai sepenuhnya dan berterusan)?
  • Adakah orang yang dilantik sedar tentang kepentingan kualiti data dan kualiti rendah?
  • Adakah peranan dan tanggungjawab ditakrifkan? Sebagai contoh, siapa yang perlu mengekalkan jadual pembersihan data biasa? Siapa yang bertanggungjawab mencipta rekod induk?
  • Adakah data sesuai untuk tujuan?

Tanya soalan yang betul, tetapkan peranan yang betul, laksanakan standard kualiti data dan bantu pasukan anda menangani cabaran sebelum ia timbul!

Ringkasan

Kualiti data bukan sekadar membetulkan kesilapan atau kesilapan. Ia memastikan bahawa sistem AI tidak bersifat diskriminasi, mengelirukan atau tidak tepat. Sebelum melancarkan projek AI, adalah perlu untuk menangani cabaran kualiti data dengan menangani kelemahan dalam data. Selain itu, lancarkan program literasi data seluruh organisasi untuk menghubungkan setiap pasukan kepada matlamat keseluruhan.

Pengenalan penterjemah

Cui Hao, editor komuniti 51CTO dan arkitek kanan, mempunyai 18 tahun pengalaman pembangunan perisian dan seni bina serta 10 tahun pengalaman seni bina yang diedarkan.

Tajuk asal: ​​Adakah Data Anda Cukup Baik untuk Pelan Pembelajaran Mesin/AI Anda?​​, pengarang: Farah Kim​

Atas ialah kandungan terperinci Bagaimana untuk meningkatkan kualiti data untuk memenuhi keperluan projek AI dengan lebih baik. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!

Kenyataan:
Artikel ini dikembalikan pada:51cto.com. Jika ada pelanggaran, sila hubungi admin@php.cn Padam