Rumah  >  Artikel  >  Peranti teknologi  >  Selesaikan masalah data tidak berstruktur dengan pembelajaran mesin

Selesaikan masalah data tidak berstruktur dengan pembelajaran mesin

WBOY
WBOYke hadapan
2023-04-11 22:07:061429semak imbas

​Penterjemah |. Bugatti

Penyemak | Sun Shujuan

Revolusi data sedang rancak. Jumlah data digital yang dicipta dalam tempoh lima tahun akan datang akan menjadi dua kali ganda jumlah data yang dijana setakat ini, dan data tidak berstruktur akan menentukan era baharu pengalaman digital ini.

Selesaikan masalah data tidak berstruktur dengan pembelajaran mesin

Data tidak berstruktur merujuk kepada maklumat yang tidak mengikut model tradisional atau tidak sesuai untuk format pangkalan data berstruktur, mencakupi lebih daripada 80% daripada semua data perusahaan baharu. Untuk bersedia untuk peralihan ini, banyak syarikat sedang mencari cara yang inovatif untuk mengurus, menganalisis dan memanfaatkan sepenuhnya semua data yang tersedia dalam pelbagai alat, termasuk analisis perniagaan dan kecerdasan buatan. Tetapi penggubal dasar juga menghadapi masalah lama: Bagaimana untuk mengekalkan dan meningkatkan kualiti set data yang besar dan sukar digunakan?

Pembelajaran mesin adalah penyelesaiannya. Kemajuan dalam teknologi pembelajaran mesin kini membolehkan organisasi memproses data tidak berstruktur dengan cekap dan meningkatkan usaha jaminan kualiti. Dengan revolusi data yang semakin hampir, di manakah syarikat anda bergelut? Menghadapi sekumpulan data yang berharga tetapi tidak terurus, atau menggunakan data untuk memacu perniagaan anda ke hadapan?

Data tidak berstruktur memerlukan lebih daripada sekadar salin dan tampal

Nilai data yang tepat, tepat pada masanya, konsisten kepada perniagaan moden tidak dapat dipertikaikan dan sama pentingnya dengan pengkomputeran awan dan aplikasi digital. Namun, kualiti data yang lemah menyebabkan syarikat menanggung kos purata $13 juta setahun.

Untuk menyelesaikan masalah data, anda menggunakan kaedah statistik untuk mengukur bentuk data, yang membolehkan pasukan data menjejaki perubahan, menyingkirkan penyimpangan dan menghapuskan hanyutan data. Kawalan berdasarkan kaedah statistik kekal berharga untuk menilai kualiti data dan menentukan bagaimana dan bila set data harus digunakan sebelum keputusan kritikal dibuat. Walaupun kaedah statistik ini berkesan, ia biasanya dikhaskan untuk set data berstruktur, yang sesuai untuk pengukuran objektif dan kuantitatif.

Tetapi bagaimana pula dengan data yang tidak sesuai dengan Microsoft Excel atau Helaian Google? Termasuk:

  • Internet Perkara: data penderia, data stok dan data log
  • Multimedia: foto, audio dan video
  • Media kaya: data geospatial, imejan satelit , data cuaca dan data pengawasan
  • Dokumen: dokumen pemprosesan perkataan, hamparan, pembentangan, e-mel dan data komunikasi

Apabila jenis data tidak berstruktur ini digunakan, Tidak Lengkap atau maklumat yang tidak tepat boleh memasuki model dengan mudah. Jika ralat tidak disedari, masalah data boleh terkumpul, mendatangkan malapetaka pada segala-galanya daripada pelaporan suku tahunan kepada ramalan dan ramalan. Pendekatan salin dan tampal ringkas daripada data berstruktur kepada tidak berstruktur tidak mencukupi dan sebenarnya boleh memburukkan perniagaan anda.

Perkataan biasa "sampah masuk, sampah keluar" sangat sesuai untuk set data tidak berstruktur. Mungkin sudah tiba masanya untuk meninggalkan pendekatan semasa anda terhadap data.

Perkara yang perlu diambil perhatian apabila menggunakan pembelajaran mesin untuk memastikan kualiti data

Apabila mempertimbangkan penyelesaian untuk data tidak berstruktur, pembelajaran mesin harus menjadi pilihan pertama. Ini kerana pembelajaran mesin boleh menganalisis set data yang besar dan mencari corak dalam data yang tidak kemas dengan cepat. Dengan latihan yang betul, model pembelajaran mesin boleh belajar mentafsir, menyusun dan mengelaskan sebarang bentuk jenis data tidak berstruktur.

Sebagai contoh, model pembelajaran mesin boleh belajar untuk mengesyorkan peraturan untuk analisis data, pembersihan dan penskalaan, menjadikan kerja dalam industri seperti penjagaan kesihatan dan insurans lebih cekap dan tepat. Begitu juga, program pembelajaran mesin boleh mengenal pasti dan mengklasifikasikan data teks mengikut topik atau sentimen dalam sumber data tidak berstruktur, seperti yang terdapat di media sosial atau dalam rekod e-mel.

Sambil anda meningkatkan usaha kualiti data anda melalui pembelajaran mesin, ingatlah beberapa pertimbangan utama:

  • Automasikan: Operasi data manual seperti penyahgandingan dan pembetulan data membosankan dan memakan masa. Ia juga merupakan operasi yang semakin usang memandangkan keupayaan automasi hari ini, yang mengurus operasi harian yang membosankan dan membolehkan pasukan data menumpukan pada kerja yang lebih penting dan lebih cekap. Untuk memasukkan automasi ke dalam saluran paip data anda, cuma pastikan anda mempunyai prosedur operasi dan model tadbir urus yang diseragamkan untuk menggalakkan proses yang diperkemas dan boleh diramal di sekeliling sebarang aktiviti automasi.
  • Jangan abaikan pengawasan manusia: Kerumitan data akan sentiasa memerlukan tahap kepakaran dan konteks yang hanya boleh diberikan oleh manusia, sama ada data berstruktur atau tidak berstruktur. Walaupun pembelajaran mesin dan penyelesaian digital lain akan membantu pasukan data, jangan bergantung pada teknologi sahaja. Sebaliknya, memperkasakan pasukan untuk memanfaatkan teknologi sambil menyediakan pengawasan tetap terhadap proses data individu. Kompromi ini boleh membetulkan ralat data yang tidak dapat dikendalikan oleh sebarang langkah teknikal sedia ada. Kemudian, model itu boleh dilatih semula berdasarkan perbezaan ini.
  • Kesan punca: Apabila anomali atau ralat data lain berlaku, ia selalunya bukan satu peristiwa. Jika anda mengabaikan isu yang lebih mendalam semasa mengumpul dan menganalisis data, organisasi anda berisiko menghadapi isu kualiti yang berleluasa sepanjang saluran data anda. Malah inisiatif pembelajaran mesin yang terbaik tidak dapat menangani ralat yang dijana di hulu, dan sekali lagi campur tangan manusia yang terpilih dapat mengukuhkan aliran data keseluruhan dan mencegah ralat yang ketara.
  • Jangan membuat andaian tentang kualiti: Untuk menganalisis kualiti data dari semasa ke semasa, cari cara untuk mengukur data tidak berstruktur secara kualitatif dan bukannya membuat andaian tentang bentuk data. Anda boleh membuat dan menguji senario "bagaimana-jika" untuk membangunkan kaedah pengukuran unik anda sendiri, output yang dijangkakan dan parameter. Menjalankan percubaan dengan data anda menyediakan cara yang pasti untuk mengira kualiti dan prestasi data, dan anda boleh mengukur kualiti data itu sendiri secara automatik. Langkah ini memastikan bahawa kawalan kualiti sentiasa ada dan berfungsi sebagai ciri penting saluran paip pengingesan data, bukannya difikirkan semula.

Data tidak berstruktur ialah khazanah peluang dan cerapan baharu. Walau bagaimanapun, hanya 18% organisasi pada masa ini memanfaatkan data tidak berstruktur mereka, dan kualiti data merupakan salah satu faktor utama yang menghalang lebih banyak perniagaan.

Memandangkan data tidak berstruktur menjadi lebih popular dan lebih relevan kepada keputusan dan operasi perniagaan harian, kawalan kualiti berasaskan pembelajaran mesin memberikan jaminan yang amat diperlukan bahawa data anda adalah relevan dan tepat, berguna. Jika anda tidak terperangkap pada kualiti data, anda boleh komited untuk menggunakan data untuk memajukan syarikat anda.

Fikirkan peluang yang timbul apabila anda mengawal data anda, atau lebih baik lagi, biarkan pembelajaran mesin mengendalikan kerja untuk anda.

Tajuk asal: Selesaikan masalah data tidak berstruktur dengan pembelajaran mesin​ , Pengarang: Edgar Honing​

Atas ialah kandungan terperinci Selesaikan masalah data tidak berstruktur dengan pembelajaran mesin. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!

Kenyataan:
Artikel ini dikembalikan pada:51cto.com. Jika ada pelanggaran, sila hubungi admin@php.cn Padam