Rumah >Peranti teknologi >AI >Bagaimanakah pembelajaran mesin tanpa pengawasan boleh memberi manfaat kepada automasi industri?
Persekitaran industri moden dipenuhi dengan penderia dan komponen pintar, yang kesemuanya bersama-sama menghasilkan banyak data. Data ini, yang belum diterokai di kebanyakan kilang hari ini, menguasai pelbagai aplikasi baharu yang menarik. Malah, menurut IBM, purata kilang menjana 1TB data pengeluaran setiap hari. Walau bagaimanapun, hanya kira-kira 1% data bertukar menjadi cerapan yang boleh diambil tindakan.
Pembelajaran mesin (ML) ialah teknologi asas yang direka untuk memanfaatkan data ini dan membuka kunci sejumlah besar nilai. Menggunakan data latihan, sistem pembelajaran mesin boleh membina model matematik yang mengajar sistem untuk melaksanakan tugas tertentu tanpa arahan yang jelas.
ML menggunakan algoritma yang bertindak ke atas data untuk membuat keputusan sebahagian besarnya tanpa campur tangan manusia. Bentuk pembelajaran mesin yang paling biasa dalam automasi industri ialah pembelajaran mesin diselia, yang menggunakan sejumlah besar data sejarah yang dilabelkan oleh manusia untuk melatih model (iaitu, latihan algoritma diselia manusia).
Ini berguna untuk masalah yang terkenal seperti kecacatan galas, kegagalan pelinciran atau kecacatan produk. Apabila pembelajaran mesin yang diselia tidak mencukupi ialah apabila data sejarah yang mencukupi tidak tersedia, pelabelan terlalu memakan masa atau mahal, atau pengguna tidak pasti apa yang mereka cari dalam data. Di sinilah pembelajaran mesin yang tidak diselia dimainkan.
Pembelajaran mesin tanpa seliaan bertujuan untuk beroperasi pada data tidak berlabel menggunakan algoritma yang mahir dalam mengecam corak dan menentukan anomali dalam data. Pembelajaran mesin tanpa pengawasan yang digunakan dengan betul menyediakan pelbagai kes penggunaan automasi industri, daripada pemantauan keadaan dan ujian prestasi kepada keselamatan siber dan pengurusan aset.
Pembelajaran mesin yang diselia lebih mudah dilaksanakan berbanding pembelajaran mesin yang tidak diselia. Dengan model yang terlatih dengan betul, ia boleh memberikan hasil yang sangat konsisten dan boleh dipercayai. Pembelajaran mesin yang diselia mungkin memerlukan sejumlah besar data sejarah - seperti yang diperlukan untuk memasukkan semua kes yang berkaitan, iaitu, untuk mengesan kecacatan produk, data tersebut perlu mengandungi bilangan kes produk yang rosak yang mencukupi. Pelabelan set data besar-besaran ini boleh memakan masa dan mahal. Tambahan pula, model latihan adalah satu seni. Ia memerlukan sejumlah besar data, disusun dengan betul, untuk menghasilkan hasil yang baik.
Kini, proses menanda aras algoritma ML yang berbeza telah dipermudahkan dengan ketara menggunakan alatan seperti AutoML. Pada masa yang sama, terlalu mengekang proses latihan boleh mengakibatkan model yang berprestasi baik pada set latihan tetapi berprestasi buruk pada data sebenar. Satu lagi kelemahan utama ialah pembelajaran mesin yang diselia tidak begitu berkesan untuk mengenal pasti arah aliran yang tidak dijangka dalam data atau menemui fenomena baharu. Untuk jenis aplikasi ini, pembelajaran mesin tanpa pengawasan boleh memberikan hasil yang lebih baik.
Berbanding dengan pembelajaran mesin diselia, pembelajaran mesin tanpa pengawasan hanya beroperasi pada input tidak berlabel . Ia menyediakan alat yang berkuasa untuk penerokaan data untuk menemui corak dan korelasi yang tidak diketahui tanpa bantuan manusia. Keupayaan untuk beroperasi pada data tidak berlabel menjimatkan masa dan wang serta membolehkan pembelajaran mesin tanpa pengawasan beroperasi pada data sebaik sahaja input dijana.
Kerugiannya ialah pembelajaran mesin tanpa pengawasan adalah lebih kompleks daripada pembelajaran mesin yang diselia. Ia lebih mahal, memerlukan tahap kepakaran yang lebih tinggi, dan secara amnya memerlukan lebih banyak data. Outputnya cenderung kurang dipercayai berbanding ML yang diselia, dan akhirnya memerlukan penyeliaan manusia untuk hasil yang optimum.
Tiga bentuk penting teknik pembelajaran mesin tanpa pengawasan ialah pengelompokan, pengesanan anomali dan pengurangan dimensi data.
Seperti namanya, pengelompokan melibatkan menganalisis set data untuk mengenal pasti ciri yang dikongsi antara data dan mengumpulkan kejadian serupa bersama-sama . Oleh kerana pengelompokan ialah teknik ML tanpa pengawasan, algoritma (bukan manusia) menentukan kriteria kedudukan. Oleh itu, pengelompokan boleh membawa kepada penemuan yang mengejutkan dan merupakan alat penerokaan data yang sangat baik.
Berikan contoh mudah: bayangkan tiga orang diminta mengisih buah-buahan di bahagian pengeluaran. Satu mungkin menyusun mengikut jenis buah -- sitrus, buah batu, buah tropika, dll.; Setiap kaedah menyerlahkan set ciri yang berbeza.
Kluster boleh dibahagikan kepada banyak jenis. Yang paling biasa ialah:
Penghimpunan Eksklusif: Tis data diperuntukkan secara eksklusif kepada gugusan.
Kelompok kabur atau bertindih (Penghimpunan Kabur): Tindasan data boleh diberikan kepada berbilang kelompok. Sebagai contoh, oren adalah kedua-dua buah sitrus dan tropika. Dalam kes algoritma ML tanpa pengawasan yang beroperasi pada data tidak berlabel, adalah mungkin untuk menetapkan kebarangkalian bahawa blok data tergolong dalam kumpulan A berbanding kumpulan B dengan betul.
Penghimpunan hierarki: Teknik ini melibatkan membina struktur hierarki data berkelompok dan bukannya satu set kelompok. Oren ialah buah sitrus, tetapi ia juga termasuk dalam kumpulan buah sfera yang lebih besar dan boleh diserap lebih lanjut oleh semua kumpulan buah.
Mari kita lihat satu set algoritma pengelompokan yang paling popular:
K- algoritma min (K-means) mengklasifikasikan data ke dalam kelompok K, di mana nilai K dipratetap oleh pengguna. Pada permulaan proses, algoritma secara rawak memberikan titik data K sebagai centroid untuk kelompok K. Seterusnya, ia mengira min antara setiap titik data dan pusat gugusannya. Ini mengakibatkan penggunaan data kepada kluster. Pada ketika ini, algoritma mengira semula centroid dan mengulangi pengiraan min. Ia mengulangi proses pengiraan centroid dan menyusun semula kelompok sehingga ia mencapai penyelesaian tetap (lihat Rajah 1).
Rajah 1: Algoritma K-means membahagikan set data kepada kelompok K dan mula-mula memilih titik data K secara rawak sebagai centroids , dan kemudian mengedarkan baki kejadian secara rawak ke seluruh kelompok.
Algoritma K-means adalah mudah dan cekap. Ia sangat berguna untuk pengecaman corak dan perlombongan data. Kelemahannya ialah ia memerlukan pengetahuan lanjutan tentang set data untuk mengoptimumkan persediaan. Ia juga dipengaruhi secara tidak seimbang oleh outlier.
Algoritma K-median ialah saudara terdekat bagi K-means . Ia pada dasarnya menggunakan proses yang sama, kecuali daripada mengira min setiap titik data, ia mengira median. Oleh itu, algoritma kurang sensitif kepada outlier.
Berikut ialah beberapa kes penggunaan biasa untuk analisis kelompok:
Pengesanan anomali adalah penting untuk pelbagai kes penggunaan daripada pengesanan kecacatan kepada pemantauan keadaan kepada keselamatan siber. Ini adalah tugas utama dalam pembelajaran mesin tanpa pengawasan. Terdapat beberapa algoritma pengesanan anomali yang digunakan dalam pembelajaran mesin tanpa pengawasan, mari kita lihat dua algoritma yang paling popular:
Kaedah standard pengesanan anomali adalah untuk mewujudkan satu set nilai normal dan kemudian menganalisis setiap data untuk melihat sama ada dan sejauh mana ia menyimpang daripada nilai normal. Ini adalah proses yang sangat memakan masa apabila bekerja dengan set data besar-besaran jenis yang digunakan dalam ML. Algoritma hutan pengasingan mengambil pendekatan yang bertentangan. Ia mentakrifkan outlier sebagai tidak biasa atau sangat berbeza daripada kejadian lain dalam set data. Oleh itu, mereka lebih mudah diasingkan daripada set data yang lain pada keadaan lain.
Algoritma hutan pengasingan mempunyai keperluan memori yang minimum dan masa yang diperlukan adalah berkaitan secara linear dengan saiz set data. Mereka boleh mengendalikan data berdimensi tinggi walaupun ia melibatkan atribut yang tidak berkaitan.
Salah satu cabaran untuk mengenal pasti outlier hanya dengan jaraknya dari centroid Ya, titik data yang berada dalam jarak dekat dari gugusan kecil mungkin terpencil, manakala titik yang kelihatan jauh dari gugusan besar mungkin tidak. Algoritma LOF direka untuk membuat perbezaan ini.
LOF mentakrifkan outlier sebagai titik data dengan sisihan ketumpatan setempat yang jauh lebih besar daripada titik data jirannya (lihat Rajah 2). Walaupun seperti K-means ia memerlukan beberapa persediaan pengguna lebih awal, ia boleh menjadi sangat berkesan. Ia juga boleh digunakan untuk pengesanan kebaharuan apabila digunakan sebagai algoritma separa diselia dan dilatih pada data biasa sahaja.
Rajah 2: Local Outlier Factor (LOF) menggunakan sisihan ketumpatan setempat bagi setiap titik data untuk mengira skor anomali , dengan itu membezakan titik data biasa daripada outlier.
Berikut ialah beberapa kes penggunaan untuk pengesanan anomali:
Pembelajaran mesin adalah berdasarkan jumlah data yang besar, selalunya jumlah yang sangat besar. Satu perkara untuk menapis set data dengan sepuluh hingga berdozen ciri. Set data dengan beribu-ribu ciri (dan ia pasti wujud) boleh menjadi sangat menggembirakan. Oleh itu, langkah pertama dalam ML boleh menjadi pengurangan dimensi untuk mengurangkan data kepada ciri yang paling bermakna.
Algoritma biasa yang digunakan untuk pengurangan dimensi, pengecaman corak dan penerokaan data ialah Analisis Komponen Utama (PCA). Perbincangan terperinci tentang algoritma ini adalah di luar skop artikel ini. Boleh dikatakan ia boleh membantu mengenal pasti subset data yang saling ortogon, iaitu ia boleh dialih keluar daripada set data tanpa menjejaskan analisis utama. PCA mempunyai beberapa kes penggunaan yang menarik:
Pembelajaran mesin tanpa pengawasan tidak lebih baik atau lebih buruk daripada pembelajaran mesin yang diselia. Untuk projek yang betul, ia boleh menjadi sangat berkesan. Walau bagaimanapun, peraturan terbaik adalah untuk menjadikannya mudah, jadi pembelajaran mesin tanpa pengawasan biasanya hanya digunakan pada masalah yang tidak dapat diselesaikan oleh pembelajaran mesin yang diawasi.
Fikirkan tentang soalan berikut untuk menentukan pendekatan pembelajaran mesin yang terbaik untuk projek anda:
Akhir sekali, berikut ialah beberapa petua untuk membantu memastikan kejayaan:
Data yang dikumpul dalam tetapan industri boleh menjadi sumber yang berharga, tetapi hanya jika digunakan dengan sewajarnya. Pembelajaran mesin tanpa pengawasan boleh menjadi alat yang berkuasa untuk menganalisis set data untuk mengekstrak cerapan yang boleh diambil tindakan. Mengguna pakai teknologi ini boleh mencabar, tetapi ia boleh memberikan kelebihan daya saing yang ketara dalam dunia yang mencabar.
Atas ialah kandungan terperinci Bagaimanakah pembelajaran mesin tanpa pengawasan boleh memberi manfaat kepada automasi industri?. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!