Rumah > Artikel > Peranti teknologi > Gabungkan pendekatan berasaskan peraturan dan pembelajaran mesin untuk membina sistem hibrid yang berkuasa
Selepas bertahun-tahun ini, kita semua yakin bahawa ML boleh, jika tidak menunjukkan prestasi yang lebih baik, sekurang-kurangnya memadankan penyelesaian pra-ML hampir di semua tempat. Sebagai contoh, untuk beberapa kekangan peraturan, kita semua akan memikirkan sama ada ia boleh digantikan dengan model ML berasaskan pokok. Tetapi dunia tidak selalunya hitam dan putih, dan walaupun pembelajaran mesin sudah tentu mempunyai tempatnya dalam menyelesaikan masalah, ia tidak selalunya merupakan penyelesaian terbaik. Sistem berasaskan peraturan bahkan boleh mengatasi pembelajaran mesin, terutamanya dalam bidang yang kebolehjelasan, keteguhan dan ketelusan adalah kritikal.
Dalam artikel ini, saya akan memperkenalkan beberapa kes praktikal dan cara menggabungkan peraturan manual dan ML menjadikan penyelesaian kami lebih baik.
Sistem berasaskan peraturan menyediakan sokongan untuk membuat keputusan melalui peraturan yang telah ditetapkan Sistem menilai data mengikut peraturan yang disimpan dan melaksanakan operasi khusus berdasarkan pemetaan.
Berikut ialah beberapa contoh:
Pengesanan Penipuan: Dalam pengesanan penipuan, sistem berasaskan peraturan boleh digunakan untuk membenderakan dan menyiasat transaksi yang mencurigakan berdasarkan peraturan yang dipratentukan dengan cepat.
Sebagai contoh, menipu catur, kaedah asas mereka ialah memasang aplikasi catur komputer di tetingkap lain dan menggunakan program untuk bermain catur Tidak kira betapa rumitnya program itu, setiap langkah memerlukan 4- 5 saat untuk diselesaikan . Oleh itu, "ambang" ditambah untuk mengira masa pemain untuk setiap langkah Jika turun naik tidak besar, dia boleh dinilai sebagai penipu, seperti yang ditunjukkan dalam rajah di bawah:
Industri penjagaan kesihatan: Sistem berasaskan peraturan boleh digunakan untuk mengurus preskripsi dan mencegah ralat ubat. Mereka juga boleh menjadi sangat berguna dalam membantu doktor menetapkan analisis tambahan kepada pesakit berdasarkan keputusan sebelumnya.
Pengurusan Rantaian Bekalan: Dalam pengurusan rantaian bekalan, sistem berasaskan peraturan boleh digunakan untuk menjana makluman inventori yang rendah, membantu mengurus tarikh tamat tempoh atau pelancaran produk baharu.
Sistem pembelajaran mesin (ML) menggunakan algoritma untuk belajar daripada data dan membuat ramalan atau mengambil tindakan tanpa perlu diprogramkan secara eksplisit. Sistem pembelajaran mesin menggunakan pengetahuan yang diperoleh melalui latihan mengenai sejumlah besar data untuk membuat ramalan dan keputusan tentang data baharu. Algoritma ML boleh meningkatkan prestasi mereka kerana lebih banyak data digunakan untuk latihan. Sistem pembelajaran mesin termasuk pemprosesan bahasa semula jadi, pengecaman imej dan pertuturan, analisis ramalan dan banyak lagi.
Pengesanan Penipuan: Bank boleh menggunakan sistem pembelajaran mesin untuk belajar daripada transaksi penipuan yang lalu dan mengenal pasti aktiviti penipuan yang berpotensi dalam masa nyata. Atau, ia mungkin merekayasa balik sistem dan mencari transaksi yang kelihatan sangat "tidak normal."
Penjagaan kesihatan: Hospital mungkin menggunakan sistem ML untuk menganalisis data pesakit dan meramalkan kemungkinan pesakit mendapat penyakit tertentu berdasarkan sinar-X tertentu.
Sistem berasaskan peraturan dan sistem ML mempunyai kelebihan dan kekurangannya sendiri
Berasaskan peraturan Kelebihan sistem adalah jelas:
Kelemahan:
Berdasarkan Kelebihan sistem ml juga jelas
Kelemahan:
Melalui perbandingan, kami mendapati bahawa kelebihan dan kekurangan kedua-dua sistem tidak bercanggah dan saling melengkapi . , jadi adakah cara untuk menggabungkan kelebihan mereka?
Sistem hibrid, yang menggabungkan sistem berasaskan peraturan dan algoritma pembelajaran mesin, telah menjadi semakin popular baru-baru ini. Mereka boleh memberikan hasil yang lebih mantap, tepat dan cekap, terutamanya apabila berhadapan dengan masalah yang kompleks.
Mari kita lihat sistem hibrid yang boleh dilaksanakan menggunakan set data sewa:
Kejuruteraan Ciri: Tukar Lantai kepada Tiga Satu daripada beberapa kategori: tinggi, sederhana atau rendah, bergantung pada bilangan tingkat dalam bangunan. Ini boleh meningkatkan kecekapan model ML
Peraturan berkod keras boleh digunakan sebagai sebahagian daripada proses kejuruteraan ciri untuk mengenal pasti dan mengekstrak ciri penting dalam data input. Contohnya, jika domain masalah adalah jelas dan jelas, peraturan boleh ditakrifkan dengan mudah dan tepat, dan peraturan berkod keras boleh digunakan untuk mencipta ciri baharu atau mengubah suai ciri sedia ada untuk meningkatkan prestasi model pembelajaran mesin. Walaupun peraturan pengekodan keras dan kejuruteraan ciri adalah dua teknik yang berbeza, ia boleh digunakan bersama untuk meningkatkan prestasi model pembelajaran mesin. Peraturan berkod keras boleh digunakan untuk mencipta ciri baharu atau mengubah suai ciri sedia ada, manakala kejuruteraan ciri boleh digunakan untuk mengekstrak ciri yang tidak mudah ditangkap oleh peraturan berkod keras.
Pasca pemprosesan: bulatkan atau normalkan hasil akhir.
Peraturan berkod keras boleh digunakan sebagai sebahagian daripada peringkat pasca pemprosesan untuk mengubah suai output model pembelajaran mesin. Contohnya, jika model pembelajaran mesin mengeluarkan set ramalan yang tidak konsisten dengan beberapa peraturan atau kekangan yang diketahui, peraturan berkod keras boleh digunakan untuk mengubah suai ramalan supaya ia mematuhi peraturan atau kekangan. Teknik pasca pemprosesan seperti penapisan atau pelicinan boleh memperhalusi output model pembelajaran mesin dengan mengalih keluar hingar atau ralat, atau meningkatkan ketepatan keseluruhan ramalan. Teknik ini amat berkesan apabila terdapat ketidakpastian dalam ramalan kebarangkalian keluaran model pembelajaran mesin atau dalam data input. Dalam sesetengah kes, teknik pasca pemprosesan juga boleh digunakan untuk meningkatkan data input dengan maklumat tambahan. Contohnya, jika model pembelajaran mesin dilatih pada set data terhad, teknik pasca pemprosesan boleh digunakan untuk mengekstrak ciri tambahan daripada sumber luaran (seperti media sosial atau suapan berita) untuk meningkatkan ketepatan ramalan.
Mari kita lihat data tentang penyakit jantung:
Jika kita menggunakan hutan rawak untuk meramalkan kelas sasaran:
clf = RandomForestClassifier(n_estimators=100, random_state=random_seed X_train, X_test, y_train, y_test = train_test_split( df.iloc[:, :-1], df.iloc[:, -1], test_size=0.30, random_state=random_seed ) clf.fit(X_train, y_train))
Salah satu sebab untuk memilih hutan rawak di sini ialah keupayaannya untuk membina kepentingan ciri. Di bawah anda boleh melihat kepentingan ciri yang digunakan untuk latihan:
Lihat hasilnya:
y_pred = pd.Series(clf.predict(X_test), index=y_test.index cm = confusion_matrix(y_test, y_pred, labels=clf.classes_) conf_matrix = ConfusionMatrixDisplay(confusion_matrix=cm, display_labels=clf.classes_) conf_matrix.plot())
f1_score(y_test, y_pred): 0.74 recall_score(y_test, y_pred): 0.747
Ketika itulah pakar kardiologi melihat model anda. Berdasarkan pengalaman dan pengetahuan domainnya, beliau percaya bahawa ciri talasemia (thal) adalah lebih penting daripada yang ditunjukkan di atas. Jadi kami memutuskan untuk membina histogram dan melihat hasilnya.
Kemudian nyatakan peraturan wajib
y_pred[X_test[X_test["thal"] == 2].index] = 1
Matriks kekeliruan yang terhasil menjadi seperti ini:
f1_score(y_test, y_pred): 0.818 recall_score(y_test, y_pred): 0.9
Hasilnya adalah peningkatan yang besar. Di sinilah pengetahuan domain memainkan peranan penting dalam menilai markah pesakit.
Dataset di bawah ialah transaksi penipuan bank.
Dataset sangat tidak seimbang:
df["Class"].value_counts() 0 28431 1 4925
Untuk mencipta peraturan, kami melihat plot kotak pengedaran ciri:
Kami akan menulis kelas HybridEstimator kami sendiri, yang akan berfungsi sebagai penganggar untuk peraturan manual kami:
rreeeKami boleh membandingkan Keputusan tulen sistem berasaskan peraturan dan kaedah kNN Sebab kNN digunakan di sini ialah ia boleh mengendalikan data yang tidak seimbang:
Sebagaimana kita. boleh lihat, kita Dengan hanya 3 peraturan yang ditulis, ia berprestasi lebih baik daripada model KNN
Contoh kami di sini mungkin tidak begitu tepat, tetapi ia sudah cukup untuk menggambarkan bahawa model hibrid menyediakan faedah praktikal , seperti pelaksanaan yang pantas, keteguhan kepada outlier dan peningkatan ketelusan. Mereka berfaedah apabila menggabungkan logik perniagaan dengan pembelajaran mesin. Contohnya, sistem ML peraturan hibrid dalam penjagaan kesihatan boleh mendiagnosis penyakit dengan menggabungkan peraturan klinikal dengan algoritma pembelajaran mesin yang menganalisis data pesakit. Pembelajaran mesin boleh mencapai hasil yang cemerlang pada banyak tugas, tetapi ia juga memerlukan pengetahuan domain tambahan. Pengetahuan domain boleh membantu model pembelajaran mesin memahami data dengan lebih baik dan meramal serta mengklasifikasikan dengan lebih tepat.
Model hibrid boleh membantu kami menggabungkan pengetahuan domain dan model pembelajaran mesin. Model hibrid biasanya terdiri daripada berbilang submodel, setiap satunya dioptimumkan untuk pengetahuan domain tertentu. Submodel ini boleh menjadi model berdasarkan peraturan berkod keras, model berdasarkan kaedah statistik, atau juga model berdasarkan pembelajaran mendalam.
Model hibrid boleh menggunakan pengetahuan domain untuk membimbing proses pembelajaran model pembelajaran mesin, dengan itu meningkatkan ketepatan dan kebolehpercayaan model. Contohnya, dalam bidang perubatan, model hibrid boleh menggabungkan kepakaran doktor dengan kuasa model pembelajaran mesin untuk mendiagnosis penyakit pesakit. Dalam bidang pemprosesan bahasa semula jadi, model hibrid boleh menggabungkan pengetahuan linguistik dan keupayaan model pembelajaran mesin untuk lebih memahami dan menjana bahasa semula jadi.
Ringkasnya, model hibrid boleh membantu kami menggabungkan pengetahuan domain dan model pembelajaran mesin, dengan itu meningkatkan ketepatan dan kebolehpercayaan model serta mempunyai pelbagai aplikasi dalam pelbagai tugas.
Atas ialah kandungan terperinci Gabungkan pendekatan berasaskan peraturan dan pembelajaran mesin untuk membina sistem hibrid yang berkuasa. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!