Rumah >Peranti teknologi >AI >Memikirkan semula pengesanan anomali berdasarkan data berstruktur: Apakah jenis rangkaian saraf graf yang kita perlukan?
Alamat kertas: https://arxiv.org/abs/2205.15508
Alamat kod: https://github. com/squareRoot3/Rethinking-Anomaly-Detection
Pengesanan anomali ialah salah satu tugas klasik perlombongan data. Menganalisis data tidak normal boleh membantu syarikat atau pengguna memahami mekanisme pembentukan di sebaliknya, supaya dapat membuat keputusan yang sepadan dan mengelakkan kerugian. Dengan perkembangan Internet, pengesanan anomali untuk data berstruktur iaitu pengesanan anomali graf semakin mendapat perhatian.
Pengesanan anomali graf boleh ditakrifkan secara khusus sebagai: mencari sebilangan kecil objek pada graf (nod, tepi, subgraf, dll.), yang mempunyai corak pengedaran yang berbeza daripada kebanyakan objek lain. Artikel ini memfokuskan pada tugas pengesanan nod abnormal pada graf. Berbanding dengan kaedah pengesanan anomali tradisional, pengesanan anomali graf boleh menggunakan maklumat yang berkaitan antara entiti yang berbeza untuk menyampaikan senario sebenar dengan lebih baik seperti keselamatan rangkaian, pengesanan penipuan, pengesanan troll, kawalan risiko kewangan dan pemantauan kesalahan.
Rajah berikut membandingkan secara visual perbezaan antara pengesanan anomali tradisional dan tugas pengesanan anomali berorientasikan graf.
Rajah 1: Perbandingan pengesanan anomali tradisional dan tugas pengesanan anomali berorientasikan graf.
Dalam beberapa tahun kebelakangan ini, rangkaian saraf graf telah menjadi alat yang berkuasa untuk menganalisis dan memproses data berstruktur. Rangkaian saraf graf mempelajari perwakilan pembenaman yang mengandungi ciri nod sendiri dan maklumat jiran untuk menyelesaikan tugas hiliran dengan lebih baik seperti klasifikasi, pembinaan semula dan regresi.
Walau bagaimanapun, rangkaian saraf graf umum (seperti rangkaian konvolusi, dsb.) direka terutamanya untuk data biasa dan terdedah kepada masalah "terlalu lancar" dalam tugas pengesanan anomali, iaitu, nod abnormal dan Ekspresi nod normal sukar dibezakan, menjejaskan ketepatan pengesanan keabnormalan. Sebagai contoh, dalam aplikasi praktikal pengesanan penipuan kewangan, akaun tidak normal biasanya menyamar dengan menjalankan transaksi biasa dengan berbilang akaun biasa untuk mengurangkan kecurigaan mereka, dan kemudian menjalankan transaksi haram. "Penipuan hubungan" ini meningkatkan lagi kesukaran pengesanan anomali graf.
Untuk menyelesaikan masalah di atas, penyelidik secara khusus mencadangkan model rangkaian saraf graf untuk tugas pengesanan anomali, termasuk (1) menggunakan mekanisme perhatian untuk mengagregatkan maklumat kejiranan daripada pelbagai pandangan; 2) ) Gunakan kaedah pensampelan semula untuk mengagregat maklumat kejiranan bagi kategori yang berbeza; (3) Reka bentuk fungsi kehilangan tambahan untuk membantu dalam latihan rangkaian saraf graf, dsb. Kaedah ini terutamanya mereka bentuk rangkaian saraf graf untuk mengendalikan anomali dari perspektif domain spatial, tetapi tiada siapa yang menganggap masalah ini dari perspektif domain spektrum.
Ternyata memilih penapis spektrum yang berbeza akan menjejaskan keupayaan ekspresif rangkaian saraf graf, sekali gus menyebabkan perbezaan dalam prestasi.
Untuk mengisi jurang dalam penyelidikan sedia ada, artikel ini berharap dapat menjawab soalan: Bagaimana untuk menyesuaikan penapis spektrum untuk saraf graf rangkaian Pengesanan anomali?
Artikel ini cuba buat pertama kalinya untuk menganalisis data tidak normal pada graf daripada perspektif domain spektrum dan memerhatikan bahawa: data tidak normal akan menyebabkan tenaga spektrum "beralih ke kanan" , iaitu, tenaga akan kurang tertumpu dalam frekuensi rendah, sambil lebih memfokuskan pada frekuensi tinggi.
Untuk memvisualisasikan fenomena peralihan ke kanan ini, penyelidik mula-mula menjana graf Barabási–Albert (graf BA) secara rawak dengan 500 nod dan mengandaikan bahawa atribut nod normal dan nod abnormal pada graf mengikut dua A taburan Gaussian berbeza, di mana varians nod terpencil adalah lebih besar.
Bahagian atas gambar menunjukkan taburan data yang mengandungi darjah anomali yang berbeza pada plot BA, manakala bahagian bawah menunjukkan taburan tenaga spektrum yang sepadan. Antaranya, histogram mewakili bahagian tenaga selang spektrum yang sepadan, dan graf garis mewakili bahagian terkumpul tenaga domain frekuensi dari sifar ke titik itu.
Rajah 2: Visualisasi fenomena "anjakan kanan" tenaga spektrum.
Seperti yang dapat dilihat daripada rajah di atas, apabila perkadaran data abnormal ialah 0%, kebanyakan tenaga tertumpu pada bahagian frekuensi rendah (λ
Dalam senario kehidupan sebenar, data tidak normal biasanya mengikuti pengedaran yang lebih kompleks. Pada empat set data pengesanan anomali graf berskala besar, penyelidik juga mengesahkan kewujudan fenomena "anjakan kanan". Set data pengesanan pengguna abnormal Amazon dalam rajah di bawah ialah contoh Apabila sebahagian daripada nod abnormal dalam data dipadamkan, tenaga frekuensi rendah pada spektrum meningkat dengan ketara, manakala tenaga frekuensi tinggi berkurangan dengan sewajarnya. Jika bilangan nod rawak yang sama dikeluarkan, taburan tenaga spektrum hampir tidak berubah. Ini seterusnya mengesahkan bahawa data tidak normal adalah kunci kepada "anjakan kanan" tenaga spektrum.
Rajah 3: Kesan pemadaman nod berbeza pada pengagihan tenaga spektrum pada set data pengesanan pengguna abnormal Amazon: gambar asal (Asal), pemadaman nod rawak (Drop -Random), padamkan nod abnormal (Drop-Anomaly)
Analisis dalam bahagian sebelumnya menunjukkan bahawa apabila mengesan anomali graf, Perlu memberi perhatian kepada kesan "anjakan kanan". Contohnya, dalam set data Amazon di atas, maklumat spektrum berhampiran nilai eigen λ=1 berkait rapat dengan data tidak normal. Untuk menangkap maklumat yang tidak normal dengan lebih baik, rangkaian saraf graf perlu mempunyai sifat penapis laluan jalur, hanya mengekalkan isyarat berhampiran λ=1 sambil menapis isyarat yang tinggal.
Malangnya, kebanyakan rangkaian neural graf sedia ada ialah penapis laluan rendah atau penapis suai, yang tidak dapat menjamin sifat laluan jalur. Walaupun penapis adaptif mempunyai keupayaan untuk memuatkan sebarang fungsi, ia juga mungkin merosot menjadi penapis laluan rendah dalam pengesanan anomali. Ini kerana dalam keseluruhan set data, maklumat frekuensi tinggi yang sepadan dengan data abnormal menyumbang sebahagian kecil, manakala kebanyakan tenaga spektrum masih tertumpu pada frekuensi rendah.
Untuk mengendalikan "anjakan kanan" dengan lebih baik yang disebabkan oleh data tidak normal, penyelidik telah mencadangkan kaedah baharu pengesanan anomali graf - Rangkaian Neural Graf Wavelet Beta (BWGNN) . Dengan menggunakan teori wavelet graf Hammond, mereka mereka bentuk kernel wavelet baharu berdasarkan fungsi Beta sebagai penapis spektrum untuk rangkaian saraf graf.
Berbanding dengan fungsi Inti Haba yang biasa digunakan, fungsi Beta sebagai kernel wavelet bukan sahaja memenuhi keperluan penapis laluan jalur, tetapi juga mempunyai lokaliti domain frekuensi yang lebih baik dan lokaliti domain spatial. Rajah di bawah membandingkan perbezaan antara wavelet termokernel dan wavelet kernel beta.
Rajah 4: Perbandingan wavelet kernel terma dan wavelet kernel Beta dalam domain spektrum (kiri) dan domain spatial (kanan) Fungsi Beta mempunyai jalur yang lebih baik Harta am dan tempatan.
Artikel ini mengesahkan prestasi BWGNN pada empat set data pengesanan anomali graf berskala besar. Antaranya, set data Yelp digunakan untuk mengesan komen tidak normal pada laman web dianping, set data Amazon digunakan untuk mengesan pengguna tidak normal pada platform e-dagang, set data T-Finance digunakan untuk mengesan pengguna abnormal pada rangkaian transaksi, dan set data T-Social digunakan untuk mengesan pengguna tidak normal pada rangkaian sosial, termasuk sehingga Lima juta nod dan 70 juta tepi.
Seperti yang dapat dilihat daripada jadual di bawah, berbanding dengan model klasifikasi tradisional, rangkaian saraf graf am dan model pengesanan anomali graf khusus, BWGNN melakukan dalam dua senario: 40% data latihan dan 1% data latihan (separuh diselia) mencapai keputusan yang lebih baik. Dari segi kecekapan operasi, BWGNN hampir dengan penggunaan masa kebanyakan rangkaian saraf graf umum dan lebih cekap daripada model pengesanan anomali graf lain.
Dalam artikel ini, penyelidik mendapati bahawa kemunculan nod abnormal pada graf akan menyebabkan tenaga spektrum untuk "beralih ke kanan" ”, yang menyediakan perspektif baharu untuk pengesanan anomali pada data berstruktur. Berdasarkan penemuan ini, kertas kerja ini mencadangkan alat baharu untuk pengesanan anomali graf—Rangkaian Neural Graf Gelombang Beta (BWGNN). Ia menangkap maklumat anomali frekuensi tinggi yang dijana oleh "anjakan kanan" melalui penapis laluan jalur yang direka khas, dan mencapai hasil yang optimum pada berbilang set data.
Dalam pelaksanaan sebenar, pengesanan anomali graf biasanya merupakan kejuruteraan sistem yang kompleks, tetapi memilih rangkaian saraf graf yang sesuai ialah faktor utama yang mempengaruhi prestasi sistem. BWGNN yang dicadangkan oleh penyelidik mempunyai reka bentuk yang diperkemas, kerumitan yang rendah, dan mudah diganti Ia merupakan pilihan baharu untuk rangkaian saraf graf.
Atas ialah kandungan terperinci Memikirkan semula pengesanan anomali berdasarkan data berstruktur: Apakah jenis rangkaian saraf graf yang kita perlukan?. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!