Rumah > Artikel > Peranti teknologi > Bagaimanakah NetEase mengesan dan mendiagnosis penunjuk data yang tidak normal?
Petunjuk adalah berkait rapat dengan perniagaan. terletak pada mengenal pasti masalah dan menemui sorotan untuk menyelesaikan masalah dan mempromosikan sorotan tepat pada masanya. Dengan perkembangan selanjutnya perniagaan e-dagang, lelaran perniagaan adalah pantas, logiknya kompleks, bilangan penunjuk semakin meningkat, dan perbezaan antara penunjuk adalah sangat besar, dan perubahannya sangat cepat penunjuk yang tidak normal sistem dan mencari punca masalah adalah penting untuk perniagaan. Jika ambang penggera ditetapkan secara manual, peninggalan mungkin berlaku dengan mudah, dan ia sangat memakan masa dan mahal. Kami berharap untuk membina kaedah automatik yang boleh mencapai matlamat berikut: Peraturan, dimensi atribusi, dll. tidak lagi memerlukan input pengguna manual dalam sistem automatik.
1 Apakah anomali#๐๐๐๐๐##๐ # Langkah pertama dalam kerja sains data adalah untuk menentukan masalah. Takrifan keabnormalan kami ialah anomali dalam penunjuk data yang terlalu tinggi atau terlalu rendah, atau sangat turun naik, adalah tidak normal dan memerlukan amaran dan diagnosis awal. Anomali penunjuk terbahagi kepada tiga jenis berikut:
#๐๐ anomali nilai #Absolute ๐ ๐#
merujuk kepada outlier statistik yang tidak mengikut pengedaran yang wujud bagi penunjuk itu.
Tiga anomali ini adalah bebas antara satu sama lain dan senario yang berbeza mungkin sepadan dengan jenis anomali yang berbeza.
#๐๐๐๐๐๐๐๐ pengesanan , automasi dan ketepatan masa, kami mereka bentuk rangka kerja pengesanan tanpa pengawasan berdasarkan ujian statistik.
Pengesanan anomali nilai mutlak
i, iaitu nilai mutlak xi
tolak min, dibahagikan dengan sisihan piawai. Seterusnya, hitung nilai kritikal ฮปLangkah ketiga ialah mencari sampel yang statistiknya Ri lebih besar daripada ฮปi, iaitu titik abnormal.
Kelebihan kaedah ini ialah: pertama, tidak perlu menyatakan bilangan outlier Anda hanya perlu menetapkan had atas pengecualian had atas, algoritma akan secara automatik menangkap pengecualian Kedua, ia mengatasi masalah bahawa kadar pengesanan 3Sigma terlalu rendah (kurang daripada 1%) dan hanya dapat mengesan anomali yang sangat melampau.
Dalam algoritma GESD, penyesuaian boleh dibuat dengan mengawal had atas kadar pengesanan, tetapi premis kaedah ini ialah penunjuk input diperlukan untuk menjadi diedarkan secara normal. Kebanyakan penunjuk perniagaan e-dagang yang kami perhatikan pada masa ini adalah taburan normal Sudah tentu, terdapat juga penunjuk perniagaan individu (
Jenis kedua ialah pengesanan anomali turun naik, yang mana berdasarkan pengesanan anomali turun naik . Hitung titik bengkok bagi taburan. Kaedah di atas tidak boleh digunakan secara langsung pada taburan turun naik di sini, terutamanya kerana kebanyakan turun naik penunjuk tidak teragih secara normal, jadi ia tidak berkenaan. Prinsip mencari titik infleksi ialah mencari titik lentur maksimum pada lengkung berdasarkan terbitan dan jarak kedua. Kemeruapan yang semakin meningkat adalah lebih besar daripada 0, dan turun naik turun adalah kurang daripada 0. Bagi bahagian yang lebih besar daripada 0 dan kurang daripada 0 pada kedua-dua belah paksi-y, dua titik infleksi kemeruapan harus didapati masing-masing Jika kemeruapan melebihi julat titik infleksi, ia dianggap sebagai turun naik yang tidak normal. Walau bagaimanapun, dalam beberapa kes, titik infleksi mungkin tidak wujud, atau titik infleksi mungkin datang terlalu awal, menyebabkan kadar pengesanan terlalu tinggi Oleh itu, kaedah lain juga diperlukan untuk mengetahui, seperti kuantil. Satu kaedah pemeriksaan bukanlah ubat penawar dan perlu digunakan dalam kombinasi.
Yang ketiga ialah pengesanan anomali trend, berdasarkan ujian Man-Kendall. Mula-mula hitung statistik S, di mana sgn ialah fungsi tanda Mengikut hubungan saiz relatif antara nilai sebelum dan selepas jujukan penunjuk, tiga nilai pemetaan seperti -1, 1, dan 0 boleh diperolehi. dengan memasangkannya secara berpasangan. Dengan menyeragamkan statistik S, kita mendapat Z, yang boleh ditukar kepada nilai-p dengan melihat jadual. Secara statistik, arah aliran yang ketara dipertimbangkan apabila nilai p kurang daripada 0.05.
Kelebihan pertama ialah ia adalah ujian bukan parametrik, yang boleh digunakan untuk semua pengedaran, jadi tidak perlu kaedah selimut. Kelebihan kedua ialah urutan penunjuk tidak perlu berterusan, kerana apabila mengesan anomali trend, sampel dengan nilai mutlak yang tidak normal perlu dihapuskan terlebih dahulu, jadi kebanyakan jujukan penunjuk tidak berterusan, tetapi kaedah ini boleh menyokong penunjuk tidak berterusan .
Selepas tiga pengecualian selesai, proses pasca diperlukan . Tujuan utama adalah untuk mengurangkan penggera yang tidak perlu dan mengurangkan gangguan kepada perniagaan.
Jenis pertama adalah anomali data ini tidak bermakna sumber data adalah salah, kerana sumber data berada di peringkat gudang data dan dijamin oleh. pasukan gudang data. Anomali data di sini merujuk kepada turun naik yang tidak normal dalam kitaran semasa yang disebabkan oleh anomali dalam kitaran sebelumnya Sebagai contoh, penunjuk meningkat sebanyak 100% semalam dan menurun sebanyak 50% hari ini, ia perlu dihapuskan berdasarkan Syarat-syarat penyingkiran Iaitu (1) terdapat turun naik atau anomali nilai mutlak dalam kitaran sebelumnya (2) turun naik dalam kitaran ini kembali normal, iaitu terdapat turun naik tetapi tiada anomali nilai mutlak dalam arah yang sama sebagai turun naik. Sebagai contoh, jika ia meningkat sebanyak 100% semalam dan menurun sebanyak 50% hari ini, ia akan ditapis oleh modul pasca pemprosesan Walau bagaimanapun, jika ia menurun sebanyak 99%, anomali nilai mutlak masih akan dicetuskan dan amaran akan. dikehendaki. Dengan cara ini, kami menghapuskan lebih daripada 40% anomali turun naik secara keseluruhan.
Pemprosesan jenis kedua adalah berdasarkan kerjasama maklumat promosi peringkat S Dalam jenis promosi ini, penunjuk abnormal mungkin berlaku setiap jam tahu sebab, jadi tak perlu siarkan.
2 Perbandingan kaedah diagnosis anomali penunjuk
#๐ pada inferens yang berbeza dengan tahap yang berbeza. Kaedah diagnostik.
Inferens spekulatif, kesimpulannya bergantung terutamanya pada pengalaman manusia, kesimpulannya agak tidak jelas, dan ruang yang boleh dikendalikan adalah terhad. Ia adalah dalam skop perbincangan metodologi kertas ini.
Inferens kemungkinan, (1) boleh berdasarkan pembelajaran mesin untuk memuatkan data penunjuk, membuat ramalan regresi, dan mengira kepentingan ciri Kelemahan kaedah ini ialah ia tidak dapat menjelaskan punca satu anomali. (2) Jika anda ingin menerangkan satu anomali, anda perlu menambah algoritma nilai shap, yang boleh mengira setiap nilai ramalan dan sumbangan setiap ciri input kepada sasaran. Kaedah ini mempunyai kebolehtafsiran tertentu, tetapi ia tidak cukup tepat, dan ia hanya boleh menarik korelasi, bukan sebab musabab. (3) Rangkaian Bayesian boleh digunakan untuk membina graf dan rangkaian hubungan antara penunjuk, tetapi kelemahannya ialah pengiraan yang agak rumit dan kotak hitam.
Inferens deterministik terutamanya berdasarkan algoritma sumbangan nyahpasang. Sama ada penambahan, pendaraban atau pembahagian, algoritma sumbangan pembongkaran mengukur kesan perubahan dalam penunjuk atau struktur setiap bahagian secara keseluruhan mengikut kaedah pembongkaran. Kelebihannya ialah ia agak deterministik, berkotak putih, sangat mudah disesuaikan, dan boleh mengesan lokasi anomali dengan tepat. Walau bagaimanapun, ia juga mempunyai kekurangan semula jadi, iaitu, terdapat banyak dimensi yang boleh dibongkar untuk penunjuk yang sama, yang akan membawa kepada masalah letupan dimensi gabungan.
Banyak masalah dalam sains data memerlukan pemilihan kaedah yang sepadan berdasarkan senario perniagaan sebenar. Oleh itu, sebelum memperkenalkan pendekatan kami, mari kita perkenalkan situasi semasa perniagaan.
Kami tahu bahawa pertumbuhan platform e-dagang didorong oleh pengekalan trafik dan penukaran berbayar. Memandangkan dividen demografi memuncak dan semakin sukar untuk mendapatkan trafik, NetEase Yanxuan telah menjalankan peningkatan strategik, berubah daripada e-dagang platform kepada e-dagang jenama, dan menjadikan syarikat e-dagang platform seperti JD.com dan Taobao menjadi jenama rakan kongsi.
Kaedah e-dagang jenama yang dipacu pertumbuhan adalah untuk menembusi produk yang meledak melalui kerjasama omni-saluran dan mencipta kategori bintang untuk mewujudkan jenama. Sebagai contoh, anda mungkin tidak semestinya mengetahui NetEase Yanxuan melalui APP kami, tetapi mungkin mengetahui tentang jenama kami melalui membeli beberapa produk di Taobao dan JD.com. Perspektif pertumbuhan NetEase Yanxuan telah beralih daripada memfokuskan pada pemerolehan pengguna, pengekalan dan pembayaran, kepada memfokuskan pada penciptaan produk terlaris dan pertumbuhan terobosan dalam saluran.
Klasifikasi penunjuk e-dagang jenama boleh dibahagikan kepada tahap strategik, tahap taktikal dan tahap pelaksanaan. Lapisan strategik sepadan dengan penunjuk peringkat pertama, penunjuk Bintang Utara. Sebagai contoh, GMV pasaran mengukur pencapaian matlamat dan melaksanakan keputusan strategik syarikat. Lapisan taktikal sepadan dengan penunjuk peringkat kedua, yang diperoleh dengan membahagikan penunjuk peringkat pertama kepada jabatan dan barisan perniagaan di semua peringkat, dan memberi perkhidmatan kepada pengurusan proses. Lapisan pelaksanaan sepadan dengan penunjuk peringkat ketiga, yang seterusnya membahagikan penunjuk peringkat kedua ke dalam kategori produk dan orang yang bertanggungjawab di semua peringkat, dan perkhidmatan dilaksanakan secara terperinci.
Berdasarkan kaedah penggredan indeks semasa e-dagang jenama dan keperluan untuk mencari jabatan, kakitangan dan produk, algoritma kami perlu bersifat deterministik, boleh ditafsir dan berkotak putih. Oleh itu, kami menggunakan kaedah berasaskan pembongkaran untuk mengira impak setiap lapisan dan setiap bahagian penunjuk pada impak keseluruhan, iaitu kaedah sumbangan pembongkaran yang dinyatakan sebelum ini.
Terdapat tiga cara untuk mengira sumbangan, satu tambah, satu darab, dan satu lagi bahagi.
Cara pembongkaran adalah seperti gambar di atas. Y ialah penunjuk sasaran yang akan dibongkar, seperti GMV pasaran, dan Penunjuk tempoh semasa, Xi0 mewakili nilai asal tempoh sebelumnya. Formula pembongkaran penambahan mudah difahami Nilai perubahan setiap nilai dimensi ฮXi dibahagikan dengan nilai asal keseluruhan Y0
adalah sumbangannya.Penguraian pendaraban menggunakan kaedah penguraian faktor produk LMDI (Kaedah Min Logaritma). Dengan mengambil logaritma ln pada kedua-dua belah pada masa yang sama, bentuk aditif boleh diperolehi Kemudian mengikut kaedah di atas, sumbangan setiap faktor boleh diperolehi. Lebih besar nisbah depan ke belakang nilai dimensi, lebih besar sumbangannya. Kaedah pembahagian mengamalkan kaedah pembongkaran dua faktor, iaitu sumbangan setiap bahagian dan setiap nilai dimensi kepada keseluruhan terdiri daripada dua faktor. Faktor pertama ialah sumbangan turun naik, diwakili oleh AXi ; faktor kedua ialah sumbangan perubahan struktur BXi, iaitu sumbangan perubahan struktur setiap bahagian. Sebagai contoh, margin kasar setiap bahagian meningkat tetapi margin kasar keseluruhan syarikat jatuh. Sebabnya berkemungkinan besar bahawa bahagian jualan jabatan margin rendah tertentu telah meningkat, menyeret ke bawah keseluruhannya, itulah yang kita kenal dengan Paradox Simpson. Dalam algoritma pembahagian bahagian, masalah ini boleh diselesaikan dengan memperkenalkan sumbangan bahagian perubahan struktur BXi ini. Ciri sumbangan yang sangat penting ialah aditiviti, yang memenuhi prinsip MECE iaitu tiada ulangan dan tiada kebocoran. Tanpa mengira kaedah pembongkaran, dengan menjumlahkan semua sumbangan nilai dimensi CXi di bawah dimensi nyahpasang tertentu, kadar perubahan keseluruhan ฮY% boleh diperolehi. #๐๐ Anggap kita ada yang pasti punca abnormal penunjuk peringkat tahap, seperti jualan atau untung kasar, dsb. Dimensi pengasingan boleh menjadi saluran jualan atau wilayah, bandar dan wilayah, atau ia juga boleh berdasarkan kategori produk, pelanggan baharu dan lama, dsb. Dengan mengandaikan terdapat n jenis dimensi pisah, maka anda perlu menjana jadual perantaraan yang sepadan dengan n dimensi, dan kemudian mengira perubahan penunjuk untuk setiap nilai dimensi Xi di bawah setiap dimensi untuk mendapatkan Perbelanjaan sumbangannya. Untuk mencari dengan tepat punca anomali penunjuk, masalahnya ialah hanya dengan membuka satu dimensi, kita hanya boleh mendapatkan kesimpulan dimensi itu, dan tidak dapat mengesan masalah dengan tepat. Jika dimensi yang diagregatkan terlalu terperinci, seperti menggabungkan semua dimensi, maka sumbangan setiap item adalah terlalu kecil, dan sebab utama tidak boleh diperolehi. Jadi di sini kita perlu menelusuri secara mendalam dan menyeluruh, mencari kesimpulan yang kita inginkan dalam pelbagai kombinasi dimensi. Dengan mengandaikan bahawa pada masa ini terdapat n dimensi berpecah, anda perlu terlebih dahulu mencipta 2n jadual perantaraan semasa proses mewujudkan perantaraan jadual Untuk memastikan bahawa kaliber adalah konsisten dan memenuhi spesifikasi gudang data, beban kerja adalah sangat besar. Selepas jadual perantaraan ini dibina, API algoritma pembongkaran dipanggil untuk mengira sumbangan yang sepadan Ini menghasilkan pengiraan dan penggunaan storan yang sangat besar, iaitu masalah letupan dimensi. #๐๐๐๐ untuk menyelesaikannya#๐ masalah letupan dimensi Masalah, pengoptimuman berikut telah dibuat kepada pelan pelaksanaan: Pengoptimuman 1: Mengubah proses pembongkaran dimensi kepada pengagregatan berasaskan sumbangan. Seperti yang dinyatakan dalam artikel sebelumnya, kerana tahap sumbangan adalah aditif, algoritma pertama kali dipanggil untuk mengira tahap sumbangan penunjuk akhir yang paling halus, dan kemudian dimensi tahap sumbangan yang diperlukan, gunakannya untuk melakukan kumpulan dengan syarat untuk menjumlahkan darjah sumbangan . Ini boleh mengetepikan proses IO jadual perantaraan dan hanya memerlukan satu panggilan algoritma Menjalankan operasi penjumlahan pada kelompok akan menjadi lebih pantas daripada memanggil algoritma pembongkaran penunjuk. Di atas adalah diagnosis abnormal untuk penunjuk peringkat pertama Dalam perniagaan sebenar kami, kami juga perlu mendiagnosis penunjuk peringkat kedua tahap sumbangan. Normalisasi satu kali sudah memadai, dan tidak perlu mengulang pengiraan diagnosis tidak normal boleh dilakukan secara serentak untuk penunjuk primer dan sekunder. Masalah kecekapan pengiraan telah diselesaikan, tetapi masih ada masalah, iaitu kerumitan ruang hasilnya sangat besar, mencecah #๐๐ #. Dengan mengandaikan k ialah purata bilangan nilai dimensi dalam setiap dimensi, ruang pembongkaran satu dimensi + ruang pembongkaran dua dimensi #๐๐ + Ruang pembongkaran tiga dimensi+ ruang pembongkaran n-dimensi=#๐๐ Pengoptimuman 2: Hadkan gabungan dimensi untuk melaksanakan pemangkasan mengikut keperluan perniagaan sebenar, mengurangkan kerumitan ruang hasil daripada kepada gambar. Khususnya, ia termasuk dua operasi Yang pertama adalah untuk mengelompokkan dimensi Untuk dimensi dengan perhubungan hierarki semula jadi, seperti saluran peringkat pertama dan saluran peringkat kedua, jika ia dibahagikan kepada saluran peringkat kedua, maklumat saluran peringkat pertama. sudah wujud, jadi tidak perlu untuk membuat gabungan berlebihan saluran peringkat pertama dan saluran peringkat kedua, anda hanya perlu menggabungkan dimensi merentas kumpulan. Yang kedua ialah mengehadkan bilangan gabungan dimensi, kerana semasa analisis diagnosis atribusi, perniagaan sebenar tidak akan memberi perhatian kepada dimensi yang kompleks Secara umumnya, gabungan dua atau tiga dimensi sudah memadai. Pengoptimuman 3: Berdasarkan pengisihan pekali Gini dimensi, tentukan dimensi terbaik dan capai kedudukan tepat yang luar biasa. Dengan beberapa darjah pecahan dan sumbangan nilai dimensi yang sepadan selepas pemangkasan, bagaimanakah kita boleh memilih yang terbaik di antara mereka dan mencari sebab utama? Idea intuitif ialah lebih halus butiran dimensi tertentu dan lebih besar sumbangan nilai dimensi teratas kepala, lebih besar kemungkinan ia menjadi punca utama anomali penunjuk. Pekali Gini adalah kaedah pengukuran yang lebih sesuai untuk senario ini Lebih kecil jumlah kuasa dua sumbangan setiap bahagian tolak 1, lebih munasabah dimensi pecahan. Sebelah kanan gambar di atas memberi contoh Untuk keabnormalan jualan tertentu, kaedah pertama adalah untuk membahagikannya mengikut dimensi produk Kerana sumbangan setiap produk adalah terlalu kecil, pekali Gini adalah sangat besar. Kaedah kedua adalah untuk membongkar saluran sekunder mengikut butiran Kebutiran adalah agak kasar, dan pekali Gini yang dikira mungkin nilai yang agak besar. Kaedah ketiga dikira berdasarkan industri peringkat pertama didarab dengan saluran peringkat kedua Pekali Gini mungkin lebih kecil, kerana saluran peringkat kedua menggerudi satu tahap, dan beberapa bahagian mempunyai sumbangan positif dan beberapa bahagian mempunyai. sumbangan negatif. Sumbangan positif adalah bahagian yang memberi kesan positif terhadap turun naik penunjuk, dan sumbangan negatif adalah bahagian yang mempunyai kesan negatif. Dalam contoh ini, anda dapat melihat bahawa industri dimensi berpecah 1 melintasi saluran 1 dengan sumbangan sebanyak 60%, yang diklasifikasikan sebagai punca utama, yang lebih selari dengan pemahaman kami. Oleh itu, melalui pekali Gini, kita boleh mencari dimensi perpecahan yang lebih munasabah dan punca utama anomali penunjuk. A1: Kerana kami menggunakan diagnosis deterministik, kesimpulannya sangat jelas. Jika anda melihatnya dari perspektif penunjuk tulen, ketepatan dipastikan dengan mengira dan menulis kod. Dari perspektif pemahaman perniagaan, sebagai contoh, pengecualian ini disebabkan oleh perniagaan tertentu yang menjalankan operasi biasa, atau positif palsu atau negatif palsu disebabkan oleh sebab lain. A2: Ini soalan praktikal yang sangat bagus. Pertama sekali, adalah wajar untuk menggunakan idea mencampurkan penambahan dan pendaraban Anda boleh menggunakan cara yang tamak untuk mencari, mengira sumbangan yang sepadan dengan nilai dimensi TOP setiap langkah dan sumbangan selepas pembongkaran pada langkah seterusnya. langkah, dan menentukannya berdasarkan pengurangan sumbangan Langkah seterusnya ialah memecahkannya melalui penambahan atau pendaraban. Cara berfikir yang lain ialah ikut arah tertentu dahulu, seperti untuk e-commerce GMV, anda boleh bongkar dulu melalui penambahan, terus bongkar, bongkar ke peringkat paling rendah, seperti produk tertentu, dan kemudian bongkar produk ini Jalankan analisis pendaraban untuk mengetahui sebab GMV produk ini telah menurun, sama ada trafik telah menurun atau kadar penukaran telah menurun, dsb. Pendekatan khusus perlu digabungkan dengan keperluan perniagaan sebenar yang berbeza, serta pertimbangan seperti ketepatan masa dan kos pembangunan. Dalam senario semasa NetEase Yanxuan, memandangkan kepelbagaian dan status perniagaan, sebagai syarikat e-dagang jenama, apabila menjual dalam saluran luaran, faktor seperti trafik dan kadar penukaran adalah kotak hitam untuk kami, jadi dalam In kami senario perniagaan, penambahan dan pembongkaran adalah fokus utama. 5 Masalah letupan dimensi penunjuk disassembly
4. QA
S1: Apakah penunjuk yang digunakan untuk menilai ketepatan diagnosis?
S2: Adakah pembongkaran mata sumbangan akan dicampur? Sebagai contoh, dalam pembongkaran GMV, penambahan digunakan pada mulanya untuk merungkai saluran, dan formula pendaraban digunakan kemudian. Bagaimana untuk menilai susunan menggunakan kaedah pembongkaran yang berbeza?
Atas ialah kandungan terperinci Bagaimanakah NetEase mengesan dan mendiagnosis penunjuk data yang tidak normal?. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!