Rumah >Peranti teknologi >AI >Anugerah VLDB 2023 diumumkan, kertas kerja bersama dari Universiti Tsinghua, 4Paradigm, dan NUS memenangi Anugerah Kertas Perindustrian Terbaik

Anugerah VLDB 2023 diumumkan, kertas kerja bersama dari Universiti Tsinghua, 4Paradigm, dan NUS memenangi Anugerah Kertas Perindustrian Terbaik

王林
王林ke hadapan
2023-09-14 10:01:01696semak imbas

Persidangan Antarabangsa VLDB 2023 telah berjaya diadakan di Vancouver, Kanada. Persidangan VLDB adalah salah satu daripada tiga persidangan teratas dengan sejarah panjang dalam bidang pangkalan data Nama penuhnya ialah Persidangan Pangkalan Data Berskala Besar. Setiap persidangan memfokuskan pada memaparkan hala tuju terkini penyelidikan pangkalan data, teknologi terkini dalam industri, dan peringkat R&D pelbagai negara, menarik penyertaan daripada institusi penyelidikan terkemuka dunia

VLDB 2023奖项公布,清华、第四范式、NUS联合论文获最佳工业界论文奖

Persidangan itu memfokuskan pada inovasi sistem, kesempurnaan, dan reka bentuk eksperimen Terdapat keperluan yang sangat tinggi dalam aspek lain. Kadar penerimaan kertas VLDB secara amnya rendah, kira-kira 18%. Persaingan lebih sengit tahun ini. Menurut data rasmi, sebanyak 9 kertas kerja VLDB memenangi anugerah kertas terbaik tahun ini, termasuk daripada Universiti Stanford, Universiti Carnegie Mellon, Penyelidikan Microsoft, Penyelidikan VMware, Meta dan universiti terkenal dunia, institusi penyelidikan dan gergasi teknologi Among mereka, kertas kerja "FEBench: Penanda Aras untuk Pengekstrakan Ciri Data Hubungan Masa Nyata" yang disiapkan bersama oleh 4Paradigm, Universiti Tsinghua dan Universiti Nasional Singapura memenangi anugerah Naib Johan untuk kertas industri terbaik.

VLDB 2023奖项公布,清华、第四范式、NUS联合论文获最佳工业界论文奖Kertas kerja ini adalah kerjasama antara 4Paradigm, Universiti Tsinghua dan Universiti Nasional Singapura. Kertas kerja mencadangkan penanda aras ujian pengiraan ciri masa nyata berdasarkan pengumpulan senario sebenar dalam industri, yang digunakan untuk menilai sistem membuat keputusan masa nyata berdasarkan pembelajaran mesin Sila klik pautan berikut untuk melihat kertas: https ://github.com/decis -bench/febench/blob/main/report/febench.pdf

Alamat projek: https://github.com/decis-bench/febench Kandungan yang perlu ditulis semula ialah: Alamat projek ialah https://github.com/decis-bench/febenchVLDB 2023奖项公布,清华、第四范式、NUS联合论文获最佳工业界论文奖

  • Latar belakang projek

  • Sistem membuat keputusan berdasarkan kecerdasan buatan digunakan secara meluas dalam banyak industri senario. Antaranya, banyak senario melibatkan pengiraan berdasarkan data masa nyata, seperti anti-penipuan dalam industri kewangan dan cadangan dalam talian masa nyata dalam industri runcit. Sistem membuat keputusan masa nyata yang didorong oleh pembelajaran mesin biasanya termasuk dua pautan pengkomputeran utama: ciri dan model. Disebabkan oleh kepelbagaian logik perniagaan dan keperluan untuk kependaman rendah dan konkurensi tinggi dalam talian, pengiraan ciri sering menjadi hambatan bagi keseluruhan sistem membuat keputusan. Oleh itu, banyak amalan kejuruteraan diperlukan untuk membina platform pengiraan ciri masa nyata yang tersedia, stabil dan cekap. Rajah 1 di bawah menunjukkan senario pengiraan ciri masa nyata biasa untuk aplikasi anti-penipuan. Dengan melakukan pengiraan ciri berdasarkan jadual rekod transaksi kad kredit asal, ciri baharu (seperti amaun kad kredit maksimum/minimum/purata dalam 10 saat terakhir, dsb.) dijana, dan kemudian dimasukkan ke dalam model hiliran untuk sebenar- inferens masa

Kandungan ditulis semula: Rajah 1. Aplikasi pengiraan ciri masa nyata dalam aplikasi anti-penipuan

Secara umumnya, platform pengiraan ciri masa nyata perlu memenuhi dua keperluan asas berikut:

VLDB 2023奖项公布,清华、第四范式、NUS联合论文获最佳工业界论文奖Konsistensi dalam talian dan luar talian: kerana aplikasi Pembelajaran mesin secara amnya dibahagikan kepada dua proses: latihan berdasarkan data sejarah dan penaakulan berdasarkan data masa nyata. Oleh itu, memastikan ketekalan logik pengiraan ciri dalam talian dan luar talian adalah penting untuk memastikan keputusan akhir perniagaan dalam talian dan luar talian yang konsisten.

Kecekapan perkhidmatan dalam talian: Perkhidmatan dalam talian disasarkan kepada data dan pengiraan masa nyata, memenuhi keperluan kependaman rendah, konkurensi tinggi dan ketersediaan tinggi.

  • Rajah 2. Seni bina dan aliran kerja platform pengiraan ciri masa nyata
  • Seperti yang ditunjukkan dalam Rajah 2 di atas, seni bina platform pengiraan ciri masa nyata biasa disenaraikan. Ringkasnya, ia terutamanya termasuk enjin pengkomputeran luar talian dan enjin pengkomputeran dalam talian Perkara utama ialah memastikan konsistensi logik pengkomputeran antara enjin pengkomputeran luar talian dan dalam talian. Pada masa ini, terdapat banyak platform ciri di pasaran yang boleh memenuhi keperluan di atas dan membentuk platform pengkomputeran ciri masa nyata yang lengkap, termasuk sistem tujuan umum seperti Flink, atau sistem khusus seperti OpenMLDB, Tecton, Feast, dll. Walau bagaimanapun, industri pada masa ini tidak mempunyai penanda aras khusus yang berorientasikan ciri masa nyata untuk menjalankan penilaian yang rapi dan saintifik terhadap prestasi sistem tersebut. Sebagai tindak balas kepada permintaan ini, pengarang kertas kerja ini membina FEBench, ujian penanda aras pengkomputeran ciri masa nyata, untuk menilai prestasi platform pengkomputeran ciri dan menganalisis kependaman keseluruhan, kependaman ekor panjang dan prestasi serentak sistem.

Prinsip TeknikalVLDB 2023奖项公布,清华、第四范式、NUS联合论文获最佳工业界论文奖

Pembinaan penanda aras FEBench terutamanya merangkumi tiga aspek kerja: pengumpulan set data, kandungan yang dijana pertanyaan perlu ditulis semula dan apabila kandungan itu ditulis semula, templat yang sesuai perlu dipilih

Pengumpulan Set Data

Pasukan penyelidik telah mengumpulkan sejumlah 118 set data yang boleh digunakan dalam senario pengiraan ciri masa nyata ini datang daripada tapak web data awam seperti Kaggle, Tianchi, UCI ML, KiltHub dan. data awam dalaman dalam Paradigma Keempat , meliputi senario penggunaan biasa dalam dunia perindustrian, seperti kewangan, runcit, perubatan, pembuatan, pengangkutan dan senario industri lain. Pasukan penyelidik selanjutnya mengelaskan set data yang dikumpul mengikut bilangan jadual dan saiz set data, seperti yang ditunjukkan dalam Rajah 3 di bawah.

VLDB 2023奖项公布,清华、第四范式、NUS联合论文获最佳工业界论文奖

Kandungan yang ditulis semula: Carta bilangan jadual dan saiz set data dalam FEBench adalah seperti berikut:

Kandungan yang dijana oleh pertanyaan perlu ditulis semula

kepada yang besar bilangan set data, untuk setiap data Beban kerja logik pengiraan pengekstrakan ciri yang dijana secara manual adalah sangat besar, jadi penyelidik menggunakan teknologi pembelajaran mesin automatik seperti AutoCross (kertas rujukan: AutoCross: Automatic Feature Crossing for Tabular Data in Real-World Applications) untuk menyediakan data yang dikumpul dengan Set menjana pertanyaan secara automatik. Pemilihan ciri dan kandungan yang dijana pertanyaan FEBench perlu ditulis semula Proses ini merangkumi empat langkah berikut (seperti yang ditunjukkan dalam Rajah 4 di bawah):

  • Dengan mengenal pasti jadual utama (menyimpan data penstriman) dan jadual tambahan (seperti statik. / Lampiran/jadual syot kilat) boleh dimulakan. Selepas itu, lajur dengan nama yang serupa atau hubungan utama dalam jadual primer dan sekunder dianalisis, dan hubungan satu-dengan-satu/satu-ke-banyak antara lajur dikira, yang sepadan dengan mod operasi ciri yang berbeza.

  • Peta hubungan lajur dengan pengendali ciri.

  • Selepas mengekstrak semua ciri calon, gunakan algoritma carian Beam untuk menjana set ciri yang berkesan secara berulang.

  • Ciri yang dipilih ditukar kepada pertanyaan SQL semantik yang setara. . pilih pertanyaan wakil sebagai templat pertanyaan untuk mengurangkan ujian berulang tugasan yang serupa. Untuk 118 set data dan pertanyaan ciri yang dikumpul, gunakan algoritma DBSCAN untuk mengumpulkan pertanyaan ini. Langkah-langkah khusus adalah seperti berikut:

Bahagikan ciri setiap pertanyaan kepada lima bahagian: bilangan lajur output, jumlah bilangan. pengendali pertanyaan , kekerapan kejadian pengendali kompleks, bilangan peringkat subkueri bersarang dan bilangan tupel maksimum dalam tetingkap masa. Memandangkan pertanyaan kejuruteraan ciri biasanya melibatkan tetingkap masa dan kerumitan pertanyaan tidak dipengaruhi oleh saiz data kelompok, saiz set data tidak disertakan sebagai salah satu ciri pengelompokan.

VLDB 2023奖项公布,清华、第四范式、NUS联合论文获最佳工业界论文奖

Gunakan model regresi logistik untuk menilai hubungan antara ciri pertanyaan dan ciri pelaksanaan pertanyaan, menggunakan ciri sebagai input model dan masa pelaksanaan pertanyaan ciri sebagai output model. Kepentingan ciri yang berbeza pada hasil pengelompokan dipertimbangkan dengan menggunakan berat regresi setiap ciri sebagai berat pengelompokan

Berdasarkan ciri pertanyaan berwajaran, algoritma DBSCAN digunakan untuk membahagikan pertanyaan ciri kepada berbilang kelompok.

Carta berikut menunjukkan taburan 118 set data di bawah pelbagai penunjuk pertimbangan. Rajah (a) menunjukkan penunjuk sifat statistik, termasuk bilangan lajur keluaran, jumlah bilangan pengendali pertanyaan dan bilangan tahap subkueri bersarang Rajah (b) menunjukkan penunjuk dengan korelasi tertinggi dengan masa pelaksanaan pertanyaan, termasuk bilangan operasi pengagregatan, Bilangan tahap subkueri bersarang dan bilangan tetingkap masa

  • Rajah 5. 118 pertanyaan ciri memperoleh 6 kluster melalui analisis kluster, dan templat pertanyaan (Q0-5) telah dijana
  • Akhirnya, mengikut kepada hasil pengelompokan , bahagikan 118 pertanyaan ciri kepada 6 kelompok. Untuk setiap kelompok, pertanyaan berhampiran centroid dipilih sebagai templat calon. Di samping itu, memandangkan aplikasi kecerdasan buatan dalam senario aplikasi yang berbeza mungkin mempunyai keperluan kejuruteraan ciri yang berbeza, cuba pilih pertanyaan daripada senario berbeza di sekeliling pusat setiap kelompok untuk merangkumi senario kejuruteraan ciri yang berbeza dengan lebih baik. Akhirnya, 6 templat pertanyaan telah dipilih daripada 118 pertanyaan ciri, sesuai untuk senario yang berbeza, termasuk pengangkutan, penjagaan kesihatan, tenaga, jualan dan transaksi kewangan. Enam templat pertanyaan ini akhirnya membentuk set data teras dan pertanyaan FEBench, yang digunakan untuk ujian prestasi platform pengiraan ciri masa nyata.
  • Apa yang perlu ditulis semula ialah: Penilaian penanda aras (OpenMLDB dan Flink)

  • Dalam kajian itu, penyelidik menggunakan FEBench untuk menguji dua sistem perindustrian biasa, iaitu Flink dan OpenMLDB. Flink ialah platform pengkomputeran yang konsisten pemprosesan kumpulan dan strim, manakala OpenMLDB ialah platform pengkomputeran ciri masa nyata khusus. Melalui ujian dan analisis, para penyelidik menemui kebaikan dan keburukan setiap sistem dan sebab di sebaliknya. Keputusan eksperimen menunjukkan bahawa disebabkan reka bentuk seni bina yang berbeza, terdapat perbezaan dalam prestasi antara Flink dan OpenMLDB. Pada masa yang sama, ini juga menggambarkan kepentingan FEBench dalam menganalisis keupayaan sistem sasaran. Secara ringkasnya, kesimpulan utama kajian adalah seperti berikut

    • Flink adalah dua urutan magnitud lebih perlahan daripada OpenMLDB dalam kependaman (Rajah 6). Penyelidik menganalisis bahawa sebab utama jurang terletak pada kaedah pelaksanaan yang berbeza bagi kedua-dua seni bina sistem, sebagai sistem khusus untuk pengiraan ciri masa nyata, termasuk jadual langkau dua lapisan berasaskan memori dan struktur data lain yang dioptimumkan untuk masa. Data siri Akhirnya, Berbanding dengan Flink, ia mempunyai kelebihan prestasi yang jelas dalam senario pengiraan ciri. Sudah tentu, sebagai sistem tujuan umum, Flink mempunyai rangkaian senario terpakai yang lebih luas daripada OpenMLDB. . Ambil perhatian bahawa nombor berikut menunjukkan prestasi kependaman yang dinormalkan kepada OpenMLDB dan TP-50 Flink masing-masing, dan tidak mewakili perbandingan prestasi mutlak. Ditulis semula sebagai: OpenMLDB mempunyai masalah yang jelas dengan kependaman ekor, manakala kependaman ekor Flink lebih stabil (lihat Rajah 7). Perlu diingat bahawa nombor berikut menormalkan prestasi kependaman kepada prestasi OpenMLDB dan Flink di bawah TP-50 masing-masing, bukannya perbandingan prestasi mutlak

    VLDB 2023奖项公布,清华、第四范式、NUS联合论文获最佳工业界论文奖

    Rajah 7. Hujung ekor OpenMLDB dan Flink Perbandingan kependaman (dinormalkan kepada kependaman TP-50 masing-masing)

      Para penyelidik menjalankan analisis yang lebih mendalam tentang keputusan prestasi di atas:
    • Analisis teardown berdasarkan masa pelaksanaan, penunjuk mikro-seni bina termasuk penyiapan arahan, ralat ramalan cawangan, belakang kebergantungan -hujung, kebergantungan bahagian hadapan, dsb. Templat pertanyaan yang berbeza mempunyai kesesakan prestasi yang berbeza di peringkat mikrostruktur. Seperti yang ditunjukkan dalam Rajah 8, kesesakan prestasi Q0-Q2 adalah bergantung terutamanya pada bahagian hadapan, menyumbang lebih daripada 45% daripada keseluruhan masa berjalan. Dalam kes ini, operasi yang dilakukan adalah agak mudah, dan kebanyakan masa dihabiskan untuk memproses permintaan pengguna dan bertukar antara arahan pengekstrakan ciri. Untuk Q3-Q5, kebergantungan bahagian belakang (seperti ketidaksahihan cache) dan pelaksanaan arahan (termasuk arahan yang lebih kompleks) menjadi faktor yang lebih penting. OpenMLDB menjadikannya lebih baik dalam prestasi melalui pengoptimuman yang disasarkan

    VLDB 2023奖项公布,清华、第四范式、NUS联合论文获最佳工业界论文奖

    Rajah 8 menunjukkan analisis penunjuk mikroarkitektur OpenMLDB dan Flink

    • Pahami analisis pelan pelaksanaan Q0 sebagai contoh: perbezaan dalam rancangan pelaksanaan antara Flink dan OpenMLDB. Pengendali pengiraan dalam Flink mengambil masa paling banyak, manakala OpenMLDB mengurangkan kependaman pelaksanaan dengan mengoptimumkan tetingkap dan menggunakan teknik pengoptimuman seperti fungsi agregat tersuai.

    VLDB 2023奖项公布,清华、第四范式、NUS联合论文获最佳工业界论文奖

    Gambar kesembilan menunjukkan perbandingan antara OpenMLDB dan Flink dari segi pelan pelaksanaan (Q0)

      Jika pengguna menjangkakan untuk menghasilkan semula keputusan eksperimen di atas, atau menjalankan ujian penanda aras pada sistem tempatan pengarang kertas juga Keputusan ujian digalakkan untuk diserahkan dan dikongsi dalam komuniti), anda boleh melawati laman utama projek FEBench untuk mendapatkan maklumat lanjut.
    • Projek FEBench: https://github.com/decis-bench/febench

    VLDB 2023奖项公布,清华、第四范式、NUS联合论文获最佳工业界论文奖

    Projek Flink: https://github.com/apache/flink

    Projek OpenMLDB: https://github.com/apache/flink .com/4paradigm/OpenMLDB

    Atas ialah kandungan terperinci Anugerah VLDB 2023 diumumkan, kertas kerja bersama dari Universiti Tsinghua, 4Paradigm, dan NUS memenangi Anugerah Kertas Perindustrian Terbaik. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!

    Kenyataan:
    Artikel ini dikembalikan pada:jiqizhixin.com. Jika ada pelanggaran, sila hubungi admin@php.cn Padam