Anugerah VLDB 2023 diumumkan, kertas kerja bersama dari Universiti Tsinghua, 4Paradigm, dan NUS memenangi Anugerah Kertas Perindustrian Terbaik-AI-php.cn

Anugerah VLDB 2023 diumumkan, kertas kerja bersama dari Universiti Tsinghua, 4Paradigm, dan NUS memenangi Anugerah Kertas Perindustrian Terbaik

王林

Sep 14, 2023 am 10:01 AM

projek

Persidangan Antarabangsa VLDB 2023 telah berjaya diadakan di Vancouver, Kanada. Persidangan VLDB adalah salah satu daripada tiga persidangan teratas dengan sejarah panjang dalam bidang pangkalan data Nama penuhnya ialah Persidangan Pangkalan Data Berskala Besar. Setiap persidangan memfokuskan pada memaparkan hala tuju terkini penyelidikan pangkalan data, teknologi terkini dalam industri, dan peringkat R&D pelbagai negara, menarik penyertaan daripada institusi penyelidikan terkemuka dunia

VLDB 2023奖项公布，清华、第四范式、NUS联合论文获最佳工业界论文奖

Persidangan itu memfokuskan pada inovasi sistem, kesempurnaan, dan reka bentuk eksperimen Terdapat keperluan yang sangat tinggi dalam aspek lain. Kadar penerimaan kertas VLDB secara amnya rendah, kira-kira 18%. Persaingan lebih sengit tahun ini. Menurut data rasmi, sebanyak 9 kertas kerja VLDB memenangi anugerah kertas terbaik tahun ini, termasuk daripada Universiti Stanford, Universiti Carnegie Mellon, Penyelidikan Microsoft, Penyelidikan VMware, Meta dan universiti terkenal dunia, institusi penyelidikan dan gergasi teknologi Among mereka, kertas kerja "FEBench: Penanda Aras untuk Pengekstrakan Ciri Data Hubungan Masa Nyata" yang disiapkan bersama oleh 4Paradigm, Universiti Tsinghua dan Universiti Nasional Singapura memenangi anugerah Naib Johan untuk kertas industri terbaik.

VLDB 2023奖项公布，清华、第四范式、NUS联合论文获最佳工业界论文奖 Kertas kerja ini adalah kerjasama antara 4Paradigm, Universiti Tsinghua dan Universiti Nasional Singapura. Kertas kerja mencadangkan penanda aras ujian pengiraan ciri masa nyata berdasarkan pengumpulan senario sebenar dalam industri, yang digunakan untuk menilai sistem membuat keputusan masa nyata berdasarkan pembelajaran mesin Sila klik pautan berikut untuk melihat kertas: https ://github.com/decis -bench/febench/blob/main/report/febench.pdf

Alamat projek: https://github.com/decis-bench/febench Kandungan yang perlu ditulis semula ialah: Alamat projek ialah https://github.com/decis-bench/febench VLDB 2023奖项公布，清华、第四范式、NUS联合论文获最佳工业界论文奖

Latar belakang projek
Sistem membuat keputusan berdasarkan kecerdasan buatan digunakan secara meluas dalam banyak industri senario. Antaranya, banyak senario melibatkan pengiraan berdasarkan data masa nyata, seperti anti-penipuan dalam industri kewangan dan cadangan dalam talian masa nyata dalam industri runcit. Sistem membuat keputusan masa nyata yang didorong oleh pembelajaran mesin biasanya termasuk dua pautan pengkomputeran utama: ciri dan model. Disebabkan oleh kepelbagaian logik perniagaan dan keperluan untuk kependaman rendah dan konkurensi tinggi dalam talian, pengiraan ciri sering menjadi hambatan bagi keseluruhan sistem membuat keputusan. Oleh itu, banyak amalan kejuruteraan diperlukan untuk membina platform pengiraan ciri masa nyata yang tersedia, stabil dan cekap. Rajah 1 di bawah menunjukkan senario pengiraan ciri masa nyata biasa untuk aplikasi anti-penipuan. Dengan melakukan pengiraan ciri berdasarkan jadual rekod transaksi kad kredit asal, ciri baharu (seperti amaun kad kredit maksimum/minimum/purata dalam 10 saat terakhir, dsb.) dijana, dan kemudian dimasukkan ke dalam model hiliran untuk sebenar- inferens masa

Kandungan ditulis semula: Rajah 1. Aplikasi pengiraan ciri masa nyata dalam aplikasi anti-penipuan

Secara umumnya, platform pengiraan ciri masa nyata perlu memenuhi dua keperluan asas berikut:

VLDB 2023奖项公布，清华、第四范式、NUS联合论文获最佳工业界论文奖 Konsistensi dalam talian dan luar talian: kerana aplikasi Pembelajaran mesin secara amnya dibahagikan kepada dua proses: latihan berdasarkan data sejarah dan penaakulan berdasarkan data masa nyata. Oleh itu, memastikan ketekalan logik pengiraan ciri dalam talian dan luar talian adalah penting untuk memastikan keputusan akhir perniagaan dalam talian dan luar talian yang konsisten.

Kecekapan perkhidmatan dalam talian: Perkhidmatan dalam talian disasarkan kepada data dan pengiraan masa nyata, memenuhi keperluan kependaman rendah, konkurensi tinggi dan ketersediaan tinggi.

Seperti yang ditunjukkan dalam Rajah 2 di atas, seni bina platform pengiraan ciri masa nyata biasa disenaraikan. Ringkasnya, ia terutamanya termasuk enjin pengkomputeran luar talian dan enjin pengkomputeran dalam talian Perkara utama ialah memastikan konsistensi logik pengkomputeran antara enjin pengkomputeran luar talian dan dalam talian. Pada masa ini, terdapat banyak platform ciri di pasaran yang boleh memenuhi keperluan di atas dan membentuk platform pengkomputeran ciri masa nyata yang lengkap, termasuk sistem tujuan umum seperti Flink, atau sistem khusus seperti OpenMLDB, Tecton, Feast, dll. Walau bagaimanapun, industri pada masa ini tidak mempunyai penanda aras khusus yang berorientasikan ciri masa nyata untuk menjalankan penilaian yang rapi dan saintifik terhadap prestasi sistem tersebut. Sebagai tindak balas kepada permintaan ini, pengarang kertas kerja ini membina FEBench, ujian penanda aras pengkomputeran ciri masa nyata, untuk menilai prestasi platform pengkomputeran ciri dan menganalisis kependaman keseluruhan, kependaman ekor panjang dan prestasi serentak sistem.

Prinsip Teknikal VLDB 2023奖项公布，清华、第四范式、NUS联合论文获最佳工业界论文奖

Pembinaan penanda aras FEBench terutamanya merangkumi tiga aspek kerja: pengumpulan set data, kandungan yang dijana pertanyaan perlu ditulis semula dan apabila kandungan itu ditulis semula, templat yang sesuai perlu dipilih

Pengumpulan Set Data

Pasukan penyelidik telah mengumpulkan sejumlah 118 set data yang boleh digunakan dalam senario pengiraan ciri masa nyata ini datang daripada tapak web data awam seperti Kaggle, Tianchi, UCI ML, KiltHub dan. data awam dalaman dalam Paradigma Keempat , meliputi senario penggunaan biasa dalam dunia perindustrian, seperti kewangan, runcit, perubatan, pembuatan, pengangkutan dan senario industri lain. Pasukan penyelidik selanjutnya mengelaskan set data yang dikumpul mengikut bilangan jadual dan saiz set data, seperti yang ditunjukkan dalam Rajah 3 di bawah.

Kandungan yang ditulis semula: Carta bilangan jadual dan saiz set data dalam FEBench adalah seperti berikut:

Kandungan yang dijana oleh pertanyaan perlu ditulis semula
kepada yang besar bilangan set data, untuk setiap data Beban kerja logik pengiraan pengekstrakan ciri yang dijana secara manual adalah sangat besar, jadi penyelidik menggunakan teknologi pembelajaran mesin automatik seperti AutoCross (kertas rujukan: AutoCross: Automatic Feature Crossing for Tabular Data in Real-World Applications) untuk menyediakan data yang dikumpul dengan Set menjana pertanyaan secara automatik. Pemilihan ciri dan kandungan yang dijana pertanyaan FEBench perlu ditulis semula Proses ini merangkumi empat langkah berikut (seperti yang ditunjukkan dalam Rajah 4 di bawah):

Dengan mengenal pasti jadual utama (menyimpan data penstriman) dan jadual tambahan (seperti statik. / Lampiran/jadual syot kilat) boleh dimulakan. Selepas itu, lajur dengan nama yang serupa atau hubungan utama dalam jadual primer dan sekunder dianalisis, dan hubungan satu-dengan-satu/satu-ke-banyak antara lajur dikira, yang sepadan dengan mod operasi ciri yang berbeza.

Peta hubungan lajur dengan pengendali ciri.

Selepas mengekstrak semua ciri calon, gunakan algoritma carian Beam untuk menjana set ciri yang berkesan secara berulang.

Ciri yang dipilih ditukar kepada pertanyaan SQL semantik yang setara. . pilih pertanyaan wakil sebagai templat pertanyaan untuk mengurangkan ujian berulang tugasan yang serupa. Untuk 118 set data dan pertanyaan ciri yang dikumpul, gunakan algoritma DBSCAN untuk mengumpulkan pertanyaan ini. Langkah-langkah khusus adalah seperti berikut:

Bahagikan ciri setiap pertanyaan kepada lima bahagian: bilangan lajur output, jumlah bilangan. pengendali pertanyaan , kekerapan kejadian pengendali kompleks, bilangan peringkat subkueri bersarang dan bilangan tupel maksimum dalam tetingkap masa. Memandangkan pertanyaan kejuruteraan ciri biasanya melibatkan tetingkap masa dan kerumitan pertanyaan tidak dipengaruhi oleh saiz data kelompok, saiz set data tidak disertakan sebagai salah satu ciri pengelompokan.

Gunakan model regresi logistik untuk menilai hubungan antara ciri pertanyaan dan ciri pelaksanaan pertanyaan, menggunakan ciri sebagai input model dan masa pelaksanaan pertanyaan ciri sebagai output model. Kepentingan ciri yang berbeza pada hasil pengelompokan dipertimbangkan dengan menggunakan berat regresi setiap ciri sebagai berat pengelompokan

Berdasarkan ciri pertanyaan berwajaran, algoritma DBSCAN digunakan untuk membahagikan pertanyaan ciri kepada berbilang kelompok.

Carta berikut menunjukkan taburan 118 set data di bawah pelbagai penunjuk pertimbangan. Rajah (a) menunjukkan penunjuk sifat statistik, termasuk bilangan lajur keluaran, jumlah bilangan pengendali pertanyaan dan bilangan tahap subkueri bersarang Rajah (b) menunjukkan penunjuk dengan korelasi tertinggi dengan masa pelaksanaan pertanyaan, termasuk bilangan operasi pengagregatan, Bilangan tahap subkueri bersarang dan bilangan tetingkap masa

Rajah 5. 118 pertanyaan ciri memperoleh 6 kluster melalui analisis kluster, dan templat pertanyaan (Q0-5) telah dijana

Akhirnya, mengikut kepada hasil pengelompokan , bahagikan 118 pertanyaan ciri kepada 6 kelompok. Untuk setiap kelompok, pertanyaan berhampiran centroid dipilih sebagai templat calon. Di samping itu, memandangkan aplikasi kecerdasan buatan dalam senario aplikasi yang berbeza mungkin mempunyai keperluan kejuruteraan ciri yang berbeza, cuba pilih pertanyaan daripada senario berbeza di sekeliling pusat setiap kelompok untuk merangkumi senario kejuruteraan ciri yang berbeza dengan lebih baik. Akhirnya, 6 templat pertanyaan telah dipilih daripada 118 pertanyaan ciri, sesuai untuk senario yang berbeza, termasuk pengangkutan, penjagaan kesihatan, tenaga, jualan dan transaksi kewangan. Enam templat pertanyaan ini akhirnya membentuk set data teras dan pertanyaan FEBench, yang digunakan untuk ujian prestasi platform pengiraan ciri masa nyata.

Apa yang perlu ditulis semula ialah: Penilaian penanda aras (OpenMLDB dan Flink)

Dalam kajian itu, penyelidik menggunakan FEBench untuk menguji dua sistem perindustrian biasa, iaitu Flink dan OpenMLDB. Flink ialah platform pengkomputeran yang konsisten pemprosesan kumpulan dan strim, manakala OpenMLDB ialah platform pengkomputeran ciri masa nyata khusus. Melalui ujian dan analisis, para penyelidik menemui kebaikan dan keburukan setiap sistem dan sebab di sebaliknya. Keputusan eksperimen menunjukkan bahawa disebabkan reka bentuk seni bina yang berbeza, terdapat perbezaan dalam prestasi antara Flink dan OpenMLDB. Pada masa yang sama, ini juga menggambarkan kepentingan FEBench dalam menganalisis keupayaan sistem sasaran. Secara ringkasnya, kesimpulan utama kajian adalah seperti berikut

Flink adalah dua urutan magnitud lebih perlahan daripada OpenMLDB dalam kependaman (Rajah 6). Penyelidik menganalisis bahawa sebab utama jurang terletak pada kaedah pelaksanaan yang berbeza bagi kedua-dua seni bina sistem, sebagai sistem khusus untuk pengiraan ciri masa nyata, termasuk jadual langkau dua lapisan berasaskan memori dan struktur data lain yang dioptimumkan untuk masa. Data siri Akhirnya, Berbanding dengan Flink, ia mempunyai kelebihan prestasi yang jelas dalam senario pengiraan ciri. Sudah tentu, sebagai sistem tujuan umum, Flink mempunyai rangkaian senario terpakai yang lebih luas daripada OpenMLDB. . Ambil perhatian bahawa nombor berikut menunjukkan prestasi kependaman yang dinormalkan kepada OpenMLDB dan TP-50 Flink masing-masing, dan tidak mewakili perbandingan prestasi mutlak. Ditulis semula sebagai: OpenMLDB mempunyai masalah yang jelas dengan kependaman ekor, manakala kependaman ekor Flink lebih stabil (lihat Rajah 7). Perlu diingat bahawa nombor berikut menormalkan prestasi kependaman kepada prestasi OpenMLDB dan Flink di bawah TP-50 masing-masing, bukannya perbandingan prestasi mutlak

Rajah 7. Hujung ekor OpenMLDB dan Flink Perbandingan kependaman (dinormalkan kepada kependaman TP-50 masing-masing)

Para penyelidik menjalankan analisis yang lebih mendalam tentang keputusan prestasi di atas:
Analisis teardown berdasarkan masa pelaksanaan, penunjuk mikro-seni bina termasuk penyiapan arahan, ralat ramalan cawangan, belakang kebergantungan -hujung, kebergantungan bahagian hadapan, dsb. Templat pertanyaan yang berbeza mempunyai kesesakan prestasi yang berbeza di peringkat mikrostruktur. Seperti yang ditunjukkan dalam Rajah 8, kesesakan prestasi Q0-Q2 adalah bergantung terutamanya pada bahagian hadapan, menyumbang lebih daripada 45% daripada keseluruhan masa berjalan. Dalam kes ini, operasi yang dilakukan adalah agak mudah, dan kebanyakan masa dihabiskan untuk memproses permintaan pengguna dan bertukar antara arahan pengekstrakan ciri. Untuk Q3-Q5, kebergantungan bahagian belakang (seperti ketidaksahihan cache) dan pelaksanaan arahan (termasuk arahan yang lebih kompleks) menjadi faktor yang lebih penting. OpenMLDB menjadikannya lebih baik dalam prestasi melalui pengoptimuman yang disasarkan

Rajah 8 menunjukkan analisis penunjuk mikroarkitektur OpenMLDB dan Flink

Pahami analisis pelan pelaksanaan Q0 sebagai contoh: perbezaan dalam rancangan pelaksanaan antara Flink dan OpenMLDB. Pengendali pengiraan dalam Flink mengambil masa paling banyak, manakala OpenMLDB mengurangkan kependaman pelaksanaan dengan mengoptimumkan tetingkap dan menggunakan teknik pengoptimuman seperti fungsi agregat tersuai.

Gambar kesembilan menunjukkan perbandingan antara OpenMLDB dan Flink dari segi pelan pelaksanaan (Q0)

Jika pengguna menjangkakan untuk menghasilkan semula keputusan eksperimen di atas, atau menjalankan ujian penanda aras pada sistem tempatan pengarang kertas juga Keputusan ujian digalakkan untuk diserahkan dan dikongsi dalam komuniti), anda boleh melawati laman utama projek FEBench untuk mendapatkan maklumat lanjut.
Projek FEBench: https://github.com/decis-bench/febench

Projek Flink: https://github.com/apache/flink
Projek OpenMLDB: https://github.com/apache/flink .com/4paradigm/OpenMLDB

Atas ialah kandungan terperinci Anugerah VLDB 2023 diumumkan, kertas kerja bersama dari Universiti Tsinghua, 4Paradigm, dan NUS memenangi Anugerah Kertas Perindustrian Terbaik. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!

Kenyataan

Artikel ini dikembalikan pada:机器之心. Jika ada pelanggaran, sila hubungi admin@php.cn Padam

Artikel Berkaitan

Pembangunan permainan AI memasuki era agentiknya dengan portal pemimpi UphealMay 02, 2025 am 11:17 AM

Permainan Upheaval: Merevolusi Pembangunan Permainan Dengan Ejen AI Upheaval, sebuah studio pembangunan permainan yang terdiri daripada veteran dari gergasi industri seperti Blizzard dan Obsidian, bersedia untuk merevolusikan penciptaan permainan dengan platfor AI yang inovatif

Uber mahu menjadi kedai Robotaxi anda, adakah pembekal membiarkan mereka?May 02, 2025 am 11:16 AM

Strategi Robotaxi Uber: ekosistem perjalanan untuk kenderaan autonomi Pada persidangan Curbivore baru-baru ini, Uber's Richard Willder melancarkan strategi mereka untuk menjadi platform perjalanan untuk penyedia Robotaxi. Memanfaatkan kedudukan dominan mereka di

Ejen AI bermain permainan video akan mengubah robot masa depanMay 02, 2025 am 11:15 AM

Permainan video terbukti menjadi alasan ujian yang tidak ternilai untuk penyelidikan AI canggih, terutamanya dalam pembangunan agen autonomi dan robot dunia nyata, malah berpotensi menyumbang kepada pencarian kecerdasan umum buatan (AGI). A

Kompleks Perindustrian Permulaan, VC 3.0, dan Manifesto James CurrierMay 02, 2025 am 11:14 AM

Kesan landskap modal teroka yang berkembang jelas dalam media, laporan kewangan, dan perbualan setiap hari. Walau bagaimanapun, akibat khusus untuk pelabur, permulaan, dan dana sering diabaikan. Venture Capital 3.0: Paradigma

Adobe mengemas kini Cloud Creative dan Firefly di Adobe Max London 2025May 02, 2025 am 11:13 AM

Adobe Max London 2025 menyampaikan kemas kini penting kepada Awan Kreatif dan Firefly, mencerminkan peralihan strategik ke arah aksesibiliti dan AI generatif. Analisis ini menggabungkan pandangan dari taklimat pra-peristiwa dengan kepimpinan Adobe. (Nota: Adob

Segala -galanya Meta diumumkan di LlamaconMay 02, 2025 am 11:12 AM

Pengumuman Llamacon Meta mempamerkan strategi AI yang komprehensif yang direka untuk bersaing secara langsung dengan sistem AI yang tertutup seperti OpenAI, sementara pada masa yang sama mencipta aliran pendapatan baru untuk model sumber terbuka. Pendekatan beragam ini mensasarkan bo

Kontroversi pembuatan bir atas cadangan bahawa AI tidak lebih dari sekadar teknologi biasaMay 02, 2025 am 11:10 AM

Terdapat perbezaan yang serius dalam bidang kecerdasan buatan pada kesimpulan ini. Ada yang menegaskan bahawa sudah tiba masanya untuk mendedahkan "pakaian baru Maharaja", sementara yang lain menentang idea bahawa kecerdasan buatan hanyalah teknologi biasa. Mari kita bincangkannya. Analisis terobosan AI yang inovatif ini adalah sebahagian daripada lajur Forbes yang berterusan yang meliputi kemajuan terkini dalam bidang AI, termasuk mengenal pasti dan menjelaskan pelbagai kerumitan AI yang berpengaruh (klik di sini untuk melihat pautan). Kecerdasan Buatan sebagai Teknologi Biasa Pertama, beberapa pengetahuan asas diperlukan untuk meletakkan asas untuk perbincangan penting ini. Pada masa ini terdapat banyak penyelidikan yang didedikasikan untuk terus membangunkan kecerdasan buatan. Matlamat keseluruhan adalah untuk mencapai kecerdasan umum buatan (AGI) dan juga kecerdasan super buatan (AS)

Model warga, mengapa nilai AI adalah ukuran perniagaan seterusnyaMay 02, 2025 am 11:09 AM

Keberkesanan model AI syarikat kini merupakan penunjuk prestasi utama. Sejak ledakan AI, AI generatif telah digunakan untuk segala -galanya daripada menyusun jemputan ulang tahun untuk menulis kod perisian. Ini telah membawa kepada percambahan mod bahasa

See all articles

Alat AI Hot

Undresser.AI Undress

Apl berkuasa AI untuk mencipta foto bogel yang realistik

AI Clothes Remover

Alat AI dalam talian untuk mengeluarkan pakaian daripada foto.

Undress AI Tool

Gambar buka pakaian secara percuma

Clothoff.io

Penyingkiran pakaian AI

Video Face Swap

Tukar muka dalam mana-mana video dengan mudah menggunakan alat tukar muka AI percuma kami!

Tunjukkan Lagi

Artikel Panas

Apa yang Baru di Windows 11 KB5054979 & Cara Memperbaiki Masalah Kemas Kini

4 minggu yang laluByDDD

Bagaimana untuk memperbaiki KB5055523 gagal dipasang di Windows 11?

3 minggu yang laluByDDD

Bagaimana untuk memperbaiki KB5055518 gagal dipasang di Windows 10?

3 minggu yang laluByDDD

Tahap kekuatan untuk setiap musuh & raksasa di R.E.P.O.

3 minggu yang laluBy尊渡假赌尊渡假赌尊渡假赌

Putera Biru: Cara sampai ke ruangan bawah tanah

3 minggu yang laluByDDD

Tunjukkan Lagi

Alat panas

SecLists

SecLists ialah rakan penguji keselamatan muktamad. Ia ialah koleksi pelbagai jenis senarai yang kerap digunakan semasa penilaian keselamatan, semuanya di satu tempat. SecLists membantu menjadikan ujian keselamatan lebih cekap dan produktif dengan menyediakan semua senarai yang mungkin diperlukan oleh penguji keselamatan dengan mudah. Jenis senarai termasuk nama pengguna, kata laluan, URL, muatan kabur, corak data sensitif, cangkerang web dan banyak lagi. Penguji hanya boleh menarik repositori ini ke mesin ujian baharu dan dia akan mempunyai akses kepada setiap jenis senarai yang dia perlukan.

Notepad++7.3.1

Editor kod yang mudah digunakan dan percuma

DVWA

Damn Vulnerable Web App (DVWA) ialah aplikasi web PHP/MySQL yang sangat terdedah. Matlamat utamanya adalah untuk menjadi bantuan bagi profesional keselamatan untuk menguji kemahiran dan alatan mereka dalam persekitaran undang-undang, untuk membantu pembangun web lebih memahami proses mengamankan aplikasi web, dan untuk membantu guru/pelajar mengajar/belajar dalam persekitaran bilik darjah Aplikasi web keselamatan. Matlamat DVWA adalah untuk mempraktikkan beberapa kelemahan web yang paling biasa melalui antara muka yang mudah dan mudah, dengan pelbagai tahap kesukaran. Sila ambil perhatian bahawa perisian ini

Dreamweaver CS6

Alat pembangunan web visual

MinGW - GNU Minimalis untuk Windows

Projek ini dalam proses untuk dipindahkan ke osdn.net/projects/mingw, anda boleh terus mengikuti kami di sana. MinGW: Port Windows asli bagi GNU Compiler Collection (GCC), perpustakaan import yang boleh diedarkan secara bebas dan fail pengepala untuk membina aplikasi Windows asli termasuk sambungan kepada masa jalan MSVC untuk menyokong fungsi C99. Semua perisian MinGW boleh dijalankan pada platform Windows 64-bit.

Tunjukkan Lagi

Topik panas

Di manakah pintu masuk log masuk untuk e-mel gmail?

7921

1652

1411

1303

1248