Rumah  >  Artikel  >  Peranti teknologi  >  Perkongsian teknologi alat enjin gunung berapi: gunakan AI untuk melengkapkan perlombongan data dan melengkapkan penulisan SQL dengan ambang sifar

Perkongsian teknologi alat enjin gunung berapi: gunakan AI untuk melengkapkan perlombongan data dan melengkapkan penulisan SQL dengan ambang sifar

PHPz
PHPzke hadapan
2023-05-18 20:19:041298semak imbas

火山引擎工具技术分享:用 AI 完成数据挖掘,零门槛完成 SQL 撰写

Apabila menggunakan alat BI, soalan yang sering dihadapi ialah: "Bagaimana kita boleh menghasilkan dan memproses data jika kita tidak tahu SQL? Bolehkah kita melakukan analisis perlombongan jika kita tidak tahu algoritma ?"

Apabila pasukan algoritma profesional melakukan perlombongan data, analisis data dan visualisasi juga akan kelihatan agak berpecah-belah. Menyelesaikan kerja pemodelan algoritma dan analisis data dengan cara yang diperkemas juga merupakan cara yang baik untuk meningkatkan kecekapan.

Pada masa yang sama, untuk pasukan gudang data profesional, kandungan data dengan tema yang sama menghadapi masalah "pembinaan berulang, penggunaan dan pengurusan yang agak berselerak" - adakah terdapat cara untuk menghasilkannya pada masa yang sama dalam satu tugasan, dengan tema yang sama? Bolehkah set data yang dihasilkan digunakan sebagai input untuk mengambil bahagian semula dalam pembinaan data?

1. Keupayaan pemodelan visual DataWind ada di sini

DataWind, cerapan data pintar platform BI yang dilancarkan oleh Volcano Engine, telah melancarkan ciri lanjutan baharu - pemodelan visual.

Pengguna boleh memudahkan proses pemprosesan dan pemodelan data yang kompleks menjadi proses kanvas yang jelas dan mudah difahami melalui operasi menyeret, menarik dan menyambung secara visual Semua jenis pengguna boleh melengkapkan pengeluaran dan pemprosesan data mengikut idea tentang apa yang mereka fikir adalah apa yang mereka dapat dengan itu menurunkan ambang untuk pengeluaran dan pemerolehan data.

Kanvas menyokong membina beberapa set proses kanvas pada masa yang sama Satu gambar boleh merealisasikan pembinaan pelbagai tugas pemodelan data, meningkatkan kecekapan pembinaan data dan mengurangkan kos pengurusan tugasan, di samping itu, lebih daripada 40 jenis pembersihan data disepadukan dan dibungkus dalam kanvas , pengendali kejuruteraan ciri, meliputi keupayaan pengeluaran data peringkat tinggi, tanpa memerlukan pengekodan untuk melengkapkan keupayaan data yang kompleks.

2. Alat SQL ambang sifar

Penghasilan dan pemprosesan data ialah langkah pertama untuk mendapatkan dan menganalisis data.

Untuk pengguna bukan teknikal, terdapat ambang tertentu untuk menggunakan sintaks SQL Pada masa yang sama, fail tempatan tidak boleh dikemas kini dengan kerap, menyebabkan keperluan untuk membuat semula papan pemuka secara manual setiap kali. Tenaga kerja teknikal yang diperlukan untuk mendapatkan data selalunya perlu dijadualkan, dan ketepatan masa dan kepuasan pemerolehan data sangat dikurangkan Oleh itu, adalah penting untuk menggunakan alat pembinaan data kod sifar.

Dua senario biasa disenaraikan di bawah untuk menunjukkan cara pemprosesan data ambang sifar digunakan dalam kerja.

2.1 [Senario 1] Perkara yang anda fikir adalah apa yang anda perolehi dan proses pemprosesan data diselesaikan secara visual

Apabila lelaran operasi produk memerlukan maklum balas input tepat pada masanya bagi data yang berbeza, proses pemprosesan data boleh diabstrak dan dibina melalui visualisasi Operator seret modular membina proses pemprosesan data.

Untuk mendapatkan bilangan pesanan dan jumlah pesanan mengikut tarikh dan butiran bandar, dan untuk mendapatkan data bandar bagi 10 data jumlah penggunaan harian teratas, operasi adalah seperti berikut:

Aliran pemprosesan data am

Proses pemodelan visual

  1. Minta pelajar teknikal untuk mengeluarkan data terperinci pesanan, termasuk id pesanan/jumlah pesanan/id pengguna/tarikh pesanan bandar, dsb.
  2. Tetapkan data kepada tarikh pesanan dan bandar melalui pengendalian carta perspektif. Penunjuk ialah jumlah amaun pesanan dan jumlah id pesanan
  3. Isih hasil pangsi mengikut amaun, dan kemudian tulis nombor siri
  4. Gunakan penapis untuk tapis data Top10
  1. Pilih sumber data, pilih jadual perpustakaan atau muat naik fail CSV atau sambung ke LarkSheet
  2. Tapis maklumat medan yang anda perlu gunakan , konfigurasikan nama dan format medan anda sendiri yang ditakrifkan
  3. Pilih pengendali pengagregatan untuk mengira volum pesanan dan jumlah pesanan berdasarkan tarikh dan pengagregatan bandar
  4. Pilih pengendali Nilai Teratas dan ambil jumlah 10 Teratas
  5. Output set data, yang boleh digunakan pada Fengshen Draw a carta

火山引擎工具技术分享:用 AI 完成数据挖掘,零门槛完成 SQL 撰写

2.2 [Senario 2] Gabungkan berbilang jadual dengan pantas untuk menyelesaikan pengiraan perkaitan berbilang data dengan mudah

Semasa proses pemprosesan data, terdapat berbilang sumber data yang perlu digabungkan dan digunakan Secara konvensional, sukar dan memakan masa untuk menguasai Vlookup dan algoritma lain melalui Excel. Pada masa yang sama, apabila jumlah data adalah besar, prestasi komputer mungkin tidak dapat melengkapkan pengiraan gabungan data.

Jika terdapat dua data pesanan besar dan jadual maklumat atribut pelanggan, jumlah keuntungan perlu dikira berdasarkan jumlah bil dan jumlah kos, dan kemudian 100 maklumat pesanan pengguna teratas diambil mengikut keuntungan sumbangan

tr>

Proses pemprosesan data am

常规数据处理流程

可视化建模处理流程

  1. 需要将两个订单数据打开后,Copy 数据合并到一个文件中  
  2. 采用 VloopUp 查找订单里用户和客户里用户数据,然后将两者数据组合生成新的数据
  3. 采用透视表计算用户账单金额和成本金额,然后计算利润金额
  4. 按照利润金额排序获取 TopN 客户信息
  1.  可以上传 CSV 文件 /LaskSheet 构建数据输入
  2. 然后可以合并 3 月 /4 月订单数据为一份数据 
  3. 连接客户信息属性表,绑定客户属性信息
  4. 选择聚合,按照客户具体计算账单金额和成本金额 
  5. 选择计算列,根据账单金额和成本金额计算利润金额 
  6. 根据利润金额排序获取 TopN 客户信息

Proses pemodelan visual

VloopUp terpakai mencari data pengguna dalam susunan dan data pengguna dalam pelanggan, dan kemudian menggabungkan kedua-dua data untuk menjana data baharu
  • Gunakan jadual pangsi untuk mengira amaun bil pengguna dan amaun kos, kemudian hitung amaun keuntungan
  • Dapatkan maklumat pelanggan TopN diisih mengikut jumlah keuntungan
    1. Anda boleh memuat naik fail CSV /LaskSheet untuk membina input data
    2. Kemudian data pesanan Mac/April boleh digabungkan menjadi satu data
    3. Sambungkan atribut maklumat pelanggan jadual dan ikat maklumat atribut pelanggan li>
    4. Pilih pengagregatan untuk dikira jumlah bil dan jumlah kos berdasarkan keperluan khusus pelanggan
    5. Pilih lajur pengiraan untuk mengira jumlah keuntungan berdasarkan jumlah bil dan jumlah kos
    6. Dapatkan maklumat pelanggan TopN diisih mengikut jumlah keuntungan

    火山引擎工具技术分享:用 AI 完成数据挖掘,零门槛完成 SQL 撰写

    3 Perlombongan data AI tidak lagi di luar jangkauan

    Apabila pembersihan data asas tidak lagi dapat memenuhi pembinaan data dan analisis data, sokongan algoritma AI diperlukan untuk perlombongan. Apabila data mempunyai lebih banyak nilai tersembunyi. Pelajar pasukan algoritma mungkin mengalami ketidakupayaan untuk bekerja dengan baik dengan carta visual, dan tidak dapat menghasilkan data yang baik yang boleh digunakan dengan cepat manakala pengguna biasa mungkin terus ditindas oleh ambang tinggi kod AI untuk menyekat pembangunan algoritma ini - meningkatkan permintaan; tetapi takut permintaan Ia terlalu cetek dan nilainya tidak dapat dinilai dengan baik Pada masa ini, perlombongan algoritma menjadi kemewahan.

    Pemodelan visual DataWind merangkumi lebih daripada 30 keupayaan pengendali AI biasa. Pengguna hanya perlu memahami fungsi algoritma dan mengkonfigurasi input dan matlamat latihan operator algoritma melalui konfigurasi untuk melengkapkan latihan model dengan cepat keputusan berdasarkan kandungan data yang dikonfigurasikan lain.

    火山引擎工具技术分享:用 AI 完成数据挖掘,零门槛完成 SQL 撰写

    火山引擎工具技术分享:用 AI 完成数据挖掘,零门槛完成 SQL 撰写

    火山引擎工具技术分享:用 AI 完成数据挖掘,零门槛完成 SQL 撰写

    Dua senario biasa akan diambil sebagai contoh di bawah, Bagaimana untuk melengkapkan perlombongan data tanpa mengetahui cara menulis Python.

    3.1 [Elementary] Anda boleh melakukan perlombongan data walaupun anda tidak tahu Python

    Kerja harian pengguna pada asasnya tidak melibatkan penulisan Python, tetapi terdapat senario permintaan untuk perlombongan data. Dia perlu melakukan perlombongan niat pelanggan berdasarkan sampel pelanggan niat tinggi sedia ada. Pada ketika ini, proses perlombongan data boleh dibina melalui pemodelan visual:

    1. Seret masuk data sampel dan semua data sebagai input data.
    2. Seret ke dalam algoritma pengelasan, seperti algoritma XGB untuk latihan model.
    3. Seret operator ramalan dan bina perhubungan antara model dan semua data untuk ramalan.
    4. Data sebenar dan hasil ramalan digabungkan dengan set data output untuk menganalisis pengagihan niat semua data pengguna.


    火山引擎工具技术分享:用 AI 完成数据挖掘,零门槛完成 SQL 撰写

    3.2 [Tahap lanjutan] Anda boleh membina model algoritma kompleks tanpa menulis Python

    Pengguna perlu membina model berdasarkan sedia ada data Model belian semula pengguna. Semasa pembinaan model, adalah perlu untuk menggunakan pepohon penggalak kecerunan untuk membina model ramalan selepas pembersihan data dan penukaran format Pada masa ini, proses model belian semula boleh dibina berdasarkan pemodelan visual:

    火山引擎工具技术分享:用 AI 完成数据挖掘,零门槛完成 SQL 撰写<.>

      Gabungkan baris: Gabungkan jadual data output bagi n operator (segi empat tepat dalam gambar) ke dalam satu jadual data keseluruhan berdasarkan pengepala yang konsisten Jika data jualan pengguna tidak menambah atau memadam atribut baharu, tiada perubahan diperlukan di sini.
    1. Penggantian nilai yang tiada: Apabila terdapat nilai nol (null) dalam lajur atribut, ia akan menjejaskan pengiraan model seterusnya Gunakan operator nilai yang hilang untuk menggantikan nilai nol dengan nilai lalai yang ditetapkan data jualan pengguna tidak menambah atau memadam atribut baharu Tiada perubahan diperlukan di sini.
    2. pengekodan satu panas: Atribut jenis teks tidak boleh digunakan secara langsung dalam latihan model dan perlu dikodkan ke dalam vektor berangka oleh one_hot. Contohnya:

    火山引擎工具技术分享:用 AI 完成数据挖掘,零门槛完成 SQL 撰写

      Pokok penggalak kecerunan: Bertanggungjawab untuk memasang data latihan dan mengeluarkan model yang boleh digunakan untuk ramalan (parameter yang tidak ditandakan dalam rajah tidak perlu diubah suai oleh penyelenggara):


    火山引擎工具技术分享:用 AI 完成数据挖掘,零门槛完成 SQL 撰写

      Aggregation_1: Alih keluar pendua dalam data ramalan dan ambil kebarangkalian maksimum.
    1. Medan ekstrak: Ekstrak label yang diperlukan dan keluaran nilai kebarangkalian.


    火山引擎工具技术分享:用 AI 完成数据挖掘,零门槛完成 SQL 撰写

    4. Pembinaan pelbagai senario dan pelbagai tugas, pengurusan tidak lagi terpencar

    Sebagai penganalisis data, anda juga mempunyai banyak kerja harian untuk membina set data dan membina papan pemuka data. Tetapi biasanya jadual bawah yang diperoleh daripada gudang data akan menjadi jadual yang luas Atas dasar ini, tugas set data yang berbeza dibina mengikut keperluan senario yang berbeza.

    Dalam penggunaan seterusnya, kami sering menghadapi lebih banyak set data yang serupa, tetapi logik khusus tidak dapat dibandingkan dan disahkan dengan baik. Pada masa ini, adalah bagus jika semua logik set data dikonfigurasikan dan dijana dalam satu set data, dan setiap set data boleh dinilai dan ditakrifkan melalui proses tugasan.

    Untuk senario ini, keupayaan pemodelan visual DataWind juga boleh diselesaikan dengan baik. Fungsi pemodelan visual menyokong set data tunggal untuk diproses oleh berbilang proses logik pada masa yang sama untuk menjana berbilang set data. Ambil pemprosesan data pesanan dan data pengguna sebagai contoh:

    1. Jika pengguna ingin melihat statistik pesanan, maka proses pemprosesan data set data statistik pesanan boleh dibina.
    2. Terdapat pengguna yang ingin melihat data terperinci, tetapi medan butiran perlu diproses dan dibersihkan Dalam kes ini, aliran pemprosesan Set Data Butiran Pesanan boleh dibina.
    3. Sesetengah pengguna ingin menggabungkan atribut pengguna untuk mengira pengedaran pesanan pengguna, kemudian membina korelasi berbilang jadual digabungkan dengan pengagregatan penunjuk untuk menjana set data statistik pesanan pengguna.
    4. Logik yang sama boleh menjana set data butiran pesanan pengguna di bawah perkaitan berbilang jadual.

    Oleh itu, penjanaan 4 set data diselesaikan melalui satu tugasan dan dua input data 4 set data boleh membina kawasan subjek data, dan data berkaitan seterusnya boleh digunakan daripada ini titik pada. Output set data mengikut tugasan digunakan.

    火山引擎工具技术分享:用 AI 完成数据挖掘,零门槛完成 SQL 撰写

    5 Tentang kami

    Volcano Engine Intelligent Data Insight DataWind ialah platform yang dipertingkatkan yang menyokong analisis layan diri secara terperinci. tahap platform ABI data besar. Daripada akses data, penyepaduan data, kepada pertanyaan dan analisis, ia akhirnya dipersembahkan kepada pengguna perniagaan dalam bentuk portal data visual, skrin besar digital, dan kokpit pengurusan, yang membolehkan data menggunakan nilai.

    Atas ialah kandungan terperinci Perkongsian teknologi alat enjin gunung berapi: gunakan AI untuk melengkapkan perlombongan data dan melengkapkan penulisan SQL dengan ambang sifar. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!

    Kenyataan:
    Artikel ini dikembalikan pada:51cto.com. Jika ada pelanggaran, sila hubungi admin@php.cn Padam