Rumah >Peranti teknologi >AI >Tutorial DuckDB: Membina Projek AI

Tutorial DuckDB: Membina Projek AI

Jennifer Aniston
Jennifer Anistonasal
2025-03-05 11:12:14644semak imbas

DUCKDB: Pangkalan data berprestasi tinggi untuk Sains Data dan AI

DuckDB, baru -baru ini dikeluarkan sebagai versi yang stabil, dengan cepat mendapat daya tarikan dalam data dan komuniti AI. Integrasi lancar dengan pelbagai rangka kerja menjadikannya alat yang berharga untuk analisis data moden. Tutorial ini meneroka ciri-ciri utama DuckDB dan menunjukkan permohonannya dalam dua projek: membina aplikasi generasi pengambilan semula (RAG) dan menggunakannya sebagai enjin pertanyaan berkuasa AI.

DUCKDB adalah sistem pengurusan pangkalan data analisis moden (DBMS) moden yang menawarkan prestasi tinggi dan kemudahan penggunaan. Ia adalah DBMs relasi yang menyokong SQL, menggabungkan kesederhanaan SQLite dengan kuasa analisis yang diperlukan untuk tugas data yang kompleks.

Ciri -ciri Utama:

  1. kesederhanaan: tanpa pelayan, bebas ketergantungan, dan tertanam, membuat pemasangan dan penggunaan langsung. Hanya pengkompil C 11 yang diperlukan untuk membina.
  2. Fungsi yang kaya: Sokongan SQL yang komprehensif dan integrasi Python/R yang mendalam, sesuai untuk sains data dan analisis interaktif.
  3. Prestasi Tinggi: Enjin pelaksanaan pertanyaan yang dioptimumkan oleh kolumnar yang dioptimumkan untuk analisis, membolehkan pemprosesan selari dan pengendalian dataset besar yang cekap.
  4. Sumber Terbuka: Berlesen di bawah lesen MIT permisif.
  5. Portability: berjalan pada pelbagai sistem operasi (Linux, macOS, Windows) dan seni bina (x86, ARM), termasuk pelayar web melalui Duckdb-Wasm.
  6. extensibility: menyokong sambungan untuk jenis data tersuai, fungsi, format fail, dan sintaks SQL.
  7. ujian teguh: dengan ketat diuji melalui integrasi berterusan dengan suite ujian yang komprehensif.

Bermula dengan Duckdb

Bahagian ini meliputi penyediaan DuckDB, memuatkan data CSV, analisis melakukan, dan memahami hubungan dan fungsi pertanyaan.

Pertama, pasangkan pakej Python:

pip install duckdb --upgrade

Mewujudkan pangkalan data DuckDB

Buat pangkalan data yang berterusan menggunakan fungsi

: connect

import duckdb
con = duckdb.connect("datacamp.duckdb")
Ini mewujudkan fail pangkalan data secara tempatan.

DuckDB Tutorial: Building AI Projects mari muat fail CSV (mis., "Bank Marketing.csv" dari Datalab) ke dalam jadual "bank":

con.execute("""
    CREATE TABLE IF NOT EXISTS bank AS 
    SELECT * FROM read_csv('bank-marketing.csv')
""")
con.execute("SHOW ALL TABLES").fetchdf()

Contoh pertanyaan mudah: DuckDB Tutorial: Building AI Projects

con.execute("SELECT * FROM bank WHERE duration < 100").fetchdf()

hubungan dan fungsi pertanyaan DuckDB Tutorial: Building AI Projects

Hubungan DuckDB (Jadual) boleh dipersoalkan menggunakan API Relational, Chaining Python Fungsi untuk analisis data. Contohnya:

pip install duckdb --upgrade

DuckDB Tutorial: Building AI Projects

Fungsi

melaksanakan pertanyaan SQL secara langsung: query

import duckdb
con = duckdb.connect("datacamp.duckdb")

DuckDB Tutorial: Building AI Projects ingat untuk menutup sambungan:

con.close()

(bahagian yang selebihnya yang memperincikan aplikasi RAG dan integrasi enjin pertanyaan AI akan mengikuti corak yang sama dengan pengubahsuaian dan penstrukturan semula, mengekalkan makna dan penempatan imej kandungan asal.)

Atas ialah kandungan terperinci Tutorial DuckDB: Membina Projek AI. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!

Kenyataan:
Kandungan artikel ini disumbangkan secara sukarela oleh netizen, dan hak cipta adalah milik pengarang asal. Laman web ini tidak memikul tanggungjawab undang-undang yang sepadan. Jika anda menemui sebarang kandungan yang disyaki plagiarisme atau pelanggaran, sila hubungi admin@php.cn