Bagaimana untuk Memilih Baris Rawak dengan Cekap daripada Jadual PostgreSQL Besar?-tutorial mysql-php.cn

Rumah

pangkalan data

tutorial mysql

Bagaimana untuk Memilih Baris Rawak dengan Cekap daripada Jadual PostgreSQL Besar?

Linda Hamilton

Jan 21, 2025 am 05:46 AM

How to Efficiently Select Random Rows from a Large PostgreSQL Table?

Pilih baris rawak daripada jadual PostgreSQL yang besar

Apabila bekerja dengan set data yang besar, memilih baris rawak boleh menjadi tugas yang intensif dari segi pengiraan. Artikel ini meneroka pelbagai kaedah untuk mendapatkan semula baris rawak daripada jadual yang mengandungi kira-kira 500 juta baris dan membincangkan prestasi dan ketepatannya.

Kaedah 1: Gunakan RANDOM() dan LIMIT

Kaedah pertama melibatkan penggunaan fungsi RANDOM() untuk menjana nombor rawak dan kemudian menggunakan klausa LIMIT untuk menapis keputusan untuk mendapatkan bilangan baris yang diperlukan.

SELECT * FROM table WHERE RANDOM() < 0.000002 LIMIT 1000;

Pendekatan ini mempunyai kelebihan kerana mudah dilaksanakan, tetapi mungkin tidak cekap untuk meja besar. Kerana klausa LIMIT, pangkalan data mesti mengimbas semua baris jadual untuk memilih baris rawak dan membuang yang lain.

Kaedah 2: Gunakan ORDER BY RANDOM() dan LIMIT

Pendekatan lain ialah mengisih baris terlebih dahulu mengikut fungsi RANDOM() dan kemudian menggunakan klausa LIMIT untuk mendapatkan baris rawak.

SELECT * FROM table ORDER BY RANDOM() LIMIT 1000;

Kaedah ini serupa dengan kaedah pertama, tetapi pengisihan menjamin pemilihan baris rawak yang lebih cekap. Ia mengurangkan bilangan imbasan yang diperlukan, menjadikannya pilihan yang lebih baik untuk meja besar. Walau bagaimanapun, ia masih bukan pilihan terbaik untuk jadual dengan bilangan baris yang sangat besar.

Pendekatan cekap: gunakan lajur ID angka dan indeks

Untuk jadual dengan lajur ID berangka dan jurang yang lebih sedikit, pendekatan yang lebih cekap boleh digunakan. Ini melibatkan penjanaan nombor rawak dalam julat ID dan menggunakannya untuk bergabung dengan jadual.

WITH params AS (
   SELECT 1 AS min_id,              -- 最小 ID <= 当前最小 ID
        5100000 AS id_span             -- 四舍五入。(max_id - min_id + buffer)
    )
SELECT *
FROM  (
   SELECT p.min_id + trunc(random() * p.id_span)::integer AS id
   FROM   params p, generate_series(1, 1100) g  -- 1000 + buffer
   GROUP  BY 1                        -- 去除重复项
) r
JOIN   table USING (id)
LIMIT  1000;

Pendekatan ini memanfaatkan akses indeks untuk mengurangkan bilangan imbasan yang diperlukan dengan ketara. Ia sesuai untuk jadual dengan bilangan baris yang banyak dan sedikit jurang dalam lajur ID.

Pertimbangan dan Syor

Cara terbaik untuk memilih baris rawak bergantung pada ciri jadual dan keperluan prestasi tertentu. Untuk jadual kecil, kaedah RANDOM() atau ORDER BY RANDOM() mungkin mencukupi. Walau bagaimanapun, untuk jadual besar dengan lajur ID berangka dan sedikit jurang, adalah disyorkan untuk menggunakan kaedah pengoptimuman di atas untuk prestasi terbaik.

Perlu diingat bahawa disebabkan sifat penjanaan nombor pseudo-rawak dalam komputer, tiada satu pun daripada kaedah ini dapat menjamin rawak sebenar. Walau bagaimanapun, mereka menyediakan cara praktikal untuk mendapatkan sampel rawak baris daripada jadual besar dengan kecekapan dan ketepatan yang munasabah.

Atas ialah kandungan terperinci Bagaimana untuk Memilih Baris Rawak dengan Cekap daripada Jadual PostgreSQL Besar?. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!

Kenyataan

Kandungan artikel ini disumbangkan secara sukarela oleh netizen, dan hak cipta adalah milik pengarang asal. Laman web ini tidak memikul tanggungjawab undang-undang yang sepadan. Jika anda menemui sebarang kandungan yang disyaki plagiarisme atau pelanggaran, sila hubungi admin@php.cn

Artikel Berkaitan

Peranan MySQL: Pangkalan Data dalam Aplikasi WebApr 17, 2025 am 12:23 AM

Peranan utama MySQL dalam aplikasi web adalah untuk menyimpan dan mengurus data. 1.MYSQL dengan cekap memproses maklumat pengguna, katalog produk, rekod urus niaga dan data lain. 2. Melalui pertanyaan SQL, pemaju boleh mengekstrak maklumat dari pangkalan data untuk menghasilkan kandungan dinamik. 3.MYSQL berfungsi berdasarkan model klien-pelayan untuk memastikan kelajuan pertanyaan yang boleh diterima.

MySQL: Membina pangkalan data pertama andaApr 17, 2025 am 12:22 AM

Langkah -langkah untuk membina pangkalan data MySQL termasuk: 1. Buat pangkalan data dan jadual, 2. Masukkan data, dan 3. Pertama, gunakan pernyataan CreatedataBase dan createtable untuk membuat pangkalan data dan jadual, kemudian gunakan pernyataan InsertInto untuk memasukkan data, dan akhirnya gunakan pernyataan PILIH untuk menanyakan data.

MySQL: Pendekatan mesra pemula untuk penyimpanan dataApr 17, 2025 am 12:21 AM

MySQL sesuai untuk pemula kerana mudah digunakan dan berkuasa. 1.MYSQL adalah pangkalan data relasi, dan menggunakan SQL untuk operasi CRUD. 2. Ia mudah dipasang dan memerlukan kata laluan pengguna root untuk dikonfigurasi. 3. Gunakan Masukkan, Kemas kini, Padam, dan Pilih untuk Melaksanakan Operasi Data. 4. Orderby, di mana dan menyertai boleh digunakan untuk pertanyaan yang kompleks. 5. Debugging memerlukan memeriksa sintaks dan gunakan Jelaskan untuk menganalisis pertanyaan. 6. Cadangan pengoptimuman termasuk menggunakan indeks, memilih jenis data yang betul dan tabiat pengaturcaraan yang baik.

Adakah MySQL Beginner-mesra? Menilai lengkung pembelajaranApr 17, 2025 am 12:19 AM

MySQL sesuai untuk pemula kerana: 1) mudah dipasang dan mengkonfigurasi, 2) sumber pembelajaran yang kaya, 3) sintaks SQL intuitif, 4) sokongan alat yang kuat. Walau bagaimanapun, pemula perlu mengatasi cabaran seperti reka bentuk pangkalan data, pengoptimuman pertanyaan, pengurusan keselamatan, dan sandaran data.

Adakah SQL adalah bahasa pengaturcaraan? Menjelaskan istilahApr 17, 2025 am 12:17 AM

Ya, sqlisaprogramminglanguagespecializedfordatamanagement.1) it'sdeclarative, focusingonwhathattoachieverthanhan.2) sqlisesessentialforquerying, memasukkan, mengemas kini, dandeleletingdatainrelationaldatabases.3)

Terangkan sifat asid (atom, konsistensi, pengasingan, ketahanan).Apr 16, 2025 am 12:20 AM

Atribut asid termasuk atom, konsistensi, pengasingan dan ketahanan, dan merupakan asas reka bentuk pangkalan data. 1. Atomicity memastikan bahawa urus niaga sama ada berjaya atau gagal sepenuhnya. 2. Konsistensi memastikan pangkalan data tetap konsisten sebelum dan selepas transaksi. 3. Pengasingan memastikan bahawa urus niaga tidak mengganggu satu sama lain. 4. Kegigihan memastikan data disimpan secara kekal selepas penyerahan transaksi.

MySQL: Sistem Pengurusan Pangkalan Data vs Bahasa PengaturcaraanApr 16, 2025 am 12:19 AM

MySQL bukan sahaja sistem pengurusan pangkalan data (DBMS) tetapi juga berkait rapat dengan bahasa pengaturcaraan. 1) Sebagai DBMS, MySQL digunakan untuk menyimpan, menyusun dan mengambil data, dan mengoptimumkan indeks dapat meningkatkan prestasi pertanyaan. 2) Menggabungkan SQL dengan bahasa pengaturcaraan, tertanam dalam Python, menggunakan alat ORM seperti SQLalChemy dapat memudahkan operasi. 3) Pengoptimuman prestasi termasuk pengindeksan, pertanyaan, caching, perpustakaan dan bahagian meja dan pengurusan transaksi.

MySQL: Menguruskan data dengan arahan SQLApr 16, 2025 am 12:19 AM

MySQL menggunakan arahan SQL untuk menguruskan data. 1. Perintah asas termasuk pilih, masukkan, kemas kini dan padam. 2. Penggunaan lanjutan melibatkan fungsi gabungan, subquery dan agregat. 3. Kesilapan umum termasuk isu sintaks, logik dan prestasi. 4. Petua Pengoptimuman termasuk menggunakan indeks, mengelakkan Pilih* dan menggunakan had.

See all articles