Wie wählt man effizient zufällige Zeilen aus großen PostgreSQL-Tabellen aus?-MySQL-Tutorial-php.cn

Heim

Datenbank

MySQL-Tutorial

Wie wählt man effizient zufällige Zeilen aus großen PostgreSQL-Tabellen aus?

Barbara Streisand

Jan 21, 2025 am 05:26 AM

How to Efficiently Select Random Rows from Large PostgreSQL Tables?

PostgreSQL-Methode zur zufälligen Zeilenauswahl

Herkömmliche Methoden zur zufälligen Zeilenauswahl sind ineffizient und langsam, wenn es um große Tabellen mit Millionen oder sogar Milliarden von Datensätzen geht. Zwei gängige Methoden sind:

Verwenden Sie random(), um zu filtern:

  select * from table where random() < 0.001;

Verwenden Sie order by random() und limit:

  select * from table order by random() limit 1000;

Da jedoch ein vollständiger Tabellenscan oder eine vollständige Tabellensortierung erforderlich ist, sind diese Methoden nicht die beste Wahl für Tabellen mit einer großen Anzahl von Zeilen und führen zu Leistungsengpässen.

Optimierungsmethoden für große Tabellen

Für die folgenden Tabellentypen sollten Sie die folgende Optimierungsmethode in Betracht ziehen, die deutlich schneller ist:

Numerische ID-Spalten mit kleinen oder mittleren Lücken (indiziert für schnellere Suchvorgänge)
Keine oder nur minimale Schreibvorgänge während der Auswahl

Abfrage:

WITH params AS (
  SELECT 1 AS min_id, -- 可选：自定义最小ID起始值
       5100000 AS id_span -- 近似ID范围（最大ID - 最小ID + 缓冲）
)
SELECT *
FROM (
  SELECT DISTINCT 1 + trunc(random() * p.id_span)::integer AS id
  FROM params p, generate_series(1, 1100) g
  GROUP BY 1
) r
INNER JOIN big ON r.id = big.id
LIMIT 1000;

So funktioniert es:

ID-Bereichsschätzung:
- Wenn Sie nicht genau wissen, fragen Sie die Tabelle ab, um die minimale, maximale und Gesamtspanne (max. - min.) der ID-Spalte abzuschätzen.
Zufällige ID-Generierung:
- Generieren Sie einen anderen Satz Zufallszahlen innerhalb des geschätzten ID-Bereichs.
Redundanz und Duplikatbeseitigung:
- Gruppieren Sie die generierten Zahlen, um Duplikate zu entfernen und so die Möglichkeit zu verringern, fehlende oder bereits ausgewählte Zeilen auszuwählen.
Tabellenverknüpfungen und Einschränkungen:
- Verknüpfen Sie die Zufallszahlen mit der tatsächlichen Tabelle mithilfe der ID-Spalte (muss indiziert sein). Dieser effiziente Join ruft die entsprechenden Daten für die ausgewählte Zeile ab.
- Zuletzt wenden Sie ein Limit an, um die erforderliche Anzahl an Zeilen abzurufen.

Warum es schnell ist:

Minimale Indexnutzung:
- Die Abfrage führt nur einen Indexscan für die ID-Spalte durch, was viel schneller ist als ein vollständiger Tabellenscan oder Sortiervorgang.
Optimierte Zufallszahlengenerierung:
- Die generierten Zufallszahlen werden über den geschätzten ID-Bereich verteilt, wodurch die Möglichkeit fehlender oder überlappender Zeilen minimiert wird.
Redundanz und Duplikatbeseitigung:
- Durch die Gruppierung der generierten Zahlen wird sichergestellt, dass nur unterschiedliche Zeilen ausgewählt werden, wodurch die Notwendigkeit einer zusätzlichen Filterung oder Verknüpfung zur Eliminierung von Duplikaten verringert wird.

Weitere Optionen:

Rekursiver CTE zur Behandlung von Lücken:
- Fügen Sie für Tabellen mit Lücken in der ID-Sequenz einen zusätzlichen CTE hinzu, um diese Lücken zu schließen.
Funktions-Wrapper zur Wiederverwendung:
- Definieren Sie eine Funktion, die Grenzwert und Lückenprozentsatz als Parameter verwendet, was eine einfache Konfiguration und Wiederverwendung mit verschiedenen Tabellen ermöglicht.
Universelle Funktionen für jeden Tisch:
- Erstellen Sie eine generische Funktion, die jede Tabelle mit ganzzahligen Spalten als Parameter akzeptiert.
Ansichten materialisieren, um die Geschwindigkeit zu erhöhen:
- Erwägen Sie die Erstellung einer materialisierten Ansicht basierend auf einer optimierten Abfrage, um (quasi) zufällig ausgewählte Zeilen schneller abzurufen.
TABLE SAMPLE in PostgreSQL 9.5:
- Nutzen Sie die „TABLE SAMPLE SYSTEM“-Funktion von PostgreSQL, um eine schnellere, aber weniger zufällige Zeilenstichprobenmethode zu implementieren und sicherzustellen, dass eine genaue Anzahl von Zeilen zurückgegeben wird. Beachten Sie jedoch, dass die Stichprobe aufgrund von Clustereffekten möglicherweise nicht völlig zufällig ist.

Das obige ist der detaillierte Inhalt vonWie wählt man effizient zufällige Zeilen aus großen PostgreSQL-Tabellen aus?. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!

Stellungnahme

Der Inhalt dieses Artikels wird freiwillig von Internetnutzern beigesteuert und das Urheberrecht liegt beim ursprünglichen Autor. Diese Website übernimmt keine entsprechende rechtliche Verantwortung. Wenn Sie Inhalte finden, bei denen der Verdacht eines Plagiats oder einer Rechtsverletzung besteht, wenden Sie sich bitte an admin@php.cn

Verwandter Artikel

Mysqls Platz: Datenbanken und ProgrammierungApr 13, 2025 am 12:18 AM

Die Position von MySQL in Datenbanken und Programmierung ist sehr wichtig. Es handelt sich um ein Open -Source -Verwaltungssystem für relationale Datenbankverwaltung, das in verschiedenen Anwendungsszenarien häufig verwendet wird. 1) MySQL bietet effiziente Datenspeicher-, Organisations- und Abruffunktionen und unterstützt Systeme für Web-, Mobil- und Unternehmensebene. 2) Es verwendet eine Client-Server-Architektur, unterstützt mehrere Speichermotoren und Indexoptimierung. 3) Zu den grundlegenden Verwendungen gehören das Erstellen von Tabellen und das Einfügen von Daten, und erweiterte Verwendungen beinhalten Multi-Table-Verknüpfungen und komplexe Abfragen. 4) Häufig gestellte Fragen wie SQL -Syntaxfehler und Leistungsprobleme können durch den Befehl erklären und langsam abfragen. 5) Die Leistungsoptimierungsmethoden umfassen die rationale Verwendung von Indizes, eine optimierte Abfrage und die Verwendung von Caches. Zu den Best Practices gehört die Verwendung von Transaktionen und vorbereiteten Staten

MySQL: Von kleinen Unternehmen bis zu großen UnternehmenApr 13, 2025 am 12:17 AM

MySQL ist für kleine und große Unternehmen geeignet. 1) Kleinunternehmen können MySQL für das grundlegende Datenmanagement verwenden, z. B. das Speichern von Kundeninformationen. 2) Große Unternehmen können MySQL verwenden, um massive Daten und komplexe Geschäftslogik zu verarbeiten, um die Abfrageleistung und die Transaktionsverarbeitung zu optimieren.

Was liest Phantom und wie verhindert InnoDB sie (Sperren des nächsten Schlägers)?Apr 13, 2025 am 12:16 AM

InnoDB verhindert effektiv das Phantom-Lesen durch den Mechanismus für den nächsten Kleien. 1) Nächstschlüsselmesser kombiniert Zeilensperr- und Gap-Sperre, um Datensätze und deren Lücken zu sperren, um zu verhindern, dass neue Datensätze eingefügt werden. 2) In praktischen Anwendungen kann durch Optimierung der Abfragen und Anpassung der Isolationsstufen die Verringerungswettbewerb reduziert und die Gleichzeitleistung verbessert werden.

MySQL: Keine Programmiersprache, sondern ...Apr 13, 2025 am 12:03 AM

MySQL ist keine Programmiersprache, aber seine Abfragesprache SQL hat die Eigenschaften einer Programmiersprache: 1. SQL unterstützt bedingte Beurteilung, Schleifen und variable Operationen; 2. Durch gespeicherte Prozeduren, Auslöser und Funktionen können Benutzer komplexe logische Operationen in der Datenbank ausführen.

MySQL: Eine Einführung in die beliebteste Datenbank der WeltApr 12, 2025 am 12:18 AM

MySQL ist ein Open Source Relational Database Management -System, das hauptsächlich zum schnellen und zuverlässigen Speicher und Abrufen von Daten verwendet wird. Sein Arbeitsprinzip umfasst Kundenanfragen, Abfragebedingungen, Ausführung von Abfragen und Rückgabergebnissen. Beispiele für die Nutzung sind das Erstellen von Tabellen, das Einsetzen und Abfragen von Daten sowie erweiterte Funktionen wie Join -Operationen. Häufige Fehler umfassen SQL -Syntax, Datentypen und Berechtigungen sowie Optimierungsvorschläge umfassen die Verwendung von Indizes, optimierte Abfragen und die Partitionierung von Tabellen.

Die Bedeutung von MySQL: Datenspeicherung und -verwaltungApr 12, 2025 am 12:18 AM

MySQL ist ein Open Source Relational Database Management -System, das für Datenspeicher, Verwaltung, Abfrage und Sicherheit geeignet ist. 1. Es unterstützt eine Vielzahl von Betriebssystemen und wird in Webanwendungen und anderen Feldern häufig verwendet. 2. Durch die Client-Server-Architektur und verschiedene Speichermotoren verarbeitet MySQL Daten effizient. 3. Die grundlegende Verwendung umfasst das Erstellen von Datenbanken und Tabellen, das Einfügen, Abfragen und Aktualisieren von Daten. 4. Fortgeschrittene Verwendung beinhaltet komplexe Abfragen und gespeicherte Verfahren. 5. Häufige Fehler können durch die Erklärungserklärung debuggen. 6. Die Leistungsoptimierung umfasst die rationale Verwendung von Indizes und optimierte Abfrageanweisungen.

Warum MySQL verwenden? Vorteile und VorteileApr 12, 2025 am 12:17 AM

MySQL wird für seine Leistung, Zuverlässigkeit, Benutzerfreundlichkeit und Unterstützung der Gemeinschaft ausgewählt. 1.MYSQL bietet effiziente Datenspeicher- und Abruffunktionen, die mehrere Datentypen und erweiterte Abfragevorgänge unterstützen. 2. Übernehmen Sie die Architektur der Client-Server und mehrere Speichermotoren, um die Transaktion und die Abfrageoptimierung zu unterstützen. 3. Einfach zu bedienend unterstützt eine Vielzahl von Betriebssystemen und Programmiersprachen. V.

Beschreiben Sie InnoDB-Verriegelungsmechanismen (gemeinsame Schlösser, exklusive Schlösser, Absichtssperrungen, Aufzeichnungsschlösser, Lückensperrungen, Sperren der nächsten Schlüsse).Apr 12, 2025 am 12:16 AM

Zu den Verriegelungsmechanismen von InnoDB gehören gemeinsame Schlösser, exklusive Schlösser, Absichtsschlösser, Aufzeichnungsschlösser, Lückensperrungen und nächste Schlüsselschlösser. 1. Shared Lock ermöglicht es Transaktionen, Daten zu lesen, ohne dass andere Transaktionen lesen. 2. Exklusives Schloss verhindert, dass andere Transaktionen Daten lesen und ändern. 3.. Intention Lock optimiert die Sperreffizienz. 4. Rekord -Sperr -Indexdatensatz. 5. Gap Lock Locks Index -Aufzeichnungslücke. 6. Die nächste Schlüsselsperrung ist eine Kombination aus Datensatzsperr- und Lückensperrung, um die Datenkonsistenz zu gewährleisten.

See all articles

Heiße KI -Werkzeuge

Undresser.AI Undress

KI-gestützte App zum Erstellen realistischer Aktfotos

AI Clothes Remover

Online-KI-Tool zum Entfernen von Kleidung aus Fotos.

Undress AI Tool

Ausziehbilder kostenlos

Clothoff.io

KI-Kleiderentferner

AI Hentai Generator

Erstellen Sie kostenlos Ai Hentai.

Heißer Artikel

R.E.P.O. Energiekristalle erklärten und was sie tun (gelber Kristall)

3 Wochen vorBy尊渡假赌尊渡假赌尊渡假赌

R.E.P.O. Beste grafische Einstellungen

3 Wochen vorBy尊渡假赌尊渡假赌尊渡假赌

Assassin's Creed Shadows: Seashell Riddle -Lösung

2 Wochen vorByDDD

R.E.P.O. So reparieren Sie Audio, wenn Sie niemanden hören können

3 Wochen vorBy尊渡假赌尊渡假赌尊渡假赌

WWE 2K25: Wie man alles in Myrise freischaltet

4 Wochen vorBy尊渡假赌尊渡假赌尊渡假赌

Heiße Werkzeuge

mPDF

mPDF ist eine PHP-Bibliothek, die PDF-Dateien aus UTF-8-codiertem HTML generieren kann. Der ursprüngliche Autor, Ian Back, hat mPDF geschrieben, um PDF-Dateien „on the fly“ von seiner Website auszugeben und verschiedene Sprachen zu verarbeiten. Es ist langsamer und erzeugt bei der Verwendung von Unicode-Schriftarten größere Dateien als Originalskripte wie HTML2FPDF, unterstützt aber CSS-Stile usw. und verfügt über viele Verbesserungen. Unterstützt fast alle Sprachen, einschließlich RTL (Arabisch und Hebräisch) und CJK (Chinesisch, Japanisch und Koreanisch). Unterstützt verschachtelte Elemente auf Blockebene (wie P, DIV),

SecLists

SecLists ist der ultimative Begleiter für Sicherheitstester. Dabei handelt es sich um eine Sammlung verschiedener Arten von Listen, die häufig bei Sicherheitsbewertungen verwendet werden, an einem Ort. SecLists trägt dazu bei, Sicherheitstests effizienter und produktiver zu gestalten, indem es bequem alle Listen bereitstellt, die ein Sicherheitstester benötigen könnte. Zu den Listentypen gehören Benutzernamen, Passwörter, URLs, Fuzzing-Payloads, Muster für vertrauliche Daten, Web-Shells und mehr. Der Tester kann dieses Repository einfach auf einen neuen Testcomputer übertragen und hat dann Zugriff auf alle Arten von Listen, die er benötigt.