Heim >Technologie-Peripheriegeräte >IT Industrie >Importieren Sie Daten mit dem Befehl kopieren

Importieren Sie Daten mit dem Befehl kopieren

Lisa Kudrow
Lisa KudrowOriginal
2025-02-16 12:55:09244Durchsuche

Verwenden von RedShifts Kopiebefehl für effiziente Datenimport

Diese Anleitung demonstriert das Importieren großer Datensätze in Amazon Redshift mithilfe des Befehls COPY. Wir werden als Beispiel den öffentlich verfügbaren Datensatz "Twitter -Daten für die Sentimentanalyse" (Sentiment140) verwenden. HINWEIS: Teamsql, ein mit Redshift, Postgresql, MySQL und Microsoft SQL Server (verfügbar für Mac, Linux und Windows verfügbar), können den Verbindungsprozess erleichtern. Sie können Teamsql kostenlos herunterladen. Laden Sie die Trainingsdaten -ZIP -Datei hier herunter .

Schlüsselüberlegungen:

  • kopieren vs. Einfügen: Der Befehl COPY ist für große Datenimporte aufgrund seiner parallelen Verarbeitungsfunktionen erheblich schneller.
  • Datenquelle: Ihre Daten müssen in S3 sein. CSV -Format wird empfohlen. Komprimierung (z. B. GZIP) reduziert die Übertragungszeiten.
  • Fehlerbehandlung: Verwenden Sie die Systemtabelle stl_load_errors, um Importprobleme zu diagnostizieren. Mit der Option MAXERROR ermöglicht es dem Befehl COPY, trotz einer begrenzten Anzahl von Fehlern vorzugehen.

Einrichten Ihrer Rotverschiebungsumgebung:

für dieses Beispiel werden wir mit diesen Spezifikationen einen Rotverschiebungscluster annehmen:

  • Clustertyp: Einzelknoten
  • Knotentyp: dc1.large
  • Zone: US-East-1a
  1. Erstellen Sie eine Datenbank:
<code class="language-sql">CREATE DATABASE sentiment;</code>
  1. Erstellen Sie ein Schema:
<code class="language-sql">CREATE SCHEMA tweets;</code>
  1. Verstehen Sie die Datenstruktur:

Die CSV -Datei (Training.1600000.Processed.noemoticon) enthält:

  • polarity (int): 0 (negativ), 2 (neutral), 4 (positiv)
  • id (Bigint): Tweet ID
  • date_of_tweet (varchar): Tweet -Datum
  • query (varchar): Abfrage (oder "no_query")
  • user_id (varchar): Benutzer -ID
  • tweet (varchar): Tweet text
  1. Erstellen Sie eine Tabelle:
<code class="language-sql">CREATE DATABASE sentiment;</code>
  1. Auf S3 hochladen:
  • die heruntergeladene Datei entpacken.
  • komprimieren training.1600000.processed.noemoticon.csv mit GZIP (z. B. gzip training.1600000.processed.noemoticon.csv).
  • Laden Sie die komprimierte Datei (training.1600000.processed.noemoticon.csv.gz) in Ihren S3 -Bucket hoch. Alternativ verwenden Sie die AWS -CLI zum Hochladen.
  1. verbinden Sie sich mit TeamSQL:
  • installieren und konfigurieren Sie Teamsql.
  • Erstellen Sie eine Redshift -Verbindung, geben Sie Ihre Clusterdetails und die sentiment -Datenbank an.
  • testen Sie die Verbindung.
  1. (optional) Erstellen Sie Schema und Tabelle in TeamsQL: Wenn Sie das Schema und die Tabellenerstellung innerhalb von TeamsQL vorziehen, wiederholen Sie die Schritte 2 und 4 in der TeamsQL -Schnittstelle.

Import Data into Redshift Using the COPY Command Import Data into Redshift Using the COPY Command Import Data into Redshift Using the COPY Command Import Data into Redshift Using the COPY Command

Daten mit dem Befehl kopieren:

Führen Sie diesen Befehl in teamSQL aus und ersetzen Sie die Platzhalter durch Ihre tatsächlichen Werte:

<code class="language-sql">CREATE SCHEMA tweets;</code>

Import Data into Redshift Using the COPY Command

Befehlsparameter:

  • CSV: Gibt das CSV -Dateiformat an.
  • GZIP: Zeigt die GZIP -Komprimierung an.
  • ACCEPTINVCHARS: Verarbeitet ungültige UTF-8-Zeichen. Weitere Informationen zu diesen und anderen Optionen wie DELIMITER finden Sie unter Redshift -Dokumentation.

Überprüfen Sie den Import:

<code class="language-sql">CREATE TABLE tweets.training (
    polarity INT,
    id BIGINT,
    date_of_tweet VARCHAR,
    query VARCHAR,
    user_id VARCHAR,
    tweet VARCHAR(MAX)
);</code>

Import Data into Redshift Using the COPY Command

Fehlerbehebung:

prüfen Sie stl_load_errors für Importfehler:

<code class="language-sql">CREATE DATABASE sentiment;</code>

Dieser umfassende Leitfaden bietet eine detaillierte Anleitung zum Importieren großer Datensätze in Rotverschiebung mit dem Befehl COPY. Denken Sie daran, die offizielle Redshift-Dokumentation für die aktuellsten Informationen und erweiterten Optionen zu konsultieren.

Das obige ist der detaillierte Inhalt vonImportieren Sie Daten mit dem Befehl kopieren. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!

Stellungnahme:
Der Inhalt dieses Artikels wird freiwillig von Internetnutzern beigesteuert und das Urheberrecht liegt beim ursprünglichen Autor. Diese Website übernimmt keine entsprechende rechtliche Verantwortung. Wenn Sie Inhalte finden, bei denen der Verdacht eines Plagiats oder einer Rechtsverletzung besteht, wenden Sie sich bitte an admin@php.cn