Maison >Périphériques technologiques >Industrie informatique >Importez des données dans Redshift à l'aide de la commande Copie

Importez des données dans Redshift à l'aide de la commande Copie

Lisa Kudrow
Lisa Kudroworiginal
2025-02-16 12:55:09254parcourir

en utilisant la commande de copie de Redshift pour une importation efficace de données

Ce guide montre l'importation de grands ensembles de données dans Amazon Redshift à l'aide de la commande très efficace COPY. Nous utiliserons le jeu de données "Twitter Data for Sentiment" accessible au public (Sentiment140) par exemple. Remarque: TeamSQL, un client de base de données multiplateforme compatible avec Redshift, PostgreSQL, MySQL et Microsoft SQL Server (disponible pour Mac, Linux et Windows), peut faciliter le processus de connexion. Vous pouvez télécharger GRATUITEMENT CEADSQL. Téléchargez les données de formation Fichier zip ici .

Considérations clés:

  • Copier par rapport à l'insert: La commande COPY est considérablement plus rapide pour les grandes importations de données en raison de ses capacités de traitement parallèles.
  • Source de données: Vos données doivent être dans S3. Le format CSV est recommandé. La compression (par exemple, GZIP) réduit les temps de transfert.
  • Gestion des erreurs: Utilisez la table système stl_load_errors pour diagnostiquer les problèmes d'importation. L'option MAXERROR permet à la commande COPY de poursuivre malgré la rencontre d'un nombre limité d'erreurs.

Configuration de votre environnement de décalage vers le rouge:

Pour cet exemple, nous supposerons un cluster de décalage vers le rouge avec ces spécifications:

  • Type de cluster: nœud unique
  • Type de nœud: dc1.large
  • Zone: US-East-1A
  1. Créer une base de données:
<code class="language-sql">CREATE DATABASE sentiment;</code>
  1. Créer un schéma:
<code class="language-sql">CREATE SCHEMA tweets;</code>
  1. Comprendre la structure des données:

Le fichier CSV (formation.1600000.processed.noemoticon) contient:

  • polarity (int): 0 (négatif), 2 (neutre), 4 (positif)
  • id (BigInt): Tweet ID
  • date_of_tweet (Varchar): Tweet Date
  • query (varchar): requête (ou "no_query")
  • user_id (Varchar): ID utilisateur
  • tweet (Varchar): Tweeter Text
  1. Créez une table:
<code class="language-sql">CREATE DATABASE sentiment;</code>
  1. Téléchargez sur S3:
  • dézip le fichier téléchargé.
  • compress training.1600000.processed.noemoticon.csv en utilisant gzip (par exemple, gzip training.1600000.processed.noemoticon.csv).
  • Téléchargez le fichier compressé (training.1600000.processed.noemoticon.csv.gz) sur votre seau S3. Alternativement, utilisez la CLI AWS pour le téléchargement.
  1. Connectez-vous avec TeamSQL:
  • installer et configurer Teamsql.
  • Créez une connexion à décalage vers le rouge, en spécifiant les détails de votre cluster et la base de données sentiment.
  • tester la connexion.
  1. (Facultatif) Recréer le schéma et la table dans TeamSQL: Si vous préférez gérer le schéma et la création de table dans TeamSQL, répétez les étapes 2 et 4 dans l'interface TeamSQL.

Import Data into Redshift Using the COPY Command Import Data into Redshift Using the COPY Command Import Data into Redshift Using the COPY Command Import Data into Redshift Using the COPY Command

Importation de données avec la commande de copie:

Exécutez cette commande dans TeamSQL, en remplaçant les espaces réservés par vos valeurs réelles:

<code class="language-sql">CREATE SCHEMA tweets;</code>

Import Data into Redshift Using the COPY Command

Paramètres de commande:

  • CSV: Spécifie le format de fichier CSV.
  • GZIP: indique la compression GZIP.
  • ACCEPTINVCHARS: gère les caractères UTF-8 non valides. Voir la documentation de Redshift pour plus de détails sur cette option et dans d'autres options comme DELIMITER.

Vérifiez l'importation:

<code class="language-sql">CREATE TABLE tweets.training (
    polarity INT,
    id BIGINT,
    date_of_tweet VARCHAR,
    query VARCHAR,
    user_id VARCHAR,
    tweet VARCHAR(MAX)
);</code>

Import Data into Redshift Using the COPY Command

Dépannage:

Vérifiez stl_load_errors pour toute erreur d'importation:

<code class="language-sql">CREATE DATABASE sentiment;</code>

Ce guide complet fournit une procédure pas à pas détaillée de l'importation de grands ensembles de données dans Redshift à l'aide de la commande COPY. N'oubliez pas de consulter la documentation officielle de décalage vers le reds pour les informations les plus à jour et les options avancées.

Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!

Déclaration:
Le contenu de cet article est volontairement contribué par les internautes et les droits d'auteur appartiennent à l'auteur original. Ce site n'assume aucune responsabilité légale correspondante. Si vous trouvez un contenu suspecté de plagiat ou de contrefaçon, veuillez contacter admin@php.cn