使用Redshift的複制命令進行有效的數據導入
本指南使用高效的COPY
命令演示了將大型數據集導入到亞馬遜紅移中。我們將以公開可用的“情感分析Twitter數據”數據集(Sentiment140)為例。 注意:TeamSQL是一種多平台數據庫客戶端,與RedShift,PostgreSQL,MySQL和Microsoft SQL Server兼容(可用於Mac,Linux和Windows),可以簡化連接過程。 您可以免費下載TeamSQL。在此處下載培訓數據zip文件。
COPY
>數據源:stl_load_errors
MAXERROR
COPY
設置紅移環境:在此示例中,我們將假設具有這些規格的紅移群集:
節點類型:dc1.large
<code class="language-sql">CREATE DATABASE sentiment;</code>
<code class="language-sql">CREATE SCHEMA tweets;</code>> csv文件(triending.1600000.processed.noemoticon)包含:
polarity
(int):0(否定),2(中性),4(正)id
(bigint):tweet IDdate_of_tweet
(varchar):tweet Datequery
(varchar):query(或“ no_query”)user_id
(varchar):用戶ID tweet
(varchar):tweet text<code class="language-sql">CREATE DATABASE sentiment;</code>
training.1600000.processed.noemoticon.csv
)。 gzip training.1600000.processed.noemoticon.csv
>
training.1600000.processed.noemoticon.csv.gz
sentiment
測試連接。
>用複制命令導入數據:
>
在TeamSQL中執行此命令,用您的實際值代替佔位符:
<code class="language-sql">CREATE SCHEMA tweets;</code>
>命令參數:
:指定CSV文件格式。
>CSV
GZIP
>。
ACCEPTINVCHARS
驗證導入:DELIMITER
>故障排除:
<code class="language-sql">CREATE TABLE tweets.training ( polarity INT, id BIGINT, date_of_tweet VARCHAR, query VARCHAR, user_id VARCHAR, tweet VARCHAR(MAX) );</code>
對於任何導入錯誤: 本綜合指南提供了使用<code class="language-sql">CREATE DATABASE sentiment;</code>
COPY
>命令將大型數據集導入紅移的詳細演練。請記住,請諮詢官方的紅移文檔以獲取最新信息和高級選項。
以上是使用複制命令將數據導入紅移的詳細內容。更多資訊請關注PHP中文網其他相關文章!