使用Redshift的复制命令进行有效的数据导入
本指南使用高效的COPY
命令演示了将大型数据集导入到亚马逊红移中。我们将以公开可用的“情感分析Twitter数据”数据集(Sentiment140)为例。 注意:TeamSQL是一种多平台数据库客户端,与RedShift,PostgreSQL,MySQL和Microsoft SQL Server兼容(可用于Mac,Linux和Windows),可以简化连接过程。 您可以免费下载TeamSQL。在此处下载培训数据zip文件。
- 复制与插入:
- 由于其并行处理功能,大型数据导入的命令的命令明显更快。
COPY
>数据源:您的数据必须在S3中。建议使用CSV格式。 压缩(例如,GZIP)减少了传输时间。 >
- 错误处理:利用 的系统表来诊断导入问题。尽管遇到有限的错误,但
- 选项允许命令继续进行。>
stl_load_errors
MAXERROR
COPY
设置红移环境:
在此示例中,我们将假设具有这些规格的红移群集:
节点类型:dc1.large
- 区域:us-east-1a
- >创建一个数据库:
-
创建一个架构:
CREATE DATABASE sentiment;
- 了解数据结构: >
CREATE SCHEMA tweets;> csv文件(triending.1600000.processed.noemoticon)包含:
-
polarity
(int):0(否定),2(中性),4(正) >
- >
id
(bigint):tweet ID - >
date_of_tweet
(varchar):tweet Date -
query
(varchar):query(或“ no_query”) >
- >
user_id
(varchar):用户ID - >
tweet
(varchar):tweet text
- 创建一个表:
CREATE DATABASE sentiment;
-
上传到S3:
- >解压缩下载的文件。
- compress
- 使用gzip(例如,
training.1600000.processed.noemoticon.csv
)。gzip training.1600000.processed.noemoticon.csv
> >将压缩文件( - )上传到您的S3存储桶中。 或者,使用AWS CLI上传。
training.1600000.processed.noemoticon.csv.gz
- >与TeamsQl:
连接
- 创建一个红移连接,指定群集详细信息和 >数据库。
-
sentiment
测试连接。
- (可选)在TeamSQL中重新创建架构和表格:
- 如果您更喜欢在TeamSQL中管理架构和表创建,请在TeamsSQL接口中重复步骤2和4。
>用复制命令导入数据:
>
在TeamSQL中执行此命令,用您的实际值代替占位符:
CREATE SCHEMA tweets;
>命令参数:
:指定CSV文件格式。
>- :指示gzip压缩。
CSV
- :处理无效的UTF-8字符。 有关此选项的详细信息,请参见Redshift文档,例如
GZIP
>。 -
ACCEPTINVCHARS
验证导入:DELIMITER
>故障排除:
CREATE TABLE tweets.training ( polarity INT, id BIGINT, date_of_tweet VARCHAR, query VARCHAR, user_id VARCHAR, tweet VARCHAR(MAX) );
对于任何导入错误: 本综合指南提供了使用CREATE DATABASE sentiment;
COPY
>命令将大型数据集导入红移的详细演练。请记住,请咨询官方的红移文档以获取最新信息和高级选项。
以上是使用复制命令将数据导入红移的详细内容。更多信息请关注PHP中文网其他相关文章!

定制电信软件开发无疑是一项相当大的投资。然而,从长远来看,您可能会意识到,这样的项目可能更具成本效益,因为它可以像市场上任何现成的解决方案一样提高您的生产力。了解构建定制电信系统的最重要优势。 获取您所需的确切功能 您可以购买的现成电信软件有两个潜在问题。有些缺乏可能显着改善您工作效率的有用功能。有时您可以通过一些外部集成来增强它们,但这并不总是足以使它们变得出色。 其他软件功能过多,使用起来过于复杂。您可能不会使用其中的一些(永远不会!)。大量的功能通常还会增加价格。 基于您的需求

Arm64 架构开源软件的 CI/CD 难题与解决方案 在 Arm64 架构上部署开源软件需要一个强大的 CI/CD 环境。然而,Arm64 和传统 x86 处理器架构的支持水平之间存在差异,Arm64 通常处于劣势。面向多种架构的基础设施组件开发人员对工作环境有一定的期望: 一致性:跨平台使用的工具和方法保持一致,避免因采用不太流行的平台而需要改变开发流程。 性能:平台和支持机制具有良好的性能,确保在支持多个平台时部署方案不会因速度不足而受影响。 测试覆盖率:对所有平台同时进行效率、合规性和

与这些顶级开发人员新闻通讯有关最新技术趋势的了解! 这个精选的清单为每个人提供了一些东西,从AI爱好者到经验丰富的后端和前端开发人员。 选择您的收藏夹并节省时间搜索REL

该教程通过使用AWS服务来指导您通过构建无服务器图像处理管道。 我们将创建一个部署在ECS Fargate群集上的next.js前端,与API网关,Lambda函数,S3桶和DynamoDB进行交互。 Th

该试点程序是CNCF(云本机计算基础),安培计算,Equinix金属和驱动的合作,简化了CNCF GitHub项目的ARM64 CI/CD。 该计划解决了安全问题和绩效


热AI工具

Undresser.AI Undress
人工智能驱动的应用程序,用于创建逼真的裸体照片

AI Clothes Remover
用于从照片中去除衣服的在线人工智能工具。

Undress AI Tool
免费脱衣服图片

Clothoff.io
AI脱衣机

Video Face Swap
使用我们完全免费的人工智能换脸工具轻松在任何视频中换脸!

热门文章

热工具

ZendStudio 13.5.1 Mac
功能强大的PHP集成开发环境

SecLists
SecLists是最终安全测试人员的伙伴。它是一个包含各种类型列表的集合,这些列表在安全评估过程中经常使用,都在一个地方。SecLists通过方便地提供安全测试人员可能需要的所有列表,帮助提高安全测试的效率和生产力。列表类型包括用户名、密码、URL、模糊测试有效载荷、敏感数据模式、Web shell等等。测试人员只需将此存储库拉到新的测试机上,他就可以访问到所需的每种类型的列表。

Dreamweaver Mac版
视觉化网页开发工具

Dreamweaver CS6
视觉化网页开发工具

SublimeText3汉化版
中文版,非常好用