Sqoop1.4.4 实现将 Oracle10g 中的增量数据导入 Hive0.13.1 ，并更新Hive中的主表-mysql教程-PHP中文网

首页

数据库

mysql教程

Sqoop1.4.4 实现将 Oracle10g 中的增量数据导入 Hive0.13.1 ，并更新Hive中的主表

WBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWB

Jun 07, 2016 pm 04:44 PM

将Oracle中的业务基础表增量数据导入Hive中，与当前的全量表合并为最新的全量表。通过Sqoop将Oracle中表的导入Hive，模拟全量表和

需求

将Oracle中的业务基础表增量数据导入Hive中，与当前的全量表合并为最新的全量表。

设计

涉及的三张表：

步骤：

通过Sqoop将Oracle中的表导入Hive，模拟全量表和增量表

通过Hive将“全量表增量表”合并为“更新后的全量表”，覆盖当前的全量表

步骤1：通过Sqoop将Oracle中表的导入Hive，模拟全量表和增量表

为了模拟场景，需要一张全量表，和一张增量表，由于数据源有限，所以两个表都来自Oracle中的OMP_SERVICE，全量表包含所有数据，，在Hive中名称叫service_all，增量表包含部分时间段数据，在Hive中名称叫service_tmp。

（1）全量表导入：导出所有数据，只要部分字段，导入到Hive指定表里

为实现导入Hive功能，需要先配置HCatalog（HCatalog是Hive子模块）的环境变量，/etc/profile中新增：

export HCAT_HOME=/home/fulong/Hive/apache-hive-0.13.1-bin/hcatalog

执行以下命令导入数据：

fulong@FBI006:~/Sqoop/sqoop-1.4.4/bin$ ./sqoop import

> --connect jdbc:oracle:thin:@192.168.0.147:1521:ORCLGBK --username SP --password fulong

> --table OMP_SERVICE

> --columns "SERVICE_CODE,SERVICE_NAME,SERVICE_PROCESS,CREATE_TIME,ENABLE_ORG,ENABLE_PLATFORM,IF_DEL"

> --hive-import --hive-table SERVICE_ALL

注意：用户名必须大写

（2）增量表导入：只导出所需时间范围内的数据，只要部分字段，导入到Hive指定表里

使用以下命令导入数据：

fulong@FBI006:~/Sqoop/sqoop-1.4.4/bin$ ./sqoop import

> --connect jdbc:oracle:thin:@192.168.0.147:1521:ORCLGBK --username SP --password fulong

> --table OMP_SERVICE

> --columns "SERVICE_CODE,SERVICE_NAME,SERVICE_PROCESS,CREATE_TIME,ENABLE_ORG,ENABLE_PLATFORM,IF_DEL"

> --where "CREATE_TIME > to_date('2012/12/4 17:00:00','yyyy-mm-dd hh24:mi:ss') and CREATE_TIME

> --hive-import --hive-overwrite --hive-table SERVICE_TMP

注意：

由于使用了--hive-overwrite参数，所以该语句可反复执行，往service_tmp表中覆盖插入最新的增量数据；

Sqoop还支持使用复杂Sql语句查询数据导入，相亲参见的“7.2.3.Free-form Query Imports”章节

（3）验证导入结果：列出所有表，统计行数，查看表结构

hive> show tables;

searchlog

searchlog_tmp

service_all

service_tmp

Time taken: 0.04 seconds, Fetched: 4 row(s)

hive> select count(*) from service_all;

Total jobs = 1

Launching Job 1 out of 1

Number of reduce tasks determined at compile time: 1

In order to change the average load for a reducer (in bytes):

set hive.exec.reducers.bytes.per.reducer=

In order to limit the maximum number of reducers:

set hive.exec.reducers.max=

In order to set a constant number of reducers:

set mapreduce.job.reduces=

Starting Job = job_1407233914535_0013, Tracking URL = :8088/proxy/application_1407233914535_0013/

Kill Command = /home/fulong/Hadoop/hadoop-2.2.0/bin/hadoop job -kill job_1407233914535_0013

Hadoop job information for Stage-1: number of mappers: 3; number of reducers: 1

2014-08-21 16:51:47,389 Stage-1 map = 0%, reduce = 0%

2014-08-21 16:51:59,816 Stage-1 map = 33%, reduce = 0%, Cumulative CPU 1.36 sec

2014-08-21 16:52:01,996 Stage-1 map = 67%, reduce = 0%, Cumulative CPU 2.45 sec

2014-08-21 16:52:07,877 Stage-1 map = 100%, reduce = 0%, Cumulative CPU 3.96 sec

2014-08-21 16:52:17,639 Stage-1 map = 100%, reduce = 100%, Cumulative CPU 5.29 sec

MapReduce Total cumulative CPU time: 5 seconds 290 msec

已结束作业 = job_1407233914535_0013

MapReduce 作业启动：

作业 0：映射：3 减少：1 累计 CPU：5.46 秒 HDFS 读取：687141 HDFS 写入：5 成功

MapReduce CPU 总花费时间：5 秒 460 毫秒

好的

6803

耗时：59.386 秒，已获取：1 行

蜂巢> 从service_tmp中选择count(*)；

总职位 = 1

启动工作 1 中的 1

编译时确定的reduce任务数量：1

为了更改减速器的平均负载（以字节为单位）：

设置 hive.exec.reducers.bytes.per.reducer=

为了限制reducer的最大数量：

设置 hive.exec.reducers.max=

为了设置恒定数量的减速器：

设置mapreduce.job.reduces=

开始作业 = job_1407233914535_0014，跟踪 URL = :8088/proxy/application_1407233914535_0014/

Kill Command = /home/fulong/Hadoop/hadoop-2.2.0/bin/hadoop job -kill job_1407233914535_0014

Stage-1的Hadoop作业信息：映射器数量：3；减速机数量：1

2014-08-21 16:53:03,951 第一阶段地图 = 0%，减少 = 0%

2014-08-21 16:53:15,189 Stage-1 地图 = 67%，减少 = 0%，累积 CPU 2.17 秒

2014-08-21 16:53:16,236 Stage-1 地图 = 100%，减少 = 0%，累积 CPU 3.38 秒

2014-08-21 16:53:57,935 Stage-1 地图 = 100%，减少 = 22%，累计 CPU 3.78 秒

2014-08-21 16:54:01,811 Stage-1 地图 = 100%，减少 = 100%，累积 CPU 5.34 秒

MapReduce 总累积 CPU 时间：5 秒 340 毫秒

已结束作业 = job_1407233914535_0014

MapReduce 作业启动：

作业 0：映射：3 减少：1 累计 CPU：5.66 秒 HDFS 读取：4720 HDFS 写入：3 次成功

MapReduce CPU 总花费时间：5 秒 660 毫秒

好的

耗时：75.856 秒，已获取：1 行

蜂巢> 描述 service_all;

好的

service_code 字符串

service_name 字符串

service_process 字符串

create_time 字符串

enable_org 字符串

enable_platform 字符串

if_del 字符串

耗时：0.169 秒，已获取：7 行

蜂巢> 描述service_tmp;

好的

service_code 字符串

service_name 字符串

service_process 字符串

create_time 字符串

enable_org 字符串

enable_platform 字符串

if_del 字符串

耗时：0.117 秒，获取：7 行

合并新表的逻辑如下：

整个tmp表进入最终表中

所有表的数据中不包含在tmp表service_code范围内的数据全部进入新表

执行以下sql语句可以获取更新后的全量表：

声明

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系admin@php.cn

减少在Docker中使用MySQL内存的使用Mar 04, 2025 pm 03:52 PM

本文探讨了Docker中的优化MySQL内存使用量。它讨论了监视技术（Docker统计，性能架构，外部工具）和配置策略。其中包括Docker内存限制，交换和cgroups

mysql无法打开共享库怎么解决Mar 04, 2025 pm 04:01 PM

本文介绍了MySQL的“无法打开共享库”错误。该问题源于MySQL无法找到必要的共享库（.SO/.DLL文件）。解决方案涉及通过系统软件包M验证库安装

如何使用Alter Table语句在MySQL中更改表？Mar 19, 2025 pm 03:51 PM

本文讨论了使用MySQL的Alter Table语句修改表，包括添加/删除列，重命名表/列以及更改列数据类型。

在 Linux 中运行 MySQl（有/没有带有 phpmyadmin 的 podman 容器）Mar 04, 2025 pm 03:54 PM

本文比较使用/不使用PhpMyAdmin的Podman容器直接在Linux上安装MySQL。它详细介绍了每种方法的安装步骤，强调了Podman在孤立，可移植性和可重复性方面的优势，还

什么是 SQLite？全面概述Mar 04, 2025 pm 03:55 PM

本文提供了SQLite的全面概述，SQLite是一个独立的，无服务器的关系数据库。它详细介绍了SQLite的优势（简单，可移植性，易用性）和缺点（并发限制，可伸缩性挑战）。 c

在MacOS上运行多个MySQL版本：逐步指南Mar 04, 2025 pm 03:49 PM

本指南展示了使用自制在MacOS上安装和管理多个MySQL版本。它强调使用自制装置隔离安装，以防止冲突。本文详细详细介绍了安装，起始/停止服务和最佳PRA

如何为MySQL连接配置SSL/TLS加密？Mar 18, 2025 pm 12:01 PM

文章讨论了为MySQL配置SSL/TLS加密，包括证书生成和验证。主要问题是使用自签名证书的安全含义。[角色计数：159]

哪些流行的MySQL GUI工具（例如MySQL Workbench，PhpMyAdmin）是什么？Mar 21, 2025 pm 06:28 PM

文章讨论了流行的MySQL GUI工具，例如MySQL Workbench和PhpMyAdmin，比较了它们对初学者和高级用户的功能和适合性。[159个字符]

See all articles

热AI工具

热工具

mPDF是一个PHP库，可以从UTF-8编码的HTML生成PDF文件。原作者Ian Back编写mPDF以从他的网站上“即时”输出PDF文件，并处理不同的语言。与原始脚本如HTML2FPDF相比，它的速度较慢，并且在使用Unicode字体时生成的文件较大，但支持CSS样式等，并进行了大量增强。支持几乎所有语言，包括RTL（阿拉伯语和希伯来语）和CJK（中日韩）。支持嵌套的块级元素（如P、DIV），