首页 >数据库 >mysql教程 >Sqoop1.4.4 实现将 Oracle10g 中的增量数据导入 Hive0.13.1 ,并更新Hive中的主表

Sqoop1.4.4 实现将 Oracle10g 中的增量数据导入 Hive0.13.1 ,并更新Hive中的主表

WBOY
WBOY原创
2016-06-07 16:44:011059浏览

将Oracle中的业务基础表增量数据导入Hive中,与当前的全量表合并为最新的全量表。通过Sqoop将Oracle中表的导入Hive,模拟全量表和

需求

将Oracle中的业务基础表增量数据导入Hive中,与当前的全量表合并为最新的全量表。

设计

涉及的三张表:

 

步骤:

  • 通过Sqoop将Oracle中的表导入Hive,模拟全量表和增量表
  • 通过Hive将“全量表 增量表”合并为“更新后的全量表”,覆盖当前的全量表
  • 步骤1:通过Sqoop将Oracle中表的导入Hive,模拟全量表和增量表

    为了模拟场景,需要一张全量表,和一张增量表,由于数据源有限,所以两个表都来自Oracle中的OMP_SERVICE,全量表包含所有数据,,在Hive中名称叫service_all,增量表包含部分时间段数据,在Hive中名称叫service_tmp。

    (1)全量表导入:导出所有数据,只要部分字段,导入到Hive指定表里

    为实现导入Hive功能,需要先配置HCatalog(HCatalog是Hive子模块)的环境变量,/etc/profile中新增:

    export HCAT_HOME=/home/fulong/Hive/apache-hive-0.13.1-bin/hcatalog

     

    执行以下命令导入数据:

    fulong@FBI006:~/Sqoop/sqoop-1.4.4/bin$ ./sqoop import

    > --connect jdbc:oracle:thin:@192.168.0.147:1521:ORCLGBK  --username SP --password fulong

    > --table OMP_SERVICE

    > --columns "SERVICE_CODE,SERVICE_NAME,SERVICE_PROCESS,CREATE_TIME,ENABLE_ORG,ENABLE_PLATFORM,IF_DEL"

    > --hive-import --hive-table SERVICE_ALL

     

    注意:用户名必须大写

     

    (2)增量表导入:只导出所需时间范围内的数据,只要部分字段,导入到Hive指定表里

    使用以下命令导入数据:

    fulong@FBI006:~/Sqoop/sqoop-1.4.4/bin$ ./sqoop import

    > --connect jdbc:oracle:thin:@192.168.0.147:1521:ORCLGBK  --username SP --password fulong

    > --table OMP_SERVICE

    > --columns "SERVICE_CODE,SERVICE_NAME,SERVICE_PROCESS,CREATE_TIME,ENABLE_ORG,ENABLE_PLATFORM,IF_DEL"

    > --where "CREATE_TIME > to_date('2012/12/4 17:00:00','yyyy-mm-dd hh24:mi:ss') and CREATE_TIME < to_date('2012/12/4 18:00:00','yyyy-mm-dd hh24:mi:ss')"

    > --hive-import --hive-overwrite --hive-table SERVICE_TMP

     

    注意:

  • 由于使用了--hive-overwrite参数,所以该语句可反复执行,往service_tmp表中覆盖插入最新的增量数据;
  • Sqoop还支持使用复杂Sql语句查询数据导入,相亲参见的“7.2.3.Free-form Query Imports”章节
  • (3)验证导入结果:列出所有表,统计行数,查看表结构

    hive> show tables;

    OK

    searchlog

    searchlog_tmp

    service_all

    service_tmp

    Time taken: 0.04 seconds, Fetched: 4 row(s)

    hive> select count(*) from service_all;

    Total jobs = 1

    Launching Job 1 out of 1

    Number of reduce tasks determined at compile time: 1

    In order to change the average load for a reducer (in bytes):

      set hive.exec.reducers.bytes.per.reducer=

    In order to limit the maximum number of reducers:

      set hive.exec.reducers.max=

    In order to set a constant number of reducers:

      set mapreduce.job.reduces=

    Starting Job = job_1407233914535_0013, Tracking URL = :8088/proxy/application_1407233914535_0013/

    Kill Command = /home/fulong/Hadoop/hadoop-2.2.0/bin/hadoop job  -kill job_1407233914535_0013

    Hadoop job information for Stage-1: number of mappers: 3; number of reducers: 1

    2014-08-21 16:51:47,389 Stage-1 map = 0%,  reduce = 0%

    2014-08-21 16:51:59,816 Stage-1 map = 33%,  reduce = 0%, Cumulative CPU 1.36 sec

    2014-08-21 16:52:01,996 Stage-1 map = 67%,  reduce = 0%, Cumulative CPU 2.45 sec

    2014-08-21 16:52:07,877 Stage-1 map = 100%,  reduce = 0%, Cumulative CPU 3.96 sec

    2014-08-21 16:52:17,639 Stage-1 map = 100%,  reduce = 100%, Cumulative CPU 5.29 sec

    MapReduce Total cumulative CPU time: 5 seconds 290 msec

    已结束作业 = job_1407233914535_0013

    MapReduce 作业启动:

    作业 0:映射:3 减少:1 累计 CPU:5.46 秒 HDFS 读取:687141 HDFS 写入:5 成功

    MapReduce CPU 总花费时间:5 秒 460 毫秒

    好的

    6803

    耗时:59.386 秒,已获取:1 行

    蜂巢> 从service_tmp中选择count(*);

    总职位 = 1

    启动工作 1 中的 1

    编译时确定的reduce任务数量:1

    为了更改减速器的平均负载(以字节为单位):

      设置 hive.exec.reducers.bytes.per.reducer=

    为了限制reducer的最大数量:

      设置 hive.exec.reducers.max=

    为了设置恒定数量的减速器:

     设置mapreduce.job.reduces=

    开始作业 = job_1407233914535_0014,跟踪 URL = :8088/proxy/application_1407233914535_0014/

    Kill Command = /home/fulong/Hadoop/hadoop-2.2.0/bin/hadoop job -kill job_1407233914535_0014

    Stage-1的Hadoop作业信息:映射器数量:3;减速机数量:1

    2014-08-21 16:53:03,951 第一阶段地图 = 0%,减少 = 0%

    2014-08-21 16:53:15,189 Stage-1 地图 = 67%,减少 = 0%,累积 CPU 2.17 秒

    2014-08-21 16:53:16,236 Stage-1 地图 = 100%,减少 = 0%,累积 CPU 3.38 秒

    2014-08-21 16:53:57,935 Stage-1 地图 = 100%,减少 = 22%,累计 CPU 3.78 秒

    2014-08-21 16:54:01,811 Stage-1 地图 = 100%,减少 = 100%,累积 CPU 5.34 秒

    MapReduce 总累积 CPU 时间:5 秒 340 毫秒

    已结束作业 = job_1407233914535_0014

    MapReduce 作业启动:

    作业 0:映射:3 减少:1 累计 CPU:5.66 秒 HDFS 读取:4720 HDFS 写入:3 次成功

    MapReduce CPU 总花费时间:5 秒 660 毫秒

    好的

    13

    耗时:75.856 秒,已获取:1 行

    蜂巢> 描述 service_all;

    好的

    service_code            字符串

    service_name            字符串

    service_process         字符串

    create_time             字符串

    enable_org              字符串

    enable_platform         字符串

    if_del                  字符串

    耗时:0.169 秒,已获取:7 行

    蜂巢> 描述service_tmp;

    好的

    service_code            字符串

    service_name            字符串

    service_process         字符串

    create_time             字符串

    enable_org              字符串

    enable_platform         字符串

    if_del                  字符串

    耗时:0.117 秒,获取:7 行

    合并新表的逻辑如下:

  • 整个tmp表进入最终表中
  • 所有表的数据中不包含在tmp表service_code范围内的数据全部进入新表
  • 执行以下sql语句可以获取更新后的全量表:

    声明:
    本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系admin@php.cn