搜索
首页数据库mysql教程Sqoop1.4.4 实现将 Oracle10g 中的增量数据导入 Hive0.13.1 ,并更新Hive中的主表

将Oracle中的业务基础表增量数据导入Hive中,与当前的全量表合并为最新的全量表。通过Sqoop将Oracle中表的导入Hive,模拟全量表和

需求

将Oracle中的业务基础表增量数据导入Hive中,与当前的全量表合并为最新的全量表。

设计

涉及的三张表:

 

步骤:

  • 通过Sqoop将Oracle中的表导入Hive,模拟全量表和增量表
  • 通过Hive将“全量表 增量表”合并为“更新后的全量表”,覆盖当前的全量表
  • 步骤1:通过Sqoop将Oracle中表的导入Hive,模拟全量表和增量表

    为了模拟场景,需要一张全量表,和一张增量表,由于数据源有限,所以两个表都来自Oracle中的OMP_SERVICE,全量表包含所有数据,,在Hive中名称叫service_all,增量表包含部分时间段数据,在Hive中名称叫service_tmp。

    (1)全量表导入:导出所有数据,只要部分字段,导入到Hive指定表里

    为实现导入Hive功能,需要先配置HCatalog(HCatalog是Hive子模块)的环境变量,/etc/profile中新增:

    export HCAT_HOME=/home/fulong/Hive/apache-hive-0.13.1-bin/hcatalog

     

    执行以下命令导入数据:

    fulong@FBI006:~/Sqoop/sqoop-1.4.4/bin$ ./sqoop import

    > --connect jdbc:oracle:thin:@192.168.0.147:1521:ORCLGBK  --username SP --password fulong

    > --table OMP_SERVICE

    > --columns "SERVICE_CODE,SERVICE_NAME,SERVICE_PROCESS,CREATE_TIME,ENABLE_ORG,ENABLE_PLATFORM,IF_DEL"

    > --hive-import --hive-table SERVICE_ALL

     

    注意:用户名必须大写

     

    (2)增量表导入:只导出所需时间范围内的数据,只要部分字段,导入到Hive指定表里

    使用以下命令导入数据:

    fulong@FBI006:~/Sqoop/sqoop-1.4.4/bin$ ./sqoop import

    > --connect jdbc:oracle:thin:@192.168.0.147:1521:ORCLGBK  --username SP --password fulong

    > --table OMP_SERVICE

    > --columns "SERVICE_CODE,SERVICE_NAME,SERVICE_PROCESS,CREATE_TIME,ENABLE_ORG,ENABLE_PLATFORM,IF_DEL"

    > --where "CREATE_TIME > to_date('2012/12/4 17:00:00','yyyy-mm-dd hh24:mi:ss') and CREATE_TIME

    > --hive-import --hive-overwrite --hive-table SERVICE_TMP

     

    注意:

  • 由于使用了--hive-overwrite参数,所以该语句可反复执行,往service_tmp表中覆盖插入最新的增量数据;
  • Sqoop还支持使用复杂Sql语句查询数据导入,相亲参见的“7.2.3.Free-form Query Imports”章节
  • (3)验证导入结果:列出所有表,统计行数,查看表结构

    hive> show tables;

    OK

    searchlog

    searchlog_tmp

    service_all

    service_tmp

    Time taken: 0.04 seconds, Fetched: 4 row(s)

    hive> select count(*) from service_all;

    Total jobs = 1

    Launching Job 1 out of 1

    Number of reduce tasks determined at compile time: 1

    In order to change the average load for a reducer (in bytes):

      set hive.exec.reducers.bytes.per.reducer=

    In order to limit the maximum number of reducers:

      set hive.exec.reducers.max=

    In order to set a constant number of reducers:

      set mapreduce.job.reduces=

    Starting Job = job_1407233914535_0013, Tracking URL = :8088/proxy/application_1407233914535_0013/

    Kill Command = /home/fulong/Hadoop/hadoop-2.2.0/bin/hadoop job  -kill job_1407233914535_0013

    Hadoop job information for Stage-1: number of mappers: 3; number of reducers: 1

    2014-08-21 16:51:47,389 Stage-1 map = 0%,  reduce = 0%

    2014-08-21 16:51:59,816 Stage-1 map = 33%,  reduce = 0%, Cumulative CPU 1.36 sec

    2014-08-21 16:52:01,996 Stage-1 map = 67%,  reduce = 0%, Cumulative CPU 2.45 sec

    2014-08-21 16:52:07,877 Stage-1 map = 100%,  reduce = 0%, Cumulative CPU 3.96 sec

    2014-08-21 16:52:17,639 Stage-1 map = 100%,  reduce = 100%, Cumulative CPU 5.29 sec

    MapReduce Total cumulative CPU time: 5 seconds 290 msec

    已结束作业 = job_1407233914535_0013

    MapReduce 作业启动:

    作业 0:映射:3 减少:1 累计 CPU:5.46 秒 HDFS 读取:687141 HDFS 写入:5 成功

    MapReduce CPU 总花费时间:5 秒 460 毫秒

    好的

    6803

    耗时:59.386 秒,已获取:1 行

    蜂巢> 从service_tmp中选择count(*);

    总职位 = 1

    启动工作 1 中的 1

    编译时确定的reduce任务数量:1

    为了更改减速器的平均负载(以字节为单位):

      设置 hive.exec.reducers.bytes.per.reducer=

    为了限制reducer的最大数量:

      设置 hive.exec.reducers.max=

    为了设置恒定数量的减速器:

     设置mapreduce.job.reduces=

    开始作业 = job_1407233914535_0014,跟踪 URL = :8088/proxy/application_1407233914535_0014/

    Kill Command = /home/fulong/Hadoop/hadoop-2.2.0/bin/hadoop job -kill job_1407233914535_0014

    Stage-1的Hadoop作业信息:映射器数量:3;减速机数量:1

    2014-08-21 16:53:03,951 第一阶段地图 = 0%,减少 = 0%

    2014-08-21 16:53:15,189 Stage-1 地图 = 67%,减少 = 0%,累积 CPU 2.17 秒

    2014-08-21 16:53:16,236 Stage-1 地图 = 100%,减少 = 0%,累积 CPU 3.38 秒

    2014-08-21 16:53:57,935 Stage-1 地图 = 100%,减少 = 22%,累计 CPU 3.78 秒

    2014-08-21 16:54:01,811 Stage-1 地图 = 100%,减少 = 100%,累积 CPU 5.34 秒

    MapReduce 总累积 CPU 时间:5 秒 340 毫秒

    已结束作业 = job_1407233914535_0014

    MapReduce 作业启动:

    作业 0:映射:3 减少:1 累计 CPU:5.66 秒 HDFS 读取:4720 HDFS 写入:3 次成功

    MapReduce CPU 总花费时间:5 秒 660 毫秒

    好的

    13

    耗时:75.856 秒,已获取:1 行

    蜂巢> 描述 service_all;

    好的

    service_code            字符串

    service_name            字符串

    service_process         字符串

    create_time             字符串

    enable_org              字符串

    enable_platform         字符串

    if_del                  字符串

    耗时:0.169 秒,已获取:7 行

    蜂巢> 描述service_tmp;

    好的

    service_code            字符串

    service_name            字符串

    service_process         字符串

    create_time             字符串

    enable_org              字符串

    enable_platform         字符串

    if_del                  字符串

    耗时:0.117 秒,获取:7 行

    合并新表的逻辑如下:

  • 整个tmp表进入最终表中
  • 所有表的数据中不包含在tmp表service_code范围内的数据全部进入新表
  • 执行以下sql语句可以获取更新后的全量表:

    声明
    本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系admin@php.cn
    减少在Docker中使用MySQL内存的使用减少在Docker中使用MySQL内存的使用Mar 04, 2025 pm 03:52 PM

    本文探讨了Docker中的优化MySQL内存使用量。 它讨论了监视技术(Docker统计,性能架构,外部工具)和配置策略。 其中包括Docker内存限制,交换和cgroups

    mysql无法打开共享库怎么解决mysql无法打开共享库怎么解决Mar 04, 2025 pm 04:01 PM

    本文介绍了MySQL的“无法打开共享库”错误。 该问题源于MySQL无法找到必要的共享库(.SO/.DLL文件)。解决方案涉及通过系统软件包M验证库安装

    如何使用Alter Table语句在MySQL中更改表?如何使用Alter Table语句在MySQL中更改表?Mar 19, 2025 pm 03:51 PM

    本文讨论了使用MySQL的Alter Table语句修改表,包括添加/删除列,重命名表/列以及更改列数据类型。

    在 Linux 中运行 MySQl(有/没有带有 phpmyadmin 的 podman 容器)在 Linux 中运行 MySQl(有/没有带有 phpmyadmin 的 podman 容器)Mar 04, 2025 pm 03:54 PM

    本文比较使用/不使用PhpMyAdmin的Podman容器直接在Linux上安装MySQL。 它详细介绍了每种方法的安装步骤,强调了Podman在孤立,可移植性和可重复性方面的优势,还

    什么是 SQLite?全面概述什么是 SQLite?全面概述Mar 04, 2025 pm 03:55 PM

    本文提供了SQLite的全面概述,SQLite是一个独立的,无服务器的关系数据库。 它详细介绍了SQLite的优势(简单,可移植性,易用性)和缺点(并发限制,可伸缩性挑战)。 c

    在MacOS上运行多个MySQL版本:逐步指南在MacOS上运行多个MySQL版本:逐步指南Mar 04, 2025 pm 03:49 PM

    本指南展示了使用自制在MacOS上安装和管理多个MySQL版本。 它强调使用自制装置隔离安装,以防止冲突。 本文详细详细介绍了安装,起始/停止服务和最佳PRA

    如何为MySQL连接配置SSL/TLS加密?如何为MySQL连接配置SSL/TLS加密?Mar 18, 2025 pm 12:01 PM

    文章讨论了为MySQL配置SSL/TLS加密,包括证书生成和验证。主要问题是使用自签名证书的安全含义。[角色计数:159]

    哪些流行的MySQL GUI工具(例如MySQL Workbench,PhpMyAdmin)是什么?哪些流行的MySQL GUI工具(例如MySQL Workbench,PhpMyAdmin)是什么?Mar 21, 2025 pm 06:28 PM

    文章讨论了流行的MySQL GUI工具,例如MySQL Workbench和PhpMyAdmin,比较了它们对初学者和高级用户的功能和适合性。[159个字符]

    See all articles

    热AI工具

    Undresser.AI Undress

    Undresser.AI Undress

    人工智能驱动的应用程序,用于创建逼真的裸体照片

    AI Clothes Remover

    AI Clothes Remover

    用于从照片中去除衣服的在线人工智能工具。

    Undress AI Tool

    Undress AI Tool

    免费脱衣服图片

    Clothoff.io

    Clothoff.io

    AI脱衣机

    AI Hentai Generator

    AI Hentai Generator

    免费生成ai无尽的。

    热门文章

    R.E.P.O.能量晶体解释及其做什么(黄色晶体)
    2 周前By尊渡假赌尊渡假赌尊渡假赌
    仓库:如何复兴队友
    4 周前By尊渡假赌尊渡假赌尊渡假赌
    Hello Kitty Island冒险:如何获得巨型种子
    4 周前By尊渡假赌尊渡假赌尊渡假赌

    热工具

    PhpStorm Mac 版本

    PhpStorm Mac 版本

    最新(2018.2.1 )专业的PHP集成开发工具

    SublimeText3 Mac版

    SublimeText3 Mac版

    神级代码编辑软件(SublimeText3)

    mPDF

    mPDF

    mPDF是一个PHP库,可以从UTF-8编码的HTML生成PDF文件。原作者Ian Back编写mPDF以从他的网站上“即时”输出PDF文件,并处理不同的语言。与原始脚本如HTML2FPDF相比,它的速度较慢,并且在使用Unicode字体时生成的文件较大,但支持CSS样式等,并进行了大量增强。支持几乎所有语言,包括RTL(阿拉伯语和希伯来语)和CJK(中日韩)。支持嵌套的块级元素(如P、DIV),

    记事本++7.3.1

    记事本++7.3.1

    好用且免费的代码编辑器

    安全考试浏览器

    安全考试浏览器

    Safe Exam Browser是一个安全的浏览器环境,用于安全地进行在线考试。该软件将任何计算机变成一个安全的工作站。它控制对任何实用工具的访问,并防止学生使用未经授权的资源。