• 技术文章 >数据库 >mysql教程

    一起来聊聊数据库拉链表

    长期闲置长期闲置2022-06-20 12:01:37转载150
    本篇文章给大家带来了关于mysql的相关知识,其中主要介绍了关于数据库拉链表的相关问题,拉链表是一种数据模型,主要是针对数据仓库设计中表存储数据的方式而定义的,顾名思义,所谓拉链,就是记录历史,下面一起来看一下,希望对大家有帮助。

    推荐学习:mysql视频教程

    拉链表产生背景

    在数据仓库的数据模型设计过程中,经常会遇到这样的需求:

    1、数据量比较大;

    2、表中的部分字段会被update,如用户的地址,产品的描述信息,订单的状态等等;

    3、需要查看某一个时间点或者时间段的历史快照信息,比如,查看某一个订单在历史某一个时间点的状态,比如,查看某一个用户在过去某一段时间内,更新过几次等等;

    4、变化的比例和频率不是很大,比如,总共有1000万的会员,每天新增和发生变化的有10万左右;

    5、如果对这边表每天都保留一份全量,那么每次全量中会保存很多不变的信息,对存储是极大的浪费;

    对于这种表有几种方案可选:

    以上方案对比

    方案一

    这种方案就不用多说了,实现起来很简单,每天drop掉前一天的数据,重新抽一份最新的。

    优点很明显,节省空间,一些普通的使用也很方便,不用在选择表的时候加一个时间分区什么的。

    缺点同样明显,没有历史数据,先翻翻旧账只能通过其它方式,比如从流水表里面抽。

    方案二

    每天一份全量的切片是一种比较稳妥的方案,而且历史数据也在。

    缺点就是存储空间占用量太大太大了,如果对这边表每天都保留一份全量,那么每次全量中会保存很多不变的信息,对存储是极大的浪费,这点我感触还是很深的…

    当然我们也可以做一些取舍,比如只保留近一个月的数据?但是,需求是无耻的,数据的生命周期不是我们能完全左右的。

    拉链表

    拉链表在使用上基本兼顾了我们的需求。

    首先它在空间上做了一个取舍,虽说不像方案一那样占用量那么小,但是它每日的增量可能只有方案二的千分之一甚至是万分之一。

    其实它能满足方案二所能满足的需求,既能获取最新的数据,也能添加筛选条件也获取历史的数据。

    所以我们还是很有必要来使用拉链表的。

    拉链表概念

    拉链表是一种数据模型,主要是针对数据仓库设计中表存储数据的方式而定义的,顾名思义,所谓拉链,就是记录历史。记录一个事物从开始,一直到当前状态的所有变化的信息。拉链表可以避免按每一天存储所有记录造成的海量存储问题,同时也是处理缓慢变化数据(SCD2)的一种常见方式。

    百度百科的解释:拉链表是维护历史状态,以及最新状态数据的一种表,拉链表根据拉链粒度的不同,实际上相当于快照,只不过做了优化,去除了一部分不变的记录,通过拉链表可以很方便的还原出拉链时点的客户记录。

    拉链表算法

    1、采集当日全量数据到ND(NowDay当日)表;

    2、可从历史表中取出昨日全量数据存储到OD(OldDay上日)表;

    3、两个表进行全字段比较,(ND-OD)就是当日新增和变化的数据,也就是当天的增量,用W_I表示;

    4、两个表进行全字段比较,(OD-ND)为状态到此结束需要封链的数据,需要修改END_DATE,用W_U表示;

    5、将W_I表的内容全部插入到历史表中,这些是新增记录,start_date为当天,而end_date为max值,可以设为’9999-12-31‘;

    6、对历史表进行W_U部份的更新操作,start_date保持不变,而end_date改为当天,也就是关链操作,历史表(OD)和W_U表比较,START_DATE,END_DATE除外,以W_U表为准,两者交集将其END_DATE改成当日,说明该记录失效。

    拉链表示例1

    举个简单例子,比如有一张订单表:

    6月20号有3条记录:

    订单创建日期订单编号订单状态
    2012-06-20001创建订单
    2012-06-20002创建订单
    2012-06-20003支付完成

    到6月21日,表中有5条记录:

    订单创建日期订单编号订单状态
    2012-06-20001创建订单
    2012-06-20002创建订单
    2012-06-20003支付完成
    2012-06-21004创建订单
    2012-06-21005创建订单

    到6月22日,表中有6条记录:

    订单创建日期订单编号订单状态
    2012-06-20001创建订单
    2012-06-20002创建订单
    2012-06-20003支付完成
    2012-06-21004创建订单
    2012-06-21005创建订单
    2012-06-22006创建订单

    数据仓库中对该表的保留方法:

    1、只保留一份全量,则数据和6月22日的记录一样,如果需要查看6月21日订单001的状态,则无法满足;

    2、每天都保留一份全量,则数据仓库中的该表共有14条记录,但好多记录都是重复保存,没有任务变化,如订单002,004,数据量大了,会造成很大的存储浪费;

    如果在数据仓库中设计成历史拉链表保存该表,则会有下面这样一张表:

    订单创建日期订单编号订单状态dw_bigin_datedw_end_date
    2012-06-20001创建订单2012-06-202012-06-20
    2012-06-20001支付完成2012-06-219999-12-31
    2012-06-20002创建订单2012-06-209999-12-31
    2012-06-20003支付完成2012-06-202012-06-21
    2012-06-20003已发货2012-06-229999-12-31
    2012-06-21004创建订单2012-06-219999-12-31
    2012-06-21005创建订单2012-06-212012-06-21
    2012-06-21005支付完成2012-06-229999-12-31
    2012-06-22006创建订单2012-06-229999-12-31

    说明:

    1、dw_begin_date表示该条记录的生命周期开始时间,dw_end_date表示该条记录的生命周期结束时间;

    2、dw_end_date = '9999-12-31’表示该条记录目前处于有效状态;

    3、如果查询当前所有有效的记录,则select * from order_his where dw_end_date = ‘9999-12-31’;

    4、如果查询2012-06-21的历史快照,则select * from order_his where dw_begin_date <= ‘2012-06-21’ and end_date >= ‘2012-06-21’,这条语句会查询到以下记录:

    订单创建日期订单编号订单状态dw_bigin_datedw_end_date
    2012-06-20001支付完成2012-06-219999-12-31
    2012-06-20002创建订单2012-06-209999-12-31
    2012-06-20003支付完成2012-06-202012-06-21
    2012-06-21004创建订单2012-06-219999-12-31
    2012-06-21005创建订单2012-06-212012-06-21

    和源表在6月21日的记录完全一致:

    订单创建日期订单编号订单状态
    2012-06-20001创建订单
    2012-06-20002创建订单
    2012-06-20003支付完成
    2012-06-21004创建订单
    2012-06-21005创建订单

    可以看出,这样的历史拉链表,既能满足对历史数据的需求,又能很大程度的节省存储资源;

    拉链表示例2:

    在历史表中对人的一生的记录可能就这样几条记录,避免了按每一天记录客户状态造成的海量存储的问题:

    人名开始日期结束日期状态
    client1900010119070901H在家
    client1907090119130901A小学
    client1913090119160901B初中
    client1916090119190901C高中
    client1919090119230901D大学
    client1923090119601231E公司
    client1960123129991231H退休在家

    上面的每一条记录都是不算末尾的,比如到19070901,client已经在A,而不是H了。所以除最后一条记录因为状态到目前都未改变的,其余的记录实际上在结束日期那天,都不在是该条记录结束日期那天的状态。这种现象可以理解为算头不算尾。

    拉链表实现方式

    1、定义两个临时表,一个为当日全量数据,另一个为需要新增或更新的数据;

    CREATE VOLATILE TABLE VT_xxxx_NEW AS xxxx WITH NO DATA ON COMMIT PRESERVE ROWS;CREATE VOLATILE SET TABLE VT_xxxx_CHG,NO LOG AS xxxx WITH NO DATA ON COMMIT PRESERVE ROWS;

    2、获取当日全量数据

    INSERT INTO VT_xxxx_NEW(xx) SELECT (xx,cur_date, max_date) FROM xxxx_sorce;

    3、抽取新增或有变化的数据,从xxxx_NEW临时表到xxxx_CHG临时表;

    INSERT INTO VT_xxxx_CHG(xx)SELECT xx FROM VT_xxxx_NEWWHERE (xx) NOT IN (select xx from xxxx_HIS where end_date='max_date');

    4、更新历史表的失效记录的end_date为max值

    UPDATE A1 FROM xxxx_HIS A1, VT_xxxx_CHG A2SET End_Date='current_date'WHERE A1.xx=A2.xx AND A1.End_Date='max_date';

    5、将新增或者有变化的数据插入目标表

    INSERT INTO xxxx_HIS SELECT * FROM VT_xxxx_CHG;

    以商品数据为例

    存在商品表 t_product,表结构如下:

    列名类型说明
    goods_idvarchar(50)商品编号
    goods_statusvarchar(50)商品状态(待审核、待售、在售、已删除)
    createtimevarchar(50)商品创建日期
    modifytimevarchar(50)商品修改日期

    2019年12月20日的数据如下所示:

    goods_idgoods_statuscreatetimemodifytime
    001待审核2019-12-202019-12-20
    002待售2019-12-202019-12-20
    003在售2019-12-202019-12-20
    004已删除2019-12-202019-12-20

    商品的状态,会随着时间推移而变化,我们需要将商品的所有变化的历史信息都保存下来。

    方案一: 快照每一天的数据到数仓

    该方案为:每一天都保存一份全量,将所有数据同步到数仓中,很多记录都是重复保存,没有任何变化。

    12月20日(4条数据)
    goods_idgoods_statuscreatetimemodifytime
    001待审核2019-12-182019-12-20
    002待售2019-12-192019-12-20
    003在售2019-12-202019-12-20
    004已删除2019-12-152019-12-20
    12月21日(10条数据)
    goods_idgoods_statuscreatetimemodifytime
    以下为12月20日快照数据


    001待审核2019-12-182019-12-20
    002待售2019-12-192019-12-20
    003在售2019-12-202019-12-20
    004已删除2019-12-152019-12-20
    以下为12月21日快照数据


    001待售(从待审核到待售)2019-12-182019-12-21
    002待售2019-12-192019-12-20
    003在售2019-12-202019-12-20
    004已删除2019-12-152019-12-20
    005(新商品)待审核2019-12-212019-12-21
    006(新商品)待审核2019-12-212019-12-21
    12月22日(18条数据)
    goods_idgoods_statuscreatetimemodifytime
    以下为12月20日快照数据


    001待审核2019-12-182019-12-20
    002待售2019-12-192019-12-20
    003在售2019-12-202019-12-20
    004已删除2019-12-152019-12-20
    以下为12月21日快照数据


    001待售(从待审核到待售)2019-12-182019-12-21
    002待售2019-12-192019-12-20
    003在售2019-12-202019-12-20
    004已删除2019-12-152019-12-20
    005待审核2019-12-212019-12-21
    006待审核2019-12-212019-12-21
    以下为12月22日快照数据


    001待售2019-12-182019-12-21
    002待售2019-12-192019-12-20
    003已删除(从在售到已删除)2019-12-202019-12-22
    004待审核2019-12-212019-12-21
    005待审核2019-12-212019-12-21
    006已删除(从待审核到已删除)2019-12-212019-12-22
    007待审核2019-12-222019-12-22
    008待审核2019-12-222019-12-22
    MySQL数仓代码实现

    MySQL初始化

    在MySQL中 lalian 库和商品表用于到原始数据层

    -- 创建数据库create database if not exists lalian;-- 创建商品表create table if not exists `lalian`.`t_product`(
    	goods_id varchar(50), -- 商品编号
        goods_status varchar(50), -- 商品状态
        createtime varchar(50), -- 商品创建时间
        modifytime varchar(50) -- 商品修改时间);

    在MySQL中创建ods和dw层来模拟数仓

    -- ods创建商品表create table if not exists `lalian`.`ods_t_product`(
    	goods_id varchar(50), -- 商品编号
    	goods_status varchar(50), -- 商品状态
    	createtime varchar(50), -- 商品创建时间
    	modifytime varchar(50), -- 商品修改时间
    	cdat varchar(10)   -- 模拟hive分区)default character set = 'utf8';-- dw创建商品表create table if not exists `lalian`.`dw_t_product`(
    	goods_id varchar(50), -- 商品编号
    	goods_status varchar(50), -- 商品状态
     	createtime varchar(50), -- 商品创建时间
     	modifytime varchar(50), -- 商品修改时间
     	cdat varchar(10)  -- 模拟hive分区)default character set = 'utf8';

    增量导入12月20号数据

    原始数据导入12月20号数据(4条)

    insert into `lalian`.`t_product`(goods_id, goods_status, createtime, modifytime) values('001', '待审核', '2019-12-18', '2019-12-20'),('002', '待售', '2019-12-19', '2019-12-20'),('003', '在售', '2019-12-20', '2019-12-20'),('004', '已删除', '2019-12-15', '2019-12-20');

    注意:由于这里使用的MySQL来模拟的数仓所以直接使用insert into的方式导入数据,在企业中可能会使用hive来做数仓使用 kettle 或者 sqoop 或 datax 等来同步数据。

    # 从原始数据层导入到ods 层insert into lalian.ods_t_productselect *,'20191220' from lalian.t_product ;# 从ods同步到dw层insert into lalian.dw_t_productselect * from lalian.ods_t_product where cdat='20191220';

    查看dw层的运行结果

    select * from lalian.dw_t_product where cdat='20191220';
    goods_idgoods_statuscreatetimemodifytimecdat
    1待审核2019/12/182019/12/2020191220
    2待售2019/12/192019/12/2020191220
    3在售2019/12/202019/12/2020191220
    4已删除2019/12/152019/12/2020191220

    增量导入12月21数据

    原始数据层导入12月21日数据(6条数据)

    UPDATE `lalian`.`t_product` SET goods_status = '待售', modifytime = '2019-12-21' WHERE goods_id = '001';
    INSERT INTO `lalian`.`t_product`(goods_id, goods_status, createtime, modifytime) VALUES
    ('005', '待审核', '2019-12-21', '2019-12-21'),
    ('006', '待审核', '2019-12-21', '2019-12-21');

    将数据导入到ods层与dw层

    # 从原始数据层导入到ods 层insert into lalian.ods_t_productselect *,'20191221' from lalian.t_product ;# 从ods同步到dw层insert into lalian.dw_t_productselect * from lalian.ods_t_product where cdat='20191221';

    查看dw层的运行结果

    select * from lalian.dw_t_product where cdat='20191221';
    goods_idgoods_statuscreatetimemodifytimecdat
    1待售2019/12/182019/12/2120191221
    2待售2019/12/192019/12/2020191221
    3在售2019/12/202019/12/2020191221
    4已删除2019/12/152019/12/2020191221
    5待审核2019/12/212019/12/2120191221
    6待审核2019/12/212019/12/2120191221

    增量导入12月22日数据

    原始数据层导入12月22日数据(6条数据)

    UPDATE `lalian`.`t_product` SET goods_status = '已删除', modifytime = '2019-12-22' WHERE goods_id = '003';UPDATE `lalian`.`t_product` SET goods_status = '已删除', modifytime = '2019-12-22' WHERE goods_id = '006';INSERT INTO `lalian`.`t_product`(goods_id, goods_status, createtime, modifytime) VALUES('007', '待审核', '2019-12-22', '2019-12-22'),('008', '待审核', '2019-12-22', '2019-12-22');

    将数据导入到ods层与dw层

    # 从原始数据层导入到ods 层
    insert into lalian.ods_t_product
    select *,'20191222' from lalian.t_product ;
    # 从ods同步到dw层
    insert into lalian.dw_t_productpeizhiwenjian
    select * from lalian.ods_t_product where cdat='20191222';

    查看dw层的运行结果

    select * from lalian.dw_t_product where cdat='20191222';
    goods_idgoods_statuscreatetimemodifytimecdat
    1待售2019/12/182019/12/2120191222
    2待售2019/12/192019/12/2020191222
    3已删除2019/12/202019/12/2220191222
    4已删除2019/12/152019/12/2020191222
    5待审核2019/12/212019/12/2120191222
    6已删除2019/12/212019/12/2220191222
    7待审核2019/12/222019/12/2220191222
    8待审核2019/12/222019/12/2220191222

    查看dw层的运行结果

    select * from lalian.dw_t_product;
    goods_idgoods_statuscreatetimemodifytimecdat
    1待审核2019/12/182019/12/2020191220
    2待售2019/12/192019/12/2020191220
    3在售2019/12/202019/12/2020191220
    4已删除2019/12/152019/12/2020191220
    1待售2019/12/182019/12/2120191221
    2待售2019/12/192019/12/2020191221
    3在售2019/12/202019/12/2020191221
    4已删除2019/12/152019/12/2020191221
    5待审核2019/12/212019/12/2120191221
    6待审核2019/12/212019/12/2120191221
    1待售2019/12/182019/12/2120191222
    2待售2019/12/192019/12/2020191222
    3已删除2019/12/202019/12/2220191222
    4已删除2019/12/152019/12/2020191222
    5待审核2019/12/212019/12/2120191222
    6已删除2019/12/212019/12/2220191222
    7待审核2019/12/222019/12/2220191222
    8待审核2019/12/222019/12/2220191222

    从上述案例,可以看到:表每天保留一份全量,每次全量中会保存很多不变的信息,如果数据量很大的话,对存储是极大的浪费,可以将表设计为拉链表,既能满足反应数据的历史状态,又可以最大限度地节省存储空间。

    方案二: 使用拉链表保存历史快照

    拉链表不存储冗余的数据,只有某行的数据发生变化,才需要保存下来,相比每次全量同步会节省存储空间

    能够查询到历史快照

    额外的增加了两列(dw_start_datedw_end_date),为数据行的生命周期。

    12月20日商品拉链表的数据
    goods_idgoods_statuscreatetimemodifytimedw_start_datedw_end_date
    001待审核2019-12-182019-12-202019-12-209999-12-31
    002待售2019-12-192019-12-202019-12-209999-12-31
    003在售2019-12-202019-12-202019-12-209999-12-31
    004已删除2019-12-152019-12-202019-12-209999-12-31

    12月20日的数据是全新的数据导入到dw表

    12月21日商品拉链表的数据
    goods_idgoods_statuscreatetimemodifytimedw_start_datedw_end_date
    001待审核2019-12-182019-12-202019-12-202019-12-21
    002待售2019-12-192019-12-202019-12-209999-12-31
    003在售2019-12-202019-12-202019-12-209999-12-31
    004已删除2019-12-152019-12-202019-12-209999-12-31
    001(变)待售2019-12-182019-12-212019-12-219999-12-31
    005(新)待审核2019-12-212019-12-212019-12-219999-12-31

    拉链表中没有存储冗余的数据,即只要数据没有变化,无需同步

    12月22日商品拉链表的数据
    goods_idgoods_statuscreatetimemodifytimedw_start_datedw_end_date
    001待审核2019-12-182019-12-202019-12-202019-12-21
    002待售2019-12-192019-12-202019-12-209999-12-31
    003在售2019-12-202019-12-202019-12-202019-12-22
    004已删除2019-12-152019-12-202019-12-209999-12-31
    001待售2019-12-182019-12-212019-12-219999-12-31
    005待审核2019-12-212019-12-212019-12-219999-12-31
    006待审核2019-12-212019-12-212019-12-219999-12-31
    003(变)已删除2019-12-202019-12-222019-12-229999-12-31
    007(新)待审核2019-12-222019-12-222019-12-229999-12-31
    008(新)待审核2019-12-222019-12-222019-12-229999-12-31

    拉链表中没有存储冗余的数据,即只要数据没有变化,无需同步

    MySQL数仓拉链表快照实现

    操作流程:

    1. 在原有dw层表上,添加额外的两列
    2. 只同步当天修改的数据到ods层
    3. 拉链表算法实现
    4. 拉链表的数据为:当天最新的数据 UNION ALL 历史数据

    代码实现

    在MySQL中lalian库和商品表用于到原始数据层

    -- 创建数据库create database if not exists lalian;-- 创建商品表create table if not exists `lalian`.`t_product2`(
    	goods_id varchar(50), -- 商品编号
    	goods_status varchar(50), -- 商品状态
        createtime varchar(50), -- 商品创建时间
        modifytime varchar(50) -- 商品修改时间)default character set = 'utf8';

    在MySQL中创建ods和dw层 模拟数仓

    -- ods创建商品表create table if not exists `lalian`.`ods_t_product2`(
    	goods_id varchar(50), -- 商品编号
    	goods_status varchar(50), -- 商品状态
    	createtime varchar(50), -- 商品创建时间
    	modifytime varchar(50), -- 商品修改时间
    	cdat varchar(10)   -- 模拟hive分区)default character set = 'utf8';-- dw创建商品表create table if not exists `lalian`.`dw_t_product2`(
    	goods_id varchar(50), -- 商品编号
    	goods_status varchar(50), -- 商品状态
    	createtime varchar(50), -- 商品创建时间
    	modifytime varchar(50), -- 商品修改时间
    	dw_start_date varchar(12), -- 生效日期
    	dw_end_date varchar(12), -- 失效时间
    	cdat varchar(10)  -- 模拟hive分区)default character set = 'utf8';

    全量导入2019年12月20日数据

    原始数据层导入12月20日数据(4条数据)

    insert into `lalian`.`t_product_2`(goods_id, goods_status, createtime, modifytime) values('001', '待审核', '2019-12-18', '2019-12-20'),('002', '待售', '2019-12-19', '2019-12-20'),('003', '在售', '2019-12-20', '2019-12-20'),('004', '已删除', '2019-12-15', '2019-12-20');

    将数据导入到数仓中的ods层

    insert into lalian.ods_t_product2select *,'20191220' from lalian.t_product2 where modifytime >='2019-12-20';

    将数据从ods层导入到dw层

    insert into lalian.dw_t_product2select goods_id, goods_status, createtime, modifytime, modifytime,'9999-12-31', cdat from lalian.ods_t_product2 where cdat='20191220';

    增量导入2019年12月21日数据

    原始数据层导入12月21日数据(6条数据)

    UPDATE `lalian`.`t_product2` SET goods_status = '待售', modifytime = '2019-12-21' WHERE goods_id = '001';INSERT INTO `lalian`.`t_product2`(goods_id, goods_status, createtime, modifytime) VALUES('005', '待审核', '2019-12-21', '2019-12-21'),('006', '待审核', '2019-12-21', '2019-12-21');

    原始数据层同步到ods层

    insert into lalian.ods_t_product2select *,'20191221' from lalian.t_product2 where modifytime >='2019-12-21';

    编写ods层到dw层重新计算 dw_end_date

    select t1.goods_id, t1.goods_status, t1.createtime, t1.modifytime,
           t1.dw_start_date,
           case when (t2.goods_id is not null and t1.dw_end_date>'2019-12-21') then '2019-12-21'else t1.dw_end_date end as dw_end_date ,
           t1.cdatfrom lalian.dw_t_product2 t1left join (select * from lalian.ods_t_product2 where cdat='20191221')t2 on t1.goods_id=t2.goods_idunionselect goods_id, goods_status, createtime, modifytime, modifytime,'9999-12-31', cdat from lalian.ods_t_product2 where cdat='20191221';

    执行结果如下:

    goods_idgoods_statuscreatetimemodifytimedw_start_datedw_end_datecdat
    1待审核2019-12-182019-12-202019-12-202019-12-2120191220
    2待售2019-12-192019-12-202019-12-209999-12-3120191220
    3在售2019-12-202019-12-202019-12-209999-12-3120191220
    4已删除2019-12-152019-12-202019-12-209999-12-3120191220
    1待售2019-12-182019-12-212019-12-219999-12-3120191221
    5待审核2019-12-212019-12-212019-12-219999-12-3120191221
    6待审核2019-12-212019-12-212019-12-219999-12-3120191221

    拉链历史表,既能满足反应数据的历史状态,又可以最大程度的节省存储。我们做拉链表的时候要确定拉链表的粒度,比如说拉链表每天只取一个状态,也就是说如果一天有3个状态变更,我们只取最后一个状态,这种天粒度的表其实已经能解决大部分的问题了。

    推荐学习:mysql视频教程

    以上就是一起来聊聊数据库拉链表的详细内容,更多请关注php中文网其它相关文章!

    声明:本文转载于:CSDN,如有侵犯,请联系admin@php.cn删除
    专题推荐:mysql
    上一篇:mysql存储过程中的循环语句有哪些 下一篇:mysql不是内部命令要怎么解决
    20期PHP线上班

    相关文章推荐

    • 【活动】充值PHP中文网VIP即送云服务器• mysql怎么删除数据库• mysql怎么将值转换为二进制• 一起聊聊MySQL全局锁• mysql中sum()函数怎么用• mysql substring()函数怎么用
    1/1

    PHP中文网