目录
同步策略
四种表
20张表分别属于什么分区策略
数据的同步主要得益于:数据仓库的同步策略,它的同步策略有四种。
同步策略
全量同步策略:
每日全量,导入完整数据到hive的分区表,就是每天存储一份完整数据,作为一个分区。适用于表数据量不大,且每日都有新数据插入,也会有旧数据修改的场景。
例如:编码字典表,且每天即会有数据插入,也会有旧数据的修改的场景。
增量同步策略:
每日增量, 就是每天存储一份增量数据,作为一个分区。适用于数据量大,且每天只会有新数据插入的场景。
例如:退单表,订单状况表,支付流水表,订单详情表,活动与订单关联表,商品评论表。
新增及变化策略:
每日新增及变化,就是存储创建时间和操作时间都是今天的数据。使用场景:表的数据量大,既有新增,又会有变化。
例如:用户表(更适合用拉链表来实现),订单表,优惠券领用表。
拉链表:缓慢变化表。到一个特定时间,修改字段。
特殊策略:
只需要导入一次。(只能有一个固定值,比如:省份,地区表,)
四种表
全量表:存储完整的数据。数据量不大的表(有变化)
增量表:存储新增加的数据。数据没有修改,但是会追加的情况
新增及变化表:存储新增加的数据和变化的数据。数据量比较大,修改与增加
特殊表:只需要存储一次。
20张表分别属于什么分区策略
全量表 | SPU商品表(spu_info) | SKU商品表(sku_info) | 商品一级分类表(base_category1) | 商品二级分类表(base_category2) | 商品三级分类表(base_category3) | 品牌表(base_trademark) | 编码字典表(base_dic) | 活动参与商品表(activity_sku) | 加购表(cart_info) | 商品收藏表(favor_info) | 优惠券表(coupon_info) | 优惠规则表(activity_rule) |
增量表 | 订单状态表(order_info) | 退单表(order_refund_info) | 活动订单关联表(activity_order) | 支付流水表(payment_info) | 商品评论表(comment_info) | | | | | | | |
新增及变化表 | 活动表(activity_info) | 优惠券领用表(coupon_use) | 优惠规则表(activity_rule) | 用户表(user_info) | | | | | | | | |
特殊表 | 省份表(base_province) | 地区表(base_region) | 时间表(date_info) | 假期表(holiday_info) | 假期年表(holiday_year) | | | | | | | |