目录

同步策略

四种表

20张表分别属于什么分区策略


数据的同步主要得益于:数据仓库的同步策略,它的同步策略有四种。

同步策略

全量同步策略:

每日全量,导入完整数据到hive的分区表,就是每天存储一份完整数据,作为一个分区。适用于表数据量不大,且每日都有新数据插入,也会有旧数据修改的场景。

例如:编码字典表,且每天即会有数据插入,也会有旧数据的修改的场景。

增量同步策略:

每日增量, 就是每天存储一份增量数据,作为一个分区。适用于数据量大,且每天只会有新数据插入的场景。

例如:退单表,订单状况表,支付流水表,订单详情表,活动与订单关联表,商品评论表。

新增及变化策略:

每日新增及变化,就是存储创建时间和操作时间都是今天的数据。使用场景:表的数据量大,既有新增,又会有变化。

例如:用户表(更适合用拉链表来实现),订单表,优惠券领用表。

 拉链表:缓慢变化表。到一个特定时间,修改字段。

特殊策略:

只需要导入一次。(只能有一个固定值,比如:省份,地区表,)

四种表

全量表:存储完整的数据。数据量不大的表(有变化)

增量表:存储新增加的数据。数据没有修改,但是会追加的情况

新增及变化表:存储新增加的数据和变化的数据。数据量比较大,修改与增加

特殊表:只需要存储一次。

20张表分别属于什么分区策略

全量表     

 SPU商品表(spu_info)

SKU商品表(sku_info) 

商品一级分类表(base_category1)

商品二级分类表(base_category2)

商品三级分类表(base_category3)

品牌表(base_trademark) 

编码字典表(base_dic)   

活动参与商品表(activity_sku) 

  加购表(cart_info)

  商品收藏表(favor_info)

 优惠券表(coupon_info)

 优惠规则表(activity_rule

 增量表     

  订单状态表(order_info)

退单表(order_refund_info)

活动订单关联表(activity_order)

支付流水表(payment_info)

商品评论表(comment_info)

 

 

 

 

 

 

 

新增及变化表     

活动表(activity_info) 

 优惠券领用表(coupon_use)

优惠规则表(activity_rule

用户表(user_info)

 

 

 

 

 

 

 

 

 特殊表 

省份表(base_province)

 地区表(base_region

  时间表(date_info

假期表(holiday_info)

 假期年表(holiday_year)