1. 做数据人,不做打工人怎么帮助数据仓库的人员快速成长?刚开始接触数据仓库,或者工作1-2年的新手,大家肯定会遇到各种困难和疑惑,这就需要一个有丰富经验的数仓工作者帮着大家解惑答疑,武哥这边每周都会开设免费公开课,课程主题群内粉丝自选,你们不会什么,咱们就讲什么。数据仓库三千问,P8大佬武哥直播一一解答_数据▍武哥介绍武哥工作8年,从月入2000,到年薪百万,从新程序员小白逐渐进入了中小管理者。 武哥优点:
  • 武哥酷爱健身,正是因为痴迷于健身和学习,武哥至今还是单身,希望通过公众号可以替武哥征婚,有感觉武哥不错的,可以帮着介绍一下身边优质的妹子,武哥要求不高,只要是活的就可以。

  • 武哥声音好听

  • 有责任心

  • 爱交朋友,在群内非常喜欢交流,有人问他问题,看到必答。

  • 喜欢健身的人,比较自律,我看武哥的家,都是跟五星级酒店一样,非常整洁,干净。

数据仓库三千问,P8大佬武哥直播一一解答_数据仓库_02

 ▍问提梳理
  1. 数仓分层,每层分别建不同的数据库(每一层使用各种的库)还是各个层在一个数据库里使用前缀区分

  2. 做大宽表时,各个维度表字段是否都需要加在大宽表上

  3. 用户画像的行为画像一般怎么做比较好,使用工具定义规则生成还是手动sql统计指标做为行为标签

  4. 实时数仓技术架构实现

  5. 怎么核对指标的准确性,怎么做数据质量

  6. 客户端埋点体系的架构实现

  7. 服务端埋点一般有哪些

  8. nginx日志、客户端埋点日志、服务端埋点日志、mysql binlog日志,一般怎么搭配使用

  9. 数仓表数据一般保留多久,而每个日期分区全量表快照表一般保留多久

  10. 各个部门数据零散,使用数据遇到障碍

  11. 因为数据口径问题,定义问题,导致分析人员不断的在核对数据和查询数据,增加重复工作量,减少了分析效率

  12. 大家都着急做业务需求,忙着产出任务,导致任务越来越多,只上不下

  13. 数仓模型不合理性太多,数据重复计算较多

  14. 数据出不来,影响决策

  15. 单表单日全量快照千万,亿级别,在存储有限的前提下,如何优化明细层存储,离线抽数时间

  16. 源系统mysql随着业务增长压力大,分库分表,数仓如何抽数整合

  17. 非结构化数据xml json格式入仓进行清洗结构化数据,原非结构化数据动态变化不定期新增,数仓有啥好的方案

  18. 数据安全,敏感数据确认标准,常用处理方法,一般在数仓哪层操作,身份证号,手机号加密后,业务分析进行撞库匹配,如何加密

  19. 数据常见分级标准

  20. 数仓表常见存储格式,orc还是parquet更优,不同层次存储格式是否一致,ods是否可以用textfile

  21. 数仓构建表方式采用外部表还是内部表更优

  22. 数仓分区表常用分区字段,按日分区10位好还是8位日期

  23. 数仓常见表格式,增量表,全量表,快照表,大厂用拉链的表的多,有啥特定应用场景

  24. 标签体系,指标体系构建在数仓哪层

  25. 数据漂移常见处理方法

  26. 数据入仓,常做哪些校验

  27. 目标公司数仓离线是sqoop多,还是读取binlog落hdfs多

  28. 离线数仓跑批目前公司基于mr tez spark哪个更多。

  29. 说说维度建模?解释下什么是维度表和事实表?事实表有哪几类,分别统计什么数据?

  30. 说说外部表和内部表?区别是什么?你们公司怎么使用这两类表的?

  31. a,b两张表id关联,a表id字段int类型,b表string,如果id字段包含纯数字和字符串类型,在join的过程是怎么样的,会出现数据倾斜吗?如何产生的?

  32. a,b两张表都是dt分区,通过id做full join,b表有数据不在a表,这时插入动态分区为dt表的时候dt字段应该处理才能保证数据插入准确?

  33. 实际业务场景中数据倾斜如何处理的,请举例说明大表和大表数据倾斜,大表和小表数据倾斜的处理方式。

  34. Flink SQL中嵌套Json怎么处理

  35. Flink双流Join延迟怎么处理,比如激活流与激活信息流,激活信息流一般延后激活流1s

  36. Flink大数据量按天实时去重计算UV(每天百亿)优化思路,开放性

  37. 4.flink checkpoint的步骤

  38. Spark的join类型,以及区别

  39. Spark 2.x小文件怎么处理

     

 

 

公众号回复:“资料全集”,海量PPT等你来拿。

数据仓库三千问,P8大佬武哥直播一一解答_数据_03