1. 做数据人,不做打工人怎么帮助数据仓库的人员快速成长?刚开始接触数据仓库,或者工作1-2年的新手,大家肯定会遇到各种困难和疑惑,这就需要一个有丰富经验的数仓工作者帮着大家解惑答疑,武哥这边每周都会开设免费公开课,课程主题群内粉丝自选,你们不会什么,咱们就讲什么。▍武哥介绍武哥工作8年,从月入2000,到年薪百万,从新程序员小白逐渐进入了中小管理者。 武哥优点:
-
武哥酷爱健身,正是因为痴迷于健身和学习,武哥至今还是单身,希望通过公众号可以替武哥征婚,有感觉武哥不错的,可以帮着介绍一下身边优质的妹子,武哥要求不高,只要是活的就可以。
-
武哥声音好听
-
有责任心
-
爱交朋友,在群内非常喜欢交流,有人问他问题,看到必答。
-
喜欢健身的人,比较自律,我看武哥的家,都是跟五星级酒店一样,非常整洁,干净。
-
数仓分层,每层分别建不同的数据库(每一层使用各种的库)还是各个层在一个数据库里使用前缀区分
-
做大宽表时,各个维度表字段是否都需要加在大宽表上
-
用户画像的行为画像一般怎么做比较好,使用工具定义规则生成还是手动sql统计指标做为行为标签
-
实时数仓技术架构实现
-
怎么核对指标的准确性,怎么做数据质量
-
客户端埋点体系的架构实现
-
服务端埋点一般有哪些
-
nginx日志、客户端埋点日志、服务端埋点日志、mysql binlog日志,一般怎么搭配使用
-
数仓表数据一般保留多久,而每个日期分区全量表快照表一般保留多久
-
各个部门数据零散,使用数据遇到障碍
-
因为数据口径问题,定义问题,导致分析人员不断的在核对数据和查询数据,增加重复工作量,减少了分析效率
-
大家都着急做业务需求,忙着产出任务,导致任务越来越多,只上不下
-
数仓模型不合理性太多,数据重复计算较多
-
数据出不来,影响决策
-
单表单日全量快照千万,亿级别,在存储有限的前提下,如何优化明细层存储,离线抽数时间
-
源系统mysql随着业务增长压力大,分库分表,数仓如何抽数整合
-
非结构化数据xml json格式入仓进行清洗结构化数据,原非结构化数据动态变化不定期新增,数仓有啥好的方案
-
数据安全,敏感数据确认标准,常用处理方法,一般在数仓哪层操作,身份证号,手机号加密后,业务分析进行撞库匹配,如何加密
-
数据常见分级标准
-
数仓表常见存储格式,orc还是parquet更优,不同层次存储格式是否一致,ods是否可以用textfile
-
数仓构建表方式采用外部表还是内部表更优
-
数仓分区表常用分区字段,按日分区10位好还是8位日期
-
数仓常见表格式,增量表,全量表,快照表,大厂用拉链的表的多,有啥特定应用场景
-
标签体系,指标体系构建在数仓哪层
-
数据漂移常见处理方法
-
数据入仓,常做哪些校验
-
目标公司数仓离线是sqoop多,还是读取binlog落hdfs多
-
离线数仓跑批目前公司基于mr tez spark哪个更多。
-
说说维度建模?解释下什么是维度表和事实表?事实表有哪几类,分别统计什么数据?
-
说说外部表和内部表?区别是什么?你们公司怎么使用这两类表的?
-
a,b两张表id关联,a表id字段int类型,b表string,如果id字段包含纯数字和字符串类型,在join的过程是怎么样的,会出现数据倾斜吗?如何产生的?
-
a,b两张表都是dt分区,通过id做full join,b表有数据不在a表,这时插入动态分区为dt表的时候dt字段应该处理才能保证数据插入准确?
-
实际业务场景中数据倾斜如何处理的,请举例说明大表和大表数据倾斜,大表和小表数据倾斜的处理方式。
-
Flink SQL中嵌套Json怎么处理
-
Flink双流Join延迟怎么处理,比如激活流与激活信息流,激活信息流一般延后激活流1s
-
Flink大数据量按天实时去重计算UV(每天百亿)优化思路,开放性
-
4.flink checkpoint的步骤
-
Spark的join类型,以及区别
-
Spark 2.x小文件怎么处理
公众号回复:“资料全集”,海量PPT等你来拿。