数据仓库三千问，P8大佬武哥直播一一解答

关注快乐的哈士奇

数据仓库三千问，P8大佬武哥直播一一解答

原创

快乐的哈士奇 2021-08-09 15:52:25 ©著作权

文章标签 数据字段数据仓库 flink 离线 文章分类 音视频

©著作权归作者所有：来自51CTO博客作者快乐的哈士奇的原创作品，请联系作者获取转载授权，否则将追究法律责任

1. 做数据人，不做打工人怎么帮助数据仓库的人员快速成长？刚开始接触数据仓库，或者工作1-2年的新手，大家肯定会遇到各种困难和疑惑，这就需要一个有丰富经验的数仓工作者帮着大家解惑答疑，武哥这边每周都会开设免费公开课，课程主题群内粉丝自选，你们不会什么，咱们就讲什么。数据仓库三千问，P8大佬武哥直播一一解答_数据

数据仓库三千问，P8大佬武哥直播一一解答_数据

▍武哥介绍武哥工作8年，从月入2000，到年薪百万，从新程序员小白逐渐进入了中小管理者。武哥优点：

武哥酷爱健身，正是因为痴迷于健身和学习，武哥至今还是单身，希望通过公众号可以替武哥征婚，有感觉武哥不错的，可以帮着介绍一下身边优质的妹子，武哥要求不高，只要是活的就可以。
武哥声音好听
有责任心
爱交朋友，在群内非常喜欢交流，有人问他问题，看到必答。
喜欢健身的人，比较自律，我看武哥的家，都是跟五星级酒店一样，非常整洁，干净。

数据仓库三千问，P8大佬武哥直播一一解答_数据仓库_02

▍问提梳理

数仓分层，每层分别建不同的数据库（每一层使用各种的库）还是各个层在一个数据库里使用前缀区分
做大宽表时，各个维度表字段是否都需要加在大宽表上
用户画像的行为画像一般怎么做比较好，使用工具定义规则生成还是手动sql统计指标做为行为标签
实时数仓技术架构实现
怎么核对指标的准确性，怎么做数据质量
客户端埋点体系的架构实现
服务端埋点一般有哪些
nginx日志、客户端埋点日志、服务端埋点日志、mysql binlog日志，一般怎么搭配使用
数仓表数据一般保留多久，而每个日期分区全量表快照表一般保留多久
各个部门数据零散,使用数据遇到障碍
因为数据口径问题,定义问题，导致分析人员不断的在核对数据和查询数据，增加重复工作量，减少了分析效率
大家都着急做业务需求,忙着产出任务,导致任务越来越多,只上不下
数仓模型不合理性太多，数据重复计算较多
数据出不来，影响决策
单表单日全量快照千万，亿级别，在存储有限的前提下，如何优化明细层存储，离线抽数时间
源系统mysql随着业务增长压力大，分库分表，数仓如何抽数整合
非结构化数据xml json格式入仓进行清洗结构化数据，原非结构化数据动态变化不定期新增，数仓有啥好的方案
数据安全，敏感数据确认标准，常用处理方法，一般在数仓哪层操作，身份证号，手机号加密后，业务分析进行撞库匹配，如何加密
数据常见分级标准
数仓表常见存储格式，orc还是parquet更优，不同层次存储格式是否一致，ods是否可以用textfile
数仓构建表方式采用外部表还是内部表更优
数仓分区表常用分区字段，按日分区10位好还是8位日期
数仓常见表格式，增量表，全量表，快照表，大厂用拉链的表的多，有啥特定应用场景
标签体系，指标体系构建在数仓哪层
数据漂移常见处理方法
数据入仓，常做哪些校验
目标公司数仓离线是sqoop多，还是读取binlog落hdfs多
离线数仓跑批目前公司基于mr tez spark哪个更多。
说说维度建模？解释下什么是维度表和事实表？事实表有哪几类，分别统计什么数据？
说说外部表和内部表？区别是什么？你们公司怎么使用这两类表的？
a，b两张表id关联，a表id字段int类型，b表string，如果id字段包含纯数字和字符串类型，在join的过程是怎么样的，会出现数据倾斜吗？如何产生的？
a，b两张表都是dt分区，通过id做full join，b表有数据不在a表，这时插入动态分区为dt表的时候dt字段应该处理才能保证数据插入准确？
实际业务场景中数据倾斜如何处理的，请举例说明大表和大表数据倾斜，大表和小表数据倾斜的处理方式。
Flink SQL中嵌套Json怎么处理
Flink双流Join延迟怎么处理，比如激活流与激活信息流，激活信息流一般延后激活流1s
Flink大数据量按天实时去重计算UV(每天百亿)优化思路，开放性
4.flink checkpoint的步骤
Spark的join类型，以及区别
Spark 2.x小文件怎么处理

公众号回复：“资料全集”，海量PPT等你来拿。

数据仓库三千问，P8大佬武哥直播一一解答_数据_03

赞
收藏
评论
分享
举报

上一篇：巨头入局社区团购的影响和终局

下一篇：附PPT华为大数据分享专场|实时|离线|数仓

提问和评论都可以，用心的回复会被更多人看到评论

发布评论

相关文章

举报文章

请选择举报类型

内容侵权涉嫌营销内容抄袭违法信息其他

具体原因

包含不真实信息涉及个人隐私

原文链接（必填）

补充说明

0/200

上传截图

格式支持JPEG/PNG/JPG，图片不超过1.9M

已经收到您得举报信息，我们会尽快审核

鸿蒙开发者社区

WOT技术大会

公众号矩阵

移动端

短视频免费课程课程排行直播课软考学堂

全部课程厂商认证 IT技术 24年11月软考 PMP项目管理免费题库

在线学习

文章资源问答课堂专栏直播

51CTO

鸿蒙开发者社区

51CTO技术栈

51CTO官微

51CTO学堂

51CTO博客

CTO训练营

鸿蒙开发者社区订阅号

51CTO软考

51CTO学堂APP

51CTO学堂企业版APP

鸿蒙开发者社区视频号

51CTO软考题库

51CTO博客

首页
关注
排行榜
精品课程
免费资料
软考题库

科目全、试题精、讲解专业，扫码免费刷

搜索历史清空

热门搜索

查看【】的结果
写文章
创作中心
登录注册