比如很多企业看到商业智能BI取数难、数据不准、业务规则计算不清楚、数据质量差,
现在我们已
从今天开始我们进入数据仓库的查询引擎篇了,前面我们已经写了大量的文章介绍Hive,具体
Spark运行架构包括集群资源管理器(Cluster Manager)、运行作业任务的工作节点(Worker Nod
时代的变迁,生死的轮回,历史长河滔滔,没有什么是永恒的,只有变化才是不变的
简单点儿,直接ODS+DM就可以了,将所有数据同步过来,然后直接开发些应用层的报表,这是最简单的了;当DM层的内容多了以后,想要重用,就会再拆分一个公共层出来,变成3层架构,这个过程有点类似代码重构,就是在实践中不断的进行抽象、总结
sqoop1优点架构部署简单 ,sqoop1的缺点命令行方式容易出错,格式紧耦合,无法支持所有数据类型,安全机制不够完善
这一节主要部署了DataX—Web ,DataX—Web 主要解决了DataX的任务管理、运维
maxwell 发送数据到Kafka,maxwell 初始化,maxwell replication_host
今天主要介绍了Maxwell 的安装部署以及简单的使用,关于Maxwell的生产级使用我们在下一篇单独讲,需要重点注意的是关注Maxwell的版本注意Maxwell和canal 的技术选型。
这一节我们主要介绍了DataX 的使用,使用的时候我们主要是需要配置一个包含reader 的 writer 的json 文件,总体来说使用还是比较简单的,但是配置还是有点繁琐的。
DataX完成单个数据同步的作业,我们称之为Job,DataX接受到一个Job之后,将启动一个进程来完成整个作业同步过程。DataX J
Sqoop 作为一个数据同步工具,主要用于关系型数据库和Hadoop的数据相互同步。table 模式query 模式job 主要解决了增量同步的元数据(last-value)维护问题,当然本身也可以用来做非增量的同步,ETL 中更常用的增量模式是通过query 来完成的,这是因为query 模式更加灵活。
Clickhouse 的集成引擎其实方便了我们在Clickhouse中操作其它数据,但是本质上只是一个代理或者是分发工具而
今天主要介绍了ClickHouse的Mac部署,不过我们进一步熟悉了ClickHouse 的数据目录相关的东西,以及ClickHouse部署相关的东西。
ClickHouse 可以用于典型的OLAP 场景ClickHouse开源的出现让许多想做大数据并且想做
这一节我们主要完成了数据准备阶段的工作,也就是clickhouse的数据入库
今天主要介绍了一下clickhouse 的docker 部署,不过建议真实环境下还是不要用docker 部署。
执行brew -v 查看会有两个提示,提示用户设置。执行成功后我们再次执行我们的安装命令。如果遇到上面的错误则根据提示执行。
日志系列引擎一般用的不多,使用场景主要是中间表数据日志引擎是否支持并发数据文件是否按列划分文件是否有MarkLog是是是TinyLog否是否StripeLog是否是。
ClickHouse提供了丰富多样的表引擎,应对不同的业务需求。本文概览了ClickHouse的表引擎,同时对于MergeTree系列表这些除了特定列Sign有1和-1。
主要介绍了Clickhouse的 数据库引擎Atomic 是默认的数据库引擎其他的引擎我们可以根据具体的业务场景来合理使用。
这一节我们总结了一些表设计相关的最佳实践,当然我们针对具体的业务场景的时候也可以有其他的一些建表实践,但我们压缩分区表分桶表。...
没有太多逻辑,也可能有很多错误,不解释指正,有缘人读!最后一句也是最重要的
数据治理的本质与实践近三年,随着阿里数据中台战略的提出,以及各种数据
用户最大连续登陆说到最大连续登陆我们觉得可能有点奇怪,这名字怎么那么别扭,但是说到连续登陆就不那么别扭了,因为连续登陆其实是可以反应我们的用户粘性的,例如一个月中用户的连续登陆时间是30天,说明了用户每天都登陆的
今天我们看一个比较常见的计算场景,行列互换,又时候有称之为行列互转**行专列*
lag和lead 主要用来计算当前行的前后N 行的这种场景,一般情
MapReduce 序列化序列化序列化就是把内存中的对象转换成字节序列,以便于存储到磁盘(持久化)和网络传输反序列化就是将接收到的字节序列或磁盘的持久化数据,转换成内存中的对象一般来说,“活的”对象只生存在内存里,关机断电就没有了;而且“活的”对象只能由本地的进程使用,不能被发送到网络上的另外一台计算机;然而序列化可以存
垃圾回收算法引用计数器法(Reference Counting)可达性分析标记清除算法(Mark-Sweep)这个算法的原理很简单,但是它却是其他算法的基础,后续的其他算法否是在这个算法的基础上,针对它的不足,进行改造。标记阶段每一个可以从根对象访问到的对象都会被添加一个标识,于是这个对象就被标识为可到达对象
Copyright © 2005-2023 51CTO.COM 版权所有 京ICP证060544号