导语 “大数据” 三个字其实是个marketing语言,从技术角度看,包含范围很广,计算、存储、网络都涉及,知识点广、学习难度高。
本期会给大家奉献上精彩的:MongoDB、ES、数据湖、OLAP、AI、Dl、flink。全是干货,希望大家喜欢!!!
1MongoDB
本文讲述了MongoDB的WiredTiger存储引擎的Cache分配机制,Page的淘汰机制,以及相关参数的默认值和作用。
https://mp.weixin.qq.com/s/LmBIszNKS3jnYGTaDR1a5A
2数据湖
本文是网易在数据湖Iceberg的一些思考与实践。从网易在数据仓库建设中遇到的痛点出发,介绍对数据湖Iceberg的探索以及实践之路。。
https://mp.weixin.qq.com/s/X6uOWqKJEmqGCAOh4JnH6A
3ES
京东到家订单中心ES 集群目前大约有将近30亿文档数,数据大小约1.3TB,集群结构是8个主分片,每个主分片有两个副本,共24个分片。每个机器上分布1-2个分片,如果企业不差钱最好的状态就是每个分片独占一台机器。这些集群规模和架构设计不应该是固定的,每一个业务系统应该根据自身实际业务去规划设计。
https://mp.weixin.qq.com/s/BIm8IZlQY1rSdKjqxBD7tg
4实时平台
Apache Kafka 是一个可扩展,高性能,低延迟的平台,允许我们像消息系统一样读取和写入数据。我们可以很容易地在 Java 中使用 Kafka。
Spark Streaming 是 Apache Spark 的一部分,是一个可扩展、高吞吐、容错的实时流处理引擎。虽然是使用 Scala 开发的,但是支持 Java API。
Apache Cassandra 是分布式的 NoSQL 数据库。
在这篇文章中,我们将介绍如何通过这三个组件构建一个高扩展、容错的实时数据处理平台。
https://www.iteblog.com/archives/2602.html
5OLAP
OLAP系统广泛应用于BI、Reporting、Ad-hoc、ETL数仓分析等场景,本文主要从体系化的角度来分析OLAP系统的核心技术点,从业界已有的OLAP中萃取其共性,分为谈存储,谈计算,谈优化器,谈趋势4个章节。
https://mp.weixin.qq.com/s/EsKX2q6SXvWsd3o4ZnJTUg
6Flink
本文分享了美团点评数据系统关于Apache Flink的内容,包括:实时数仓建设目的;如何建立实时数仓;仓库质量保证。
https://mp.weixin.qq.com/s/e_a_XfMHmPdImu9Y-_UQ6w
7hadoop
Secondary NameNode的作用,是不是NameNode的备份?是不是为了防止NameNode的单点问题?
https://mp.weixin.qq.com/s/oF7tRJlHgbYHZ_modMbhiA
8AI
深入理解word2vec https://mp.weixin.qq.com/s/VNtjRAEBM_4hohDmggMVtA
** 9DL**
相比各种DNN模型炫酷的结构,有一个更加本质的问题得到的关注却一直比较少,那就是为什么DNN能够提供更好的泛化能力,在这篇文章中我们就来对这个问题一探究竟。
https://mp.weixin.qq.com/s/R_h8Nq0AJMDrsIf8nKlOiQ
11开心一刻
正在码代码ing,医院回来的同事一脸的苦逼样子,问他怎么了?他回答:得了类风湿性关节炎了,我怕会遗传给下一代啊。我一脸的问号:谁说类风湿性关节炎能遗传的?丫一脸诧异:类不是继承的吗