导语 “大数据” 三个字其实是个marketing语言,从技术角度看,包含范围很广,计算、存储、网络都涉及,知识点广、学习难度高。

本期会给大家奉献上精彩的:Spark、数据中台、flink、Devops、ClickHouse、MangoDB、HDFS、paxos、。全是干货,希望大家喜欢!!!

1Spark

本文讨论了京东Spark计算引擎研发团队关于自主研发并落地Remote Shuffle Service,助力京东大促场景的探索和实践。

https://mp.weixin.qq.com/s/yELhZ1X-VG5YxR6ya32rAQ

2数据中台

本文整理自快手数据平台部,数据服务化中台负责人倪顺发表的《快手数据中台建设-大数据服务化之路》的演讲。

https://mp.weixin.qq.com/s/Nn1jFNWw1lviqYPYPnISAw

3DevOps

Devops作为技术中台的重要组成部分之一,其下“自动化测试”功能也是不可或缺的一环,如何结合DevOps自身提供的自动化测试功能,做好DevOps的接口自动化呢?首先要先了解DevOps为自动化测试提供了哪些功能,如何使用该功能进行自动化测试,以及如何设计测试框架等等,本文将会为大家一一解答。

https://mp.weixin.qq.com/s/OYwL2eSjdTaIa0Io8y-C_w

4ClickHouse

字节跳动ClickHouse在用户增长分析场景的应用

https://mp.weixin.qq.com/s/ac8LgqJ-e09VLelj9Y7x9g

5HDFS

HDFS中默认的3副本方案在存储空间和其他资源(例如网络带宽)上有200%的开销。对于冷数据,使用纠删码(ErasureCoding,EC)存储代替副本存储是一种非常不错的替代方案。EC存储在保证容错能力不低于副本存储的同时,有着更低的存储空间消耗。HDFS EC在滴滴内部稳定落地已超过半年,为公司节约了大量的存储成本。本文将介绍EC在滴滴内部的实践情况。

https://mp.weixin.qq.com/s/QenLtV2vnhGDF0Z0nrb6-A

6MongoDB

《玩转MongoDB从入门到实战》电子书,以帮助更多开发者快速掌握MongoDB核心架构及特色功能。

https://mp.weixin.qq.com/s/3d0A8-fabZbP25_Gde-d3Q

本文讲述了MongoDB内核如何进行Command命令处理,解析Mongostat工具监控统计信息,将Command命令处理模块分为mongos操作命令、mongod操作命令与MongoDB集群内部命令分别进行源码分析以及MongoDB报文源码解析;

https://mongoing.com/archives/77592

** 7Spark**

本文就Spark skew join进行介绍,包括skew join的原理与实现,并重点介绍在skew join之上所做的优化。

https://mp.weixin.qq.com/s/3I1nOUbkZShEugpDooJXjw

8paxos

既然Talk is cheap, 那么就Show me the code, 这次我们把教程中描述的内容直接用代码实现出来, 希望能覆盖到教程中的涉及的每个细节. 帮助大家理解paxos的运行机制. 这是一个基于paxos, 200行代码的kv存储系统的简单实现, 作为 [paxos的直观解释] 这篇教程中的代码示例部分. Paxos的原理本文不再介绍了, 本文提到的数据结构使用[protobuf]定义, 网络部分使用[grpc]定义. 另外200行go代码实现paxos存储.

文中的代码可能做了简化, 完整代码实现在 [paxoskv] 这个项目中(naive分支).

https://mp.weixin.qq.com/s/jodA0Y9COjOcr67sRZHzzQ

9Flink

本文从 Flink 任务内存以及消息能力处理方面,对 Flink 任务资源优化进行探索与实践。

https://mp.weixin.qq.com/s/84-SEvqSq9uGYYSd_6jlKg

11开心一刻

某晚上同学生日去唱KTV,他公司的一个美女工程师非要和我拼酒。她说如果她输了可以答应我一件事,而我输了同样也要答应她一件事。

结果我不出意外地赢了,于是迫不及待地带着她回家......嘿嘿嘿......

到家后,我看着她水汪汪的大眼睛,十分深情地说:”麻烦你帮我coding,顺便帮我debug。“

之后我一个人躲在被窝里暗暗地称赞自己真的太特么机智了!