导语

“大数据” 三个字其实是个marketing语言,从技术角度看,包含范围很广,计算、存储、网络都涉及,知识点广、学习难度高。

    

本期会给大家奉献上精彩的:Flink、AI、MongoDB、架构、数据库、Beam。全是干货,希望大家喜欢!!!

 

 

1架构

京东到家订单订单查询服务0-1的演进历程

https://mp.weixin.qq.com/s/RjttRa1W8wl1S48zdQxTsw

 

本文取材于火币集团研发中心&GitChat技术沙龙,由火币集团高级技术总监秦金卫分享

https://mp.weixin.qq.com/s/b2iPdB_21mOksitpCO3e-g

 

2Al

XGBoost模型作为机器学习中的一大“杀器”,被广泛应用于数据科学竞赛和工业领域,XGBoost官方也提供了可运行于各种平台和环境的对应代码,如适用于Spark分布式训练的XGBoost on Spark。然而,在XGBoost on Spark的官方实现中,却存在一个因XGBoost缺失值和Spark稀疏表示机制而带来的不稳定问题。本文讲解XGBoost缺失值引发的问题及其深度分析;

https://mp.weixin.qq.com/s/hYuBHHfAGLO3Y0l5t6y94Q

 

3Beam

本文系统性的介绍了Beam的概念,优势,架构原理及应用实践,推荐一阅。

https://mp.weixin.qq.com/s/5tt-E-pi7dDPVA-HtMOjAA

 

4AL

机器学习发展过程中历经了很多个时期。其中从概率统计的统计机器为入口可以分为频率派和贝叶斯派。频率派发展为统计学习学习,贝叶斯派发展为概率图模型。

这篇文章把概率图模型中的各个模块进行了一个介绍。

https://www.jianshu.com/p/b7f10ad1141d

 

5数据库

9月最新数据库排名。

https://mp.weixin.qq.com/s/uAfdCOyw6nH0_hR63VEbhg

 

6MongoDB 

本文讲述了MongoDB 4.2的分布式事务、字段级加密、通配符索引和物化视图4个新特性。

http://www.mongoing.com/archives/28201

 

7知识图谱

很多公司和机构都在使用图数据,想在图上做机器学习但不知从哪里开始做,希望这篇文章给大家一点启发。

https://mp.weixin.qq.com/s/PkFscGq8tjzc3HQiF-SSsA

 

8OLAP

本文介绍了集存储计算于一体的分布式数据分析型数据库服务的小米OLAP。

https://mp.weixin.qq.com/s/-7eb3IIdj20atJUYihfMCQ

 

9Flink

本文将结合监控系统 Flink 的现状,具体讲述 Flink 在监控系统上的实践和应用,希望给同业人员一些借鉴和启发。

https://mp.weixin.qq.com/s/vWeuhJd5kWk8jwnGdCQEnw

 

10XSQL

XSQL是一款低门槛、更稳定、多数据源的分布式查询引擎。它允许你快速、近实时地查询大量数据。对于一些数据源(例如:Elasticsearch、Druid等),他可以大幅地降低学习曲线,并节省人力成本。除Hive外,每种数据源都支持下推到具体数据源的执行优化。

https://mp.weixin.qq.com/s/LpSAFut5yZLsERYOUyokgQ

 

11开心一刻

知道JAVA程序员和C程序员的差别吗?食堂里,吃完饭就走的是JAVA程序员,吃完饭还要自己 收拾的那就是是C程序员。至于为什么会这样、大家都明白(因为JAVA自带垃圾回收机制、、、C需要手动释放内存)←这就是原因

致谢:

周蓬勃、王在道、孙亚飞、冯艺帆、陈少军、邓开表、张少华、薛述强、刘彬、刘超、廖程鹏、董言、吕西金、朱洁、蓝随、黄文辉、郭飞