导语
“大数据” 三个字其实是个marketing语言,从技术角度看,包含范围很广,计算、存储、网络都涉及,知识点广、学习难度高。
本期会给大家奉献上精彩的:推荐系统、AI、Hbase、Elasticsearch、MongoDB、spark、nginx。全是干货,希望大家喜欢!!!
#大数据和云计算技术社区#希望通过坚持定期分享能帮助同学在大数据学习道路上尽一份微博之力。相信长期坚持认真阅读周报的同学,在技术的道路上一定会日益精进!感谢编辑们的长期坚持!也请同学们继续打赏,支持社区,支持编辑们持续奉献高质量知识!
#大数据和云计算技术社区#长期招募有兴趣参与社区编辑和运营的同学,欢迎扫描文末二维码联系(参与社区工作,收获知识和进步,还有红包哦)。
特别提醒,文末有惊喜!
以下是正文,限于众编辑水平有限,不保证大家都喜欢。(如果链接不能点开 请用二维码 谢谢)
1ES
修改ES IK插件源码,配合MySQL实现词库热更新。
https://www.jianshu.com/p/38733c810855
2列式存储
本文的目的是要告诉你Column-Store在存储格式优势只是一方面,如果没有查询引擎上其它几个优化措施的配合,性能也不会太好的,这篇论文认为Column-Store在查询引擎层几种大的优化手段
https://mp.weixin.qq.com/s/800RieJs06kpc9l-_b9LvQ
3DL
NeuSomatic 是第一种使用深度学习进行体细胞突变的工具,其表现显著优于之前的方法。使用 NeuSomatic,可以提高准确检查出靶点变异的几率,避免漏检,从而更高效的指导他人精准用药。达到之前方法相同的准确度,需要的测序数据也会有显著的降低,从而可以降低检测的成本。
https://mp.weixin.qq.com/s/Gfg59UrtsU7eEDOiwz4Ycw
4Spark
Delta Lake在大数据架构中是一个存储层,为 Apache Spark 和大数据 workloads 提供 ACID 事务能力,能够为构建在 HDFS 和云存储上的数据湖(data lakes)带来可靠性。
https://mp.weixin.qq.com/s/xuCuuRPeZN708oLhxnZqew
5nginx
nginx了解下
https://mp.weixin.qq.com/s/i06e4Zq7IwpHnZX0taKX7w
6Hbase
本文详细阐述了HRegion上MemStore的flsuh流程,作者由浅入深,从源码分析角度详细叙述了flush的原理及内部实现。
7推荐系统
本文中,微软亚洲研究院的研究员王希廷和谢幸将为大家详解可解释推荐系统的分类、推荐解释生成方法以及面临的机遇和挑战。
https://mp.weixin.qq.com/s/QUaEgli6zeBjGxkMN3_QcQ
8AI
GBDT 的全称是 Gradient Boosting Decision Tree,梯度提升树,在传统机器学习算法中,GBDT算的上TOP3的算法。想要理解GBDT的真正意义,那就必须理解GBDT中的Gradient Boosting 和Decision Tree分别是什么?本文讲述了GBDT算法原理以及实例理解。
https://mp.weixin.qq.com/s/8_1hGArngh5rAR87IR5Xrw
9AI
1996年,John Platt发布了一个称为SMO的强大算法,用于训练SVM分类器。其基本思路就是一次迭代只优化两个变量而固定剩余的变量。直观地讲就是将一个大的优化问题分解为若干个小的优化问题,这些小的优化问题往往是易于求解的。要想搞清楚SMO算法首先要简要介绍一下SVM。
https://www.jianshu.com/p/eef51f939ace
10推荐系统
推荐系统是驱动内容分发的引擎,而个性化则是推荐系统的核心思想。分类模型和排序模型是业界常用的两种个性化建模方式。本文探讨两种方法的异同点
https://mp.weixin.qq.com/s/nQmMvEPfeqnqQCDpPEctpw
11开心一刻
什么宿舍名字能镇住对门的金銮殿?
售票处。
致谢:
周蓬勃、王在道、孙亚飞、冯艺帆、陈少军、邓开表、张少华、薛述强、刘彬、刘超、廖程鹏、董言、吕西金、朱洁、蓝随、黄文辉、郭飞