导语 “大数据” 三个字其实是个marketing语言,从技术角度看,包含范围很广,计算、存储、网络都涉及,知识点广、学习难度高。
本期会给大家奉献上精彩的:yarn、DB、知识图谱、MongoDB、spark、AI、Hbase。全是干货,希望大家喜欢!!!
1YARN
本文从利用率提升、多负载场景优化、稳定性提升、异地多活四个方面介绍了字节跳动在四年来对 Hadoop YARN 进行的一系列的优化,以及生产环境中的实践经验。
https://mp.weixin.qq.com/s/9A0z0S9IthG6j8pZe6gCnw
2DB
DB-Engines(https://db-engines.com/en/ranking)是一个较为权威的全球数据库排名网站。其根据受欢迎程度对数据库管理系统进行排名,排名每月更新一次
https://mp.weixin.qq.com/s/AvC-vIN4R2a7LVmSGl72AA
3知识图谱
社交媒体网络已经遍布全球,并且每天都在增长。对于一个社交网络,你知道一些人的兴趣,你想预测其他人的兴趣,这样我们就可以有针对性地进行营销活动。为此,我们可以使用叫标签传播的基于图的半监督机器学习技术。在本文中,将通过一些示例和示例代码解释标签传播过程。https://mp.weixin.qq.com/s/dX6CouK7LGNbXsRxRnS26w
4MongoDB
本文讲述了如何使用PMM监控MongoDB,比如副本集指标、实例指标、WiredTiger存储引擎指标监控等,并且列出了PMM监控MongoDB存在的缺陷。
https://mongoing.com/archives/72973
5HBase
本文致力于从架构原理、集群部署、性能优化与使用技巧等方面,阐述在如何基于HBase构建 容纳大规模数据、支撑高并发、毫秒响应、稳定高效的OLTP实时系统 。
https://zhuanlan.zhihu.com/p/72150364?utm_source=wechat_session&utm_medium=social&utm_oi=28777706946560&utm_content=sec&from=timeline&s_s_i=Qx8nmhvzcMYruGDwcPNrwkWWgpQjQuoxp1RGGALxMOQ%3D&s_r=1
6Spark
本文分享一次Spark数据质量相关的问题以及我们排查该问题的过程和解决方案。
https://mp.weixin.qq.com/s/zQRpvlhd3R036oi1h7TEaw
7云
本文将介绍在企业私有云建设过程中,可能遭到的信息安全威胁;并重点介绍如何通过纵深防御模型,分层次的精准部署安全策略,做到有的放矢,对私有云进行保护,提升云平台安全威胁防御能力;以及后期的安全运营管理,使信息安全防御措施渗透到系统的每个环节。
https://mp.weixin.qq.com/s/No1HKvGPGBMFQVKI5BZHnQ
85G
让很多人都头疼不已的5GNR帧结构,本文介绍了5G时隙和子载波的详细相关内容,图解搞定,一目了然。
https://mp.weixin.qq.com/s/676DFHXZEIM8ozkEOYekpw
9spark
在 Spark AI Summit 的第一天会议中,数砖重磅发布了 Delta Engine。这个引擎 100% 兼容 Apache Spark 的向量化查询引擎,并且利用了现代化的 CPU 架构,优化了 Spark 3.0 的查询优化器和缓存功能。这些特性显著提高了 Delta Lake 的查询性能。 https://mp.weixin.qq.com/s/1iXRBZGxQKoCNkQ0vW1gaw
** 10XGBoost**
我今天主要介绍机器学习集成学习方法中三巨头之一的XGBoost,这个算法在早些时候机器学习比赛内曾经大放异彩,是非常好用的一个机器学习集成算法。
https://mp.weixin.qq.com/s/AAKPSIHk1iUqCeUibrORqQ
11开心一刻
《桃花庵–程序员版》写字楼里写字间,写字间中程序员;程序人员写程序,又将程序换酒钱;酒醒只在屏前坐,酒醉还来屏下眠;酒醉酒醒日复日,屏前屏下年复年;但愿老死电脑间,不愿鞠躬老板前;奔驰宝马贵者趣,公交自行程序员;别人笑我太疯癫,我笑自己命太贱;但见满街漂亮妹,哪个归得程序员;