导语
“大数据” 三个字其实是个marketing语言,从技术角度看,包含范围很广,计算、存储、网络都涉及,知识点广、学习难度高。
本期会给大家奉献上精彩的:flink、Hbase、MongoDB、推荐系统、实时平台、谷歌分析、Spark、。全是干货,希望大家喜欢!!!
1HBase
本文所提出的两个HBase快照恢复的问题,都属于C6的bug。目前,在进行HBase快照操作的时候,请避开文中提出的引起异常的方式
https://mp.weixin.qq.com/s/IwPR6n1E5nyIWVajuaSbBA
2推荐系统
如何评价一个基于内容的推荐系统的好坏呢?我觉得是在于推荐系统能否逐渐挖掘用户的内心深处,让用户找到自己都觉得美妙的内心另一面。
https://mp.weixin.qq.com/s/c6aZYgx7gKuZk3EMs6PNRQ
3HDFS
本文以唯品会HDFS实际应用场景和问题导向触发,介绍了优化方案的局限性,分享了这些局限性的解决和实施经验。
https://mp.weixin.qq.com/s/wimJn0e4eW9sJ1K_h0IrRg
4Flink
本文就介绍一种实时风控解决方案。
https://mp.weixin.qq.com/s/RnUnMtlm4M6nPvjvmo8HWw
5MongoDB
本文讲述了基于MongoDB Spark Connector的Spark连接MongoDB操作案例,并用python为例,进行MongoDB数据的操作;
http://www.mongoing.com/archives/28505
6Arm
在本周于圣何塞举行的 Arm TechCon 年度技术会议上,Arm 首席执行官 Simon Segars 宣布将自定义指令(Custom Instructions)添加到以 IoT 为重点的 Cortex-M 处理器系列中,并从 2020 年上半年的 Arm Cortex-M33 CPU 开始使用。这将使得 Arm 客户能够向基于 Cortex-M 的 IoT CPU 添加自定义指令,以针对特定市场量身定制芯片。
https://mp.weixin.qq.com/s/NYg16Wzkd3v0UFSFVfHBig
7实时平台
Apache Kafka 是一个可扩展,高性能,低延迟的平台,允许我们像消息系统一样读取和写入数据。我们可以很容易地在 Java 中使用 Kafka。
Spark Streaming 是 Apache Spark 的一部分,是一个可扩展、高吞吐、容错的实时流处理引擎。虽然是使用 Scala 开发的,但是支持 Java API。
Apache Cassandra 是分布式的 NoSQL 数据库。
在这篇文章中,我们将介绍如何通过这三个组件构建一个高扩展、容错的实时数据处理平台。
https://www.iteblog.com/archives/2602.html
8Spark
在Spark-Streaming中,对流的抽象是使用DStream来定义的,所以想要理解Spark-Streaming的流处理模型,理解DStream的内部实现以及其如何构建和运行是很有必要的。本文主要讲述了贝壳在流技术引擎上的应用
https://mp.weixin.qq.com/s/rkzIo8sweI2UOOnmOj6SQQ
9云
在飞速发展下,我们现在面临的端口是3.0向4.0时代的演进,它主要是从单IDC架构向多IDC架构的云化架构的演进,解决的是成本稳定的问题,它的体量非常大,线上需要很大规模的资源,如何做好这方面的协同,是我们研究的一个方向。
https://mp.weixin.qq.com/s/JjRHqSFWrUWHOuvcmXTqgA
10Google Analytics
Google Analytics 入门教程
https://mp.weixin.qq.com/s/V9LIf6Ehqs-Ys2SAowMLqA
11开心一刻
玩算法的码农,打拼靠蓝条,像是法师。数学就等于蓝条最大值,数学差,魔法值不高,很快就到瓶颈了。外语影响回蓝速度。经验和智力加急速和穿透的。不玩算法的码农,像是战士,打拼靠血条,体质加生命,精神加生命回复,经验和敏捷加急速和破甲
致谢:
周蓬勃、王在道、孙亚飞、冯艺帆、陈少军、邓开表、张少华、薛述强、刘彬、刘超、廖程鹏、董言、吕西金、朱洁、蓝随、黄文辉、郭飞