大数据和云计算技术周报（第125期)

原创

大数据和云计算技术 2021-07-27 15:08:06 ©著作权

©著作权归作者所有：来自51CTO博客作者大数据和云计算技术的原创作品，请联系作者获取转载授权，否则将追究法律责任

导语

“大数据” 三个字其实是个marketing语言，从技术角度看，包含范围很广，计算、存储、网络都涉及，知识点广、学习难度高。

本期会给大家奉献上精彩的：flink、Hbase、MongoDB、推荐系统、实时平台、谷歌分析、Spark、。全是干货，希望大家喜欢！！！

1HBase

本文所提出的两个HBase快照恢复的问题，都属于C6的bug。目前，在进行HBase快照操作的时候，请避开文中提出的引起异常的方式

https://mp.weixin.qq.com/s/IwPR6n1E5nyIWVajuaSbBA

2推荐系统

如何评价一个基于内容的推荐系统的好坏呢？我觉得是在于推荐系统能否逐渐挖掘用户的内心深处，让用户找到自己都觉得美妙的内心另一面。

https://mp.weixin.qq.com/s/c6aZYgx7gKuZk3EMs6PNRQ

3HDFS

本文以唯品会HDFS实际应用场景和问题导向触发，介绍了优化方案的局限性，分享了这些局限性的解决和实施经验。

https://mp.weixin.qq.com/s/wimJn0e4eW9sJ1K_h0IrRg

4Flink

本文就介绍一种实时风控解决方案。

https://mp.weixin.qq.com/s/RnUnMtlm4M6nPvjvmo8HWw

5MongoDB

本文讲述了基于MongoDB Spark Connector的Spark连接MongoDB操作案例，并用python为例，进行MongoDB数据的操作；

http://www.mongoing.com/archives/28505

6Arm

在本周于圣何塞举行的 Arm TechCon 年度技术会议上，Arm 首席执行官 Simon Segars 宣布将自定义指令（Custom Instructions）添加到以 IoT 为重点的 Cortex-M 处理器系列中，并从 2020 年上半年的 Arm Cortex-M33 CPU 开始使用。这将使得 Arm 客户能够向基于 Cortex-M 的 IoT CPU 添加自定义指令，以针对特定市场量身定制芯片。

https://mp.weixin.qq.com/s/NYg16Wzkd3v0UFSFVfHBig

7实时平台

Apache Kafka 是一个可扩展，高性能，低延迟的平台，允许我们像消息系统一样读取和写入数据。我们可以很容易地在 Java 中使用 Kafka。

Spark Streaming 是 Apache Spark 的一部分，是一个可扩展、高吞吐、容错的实时流处理引擎。虽然是使用 Scala 开发的，但是支持 Java API。

Apache Cassandra 是分布式的 NoSQL 数据库。

在这篇文章中，我们将介绍如何通过这三个组件构建一个高扩展、容错的实时数据处理平台。

https://www.iteblog.com/archives/2602.html

8Spark

在Spark-Streaming中，对流的抽象是使用DStream来定义的，所以想要理解Spark-Streaming的流处理模型，理解DStream的内部实现以及其如何构建和运行是很有必要的。本文主要讲述了贝壳在流技术引擎上的应用

https://mp.weixin.qq.com/s/rkzIo8sweI2UOOnmOj6SQQ

9云

在飞速发展下，我们现在面临的端口是3.0向4.0时代的演进，它主要是从单IDC架构向多IDC架构的云化架构的演进，解决的是成本稳定的问题，它的体量非常大，线上需要很大规模的资源，如何做好这方面的协同，是我们研究的一个方向。