最近也是有很多同学问我spark和flink到底谁好,应该怎么选择,这也是近年来被问的最多的问题,也是经常被拿来比较的,今天就简单的做一个对比,我没有要挑起spark和flink之间的战争,社区间取长补短也好,互相抄袭也罢,我尽量站在一个公平的角度对待他们.下面会从多个方面对两者进行分析(当然有不全面),希望对大家有所帮助.篇幅较长,望大家耐心阅读. Spark简介 Spark的历史比较悠久,已经
最近新搭建了spark2.3 on yarn的集群,遇到这么一个问题,刚开始没有仔细看,最后才发现是由于datanode节点的磁盘空间不足,造成的,查看了一下机器的磁盘使用,发现确实是没有空间了,已经使用了98%,清理了一下磁盘的空间,或者给磁盘扩容就可以解决这个问题,如下图所示. 箭头所指地方,有一个Unhealthy Nodes,这一块会有一个提示,点击进去就有详细的信息.当然我这个现在是改
最近也是有很多同学问我spark和flink到底谁好,应该
LocationStrategies新的Kafka使用者API将预先获取消息到缓冲区。因此,出于性能原因,Spark集成将缓存的消费者保留在执行程序上(而不是为每个批处理重新创建它们),并且更喜欢在具有适当使用者的主机位置上安排分区,这一点很重要。在大多数情况下,您应该使用LocationStrategies.PreferConsistent,如上所示。这将在可用执行程序之间均匀分配分区。...
直接看我的公众号吧不想在复制了:https://mp.weixin.qq.com/s/Rwz5uAI-TfnTBpppsMTfBg欢迎大家关注我的公众号:如果有写的不对的地方,欢迎大家指正,如果有什么疑问,可以加QQ群:340297350,更多的Flink和spark的干货可以加入下面的星球...
Copyright © 2005-2024 51CTO.COM 版权所有 京ICP证060544号