前言本文是关于 Spark3 优化性能与内存使用的最佳实践,翻译整理自Tuning - Spark 3.3.2 Documentation。由于spark内存计算的特性,很多因素都会影响Spark的表现:CPU、网络带宽或者内存。一般来说,数据可以全部装入内存,则带宽是瓶颈;有时你需要进行调优,主要是两个方面:数据序列化和内存使用。数据序列化在分布式应用中数据序列化扮演着至关重要的角色。序列化对象
Copyright © 2005-2024 51CTO.COM 版权所有 京ICP证060544号