Apache Spark在海致大数据平台中的优化实践
翟士丹 大数据技术与架构
本文来自由海致网络技术公司翟士丹分享。专注于大数据技术领域,Apache Spark Contributor,有丰富的Spark SQL引擎调优经验。 海致全称海致网络技术公司,成立于2013年7月。作为一家技术驱动的创业型公司,海致的创始班底拥有丰富的技术经验。核心团队成员来自百度、微软、IBM、EMC、硅谷等知名企业的资深互联网专家。
大数据数据平台的核心组成部分
- 多数据整合
- 自助式数据准备
- 可视化探索式分析
- 安全快捷的分发机制
- 覆盖全面的应用场景
产品架构如下:
平台的整体技术架构如下:
多数据整合,形成统一的数据口径: ![](https://s4.51cto.com/images/blog/202104/03/4e9a401dddc644452dd7429b7088ba26.png?x-oss-process=image/watermark,size_16,text_QDUxQ1RP5Y2a5a6i,color_FFFFFF,t_30,g_se,x_10,y_10,shadow_20,type_ZmFuZ3poZW5naGVpdGk=
灵活易用高性能的可视化探索式分析:
大数据平台的技术挑战与建设难点
数据同步:
OLAP任意多维分析引擎实现:
数据建模系统实现:
机器学习实现:
性能及稳定性优化: ![](https://s4.51cto.com/images/blog/202104/03/1969281e107708e14d8a39ddb9ded440.png?x-oss-process=image/watermark,size_16,text_QDUxQ1RP5Y2a5a6i,color_FFFFFF,t_30,g_se,x_10,y_10,shadow_20,type_ZmFuZ3poZW5naGVpdGk=