Logo

  • sirius_kb

    发布于:1 天前

    1

    spark通过combineByKey算子实现条件性聚合的方法
    实际开发过程中遇到了需要实现选择性聚合的场景,即对于某一个key对应的数据,满足条件的记录进行聚合,不满足条件的则不聚合。使用spark处理这种计算场景时,想到了使用combineByKey算子,先将输入数据中的value映射成含一个元素的ArrayBuffer(scala中相当于java中的ArrayList),然后在聚合时对满足聚合条件的记录聚合后覆盖这一个ArrayBuffer,不满足条件的
    阅读 78 评论 0 收藏 0
  • 风火数据

    发布于:7 天前

    0

    教你如何成为Spark大数据高手
    Spark框架是采用Scala语言编写的,精致而优雅。要想成为Spark高手,你就必须阅读Spark的源代码,就必须掌握Scala,;
    阅读 124 评论 0 收藏 0
  • flyfish225

    发布于:9 天前

    0

    CDH5.12.0 如何升级到Spark2.0 版本
    CDH5.12.0 升级SPARK2.0
    阅读 236 评论 0 收藏 0
  • 风火数据

    发布于:9 天前

    1

    Spark Streaming实时计算海量用户UV
    提出需求实时统计业务系统(web,APP之类)的访问人数,即所谓UV,或者DAU指标.这个需求怕是流计算最最最常见的需求了.计算UV的关键点就在于去重,即同一个人访问两次是只计一个UV的.在离线计算中统计UV比较容易想到的方法就是用group或distinct机制来去重.但是在实时计算场景,还用group就不太科学了,一个是全量数据的group是比较费时的,第二个是全量数据的group是很费内存和
    阅读 131 评论 1 收藏 0
  • sirius_kb

    发布于:13 天前

    2

    Spark向Elasticsearch批量导入数据,出现重复记录问题的定位
    看了下es-hadoop插件的源码:发现ES导入数据重试情况的发生,除了在es.batch.write.retry.policy参数默认开启且es-hadoop插件向ES集群发送不bulk写入请求接受到503响应码会重试3次室外。本身执行http请求时,也会存在重试(hadoop/rest/NetworkClient.java):publicResponseexecute(Requestreque
    阅读 116 评论 0 收藏 0
  • forestwater

    发布于:18 天前

    2

    利用KNIME建立Spark Machine learning模型 2:泰坦尼克幸存预测
    本文利用KNIME基于Spark决策树模型算法,通过对泰坦尼克的包含乘客及船员的特征属性的训练数据集进行训练,得出决策树幸存模型,并利用测试数据集对模型进行测试。
    阅读 1987 评论 0 收藏 1
  • forestwater

    发布于:18 天前

    1

    利用KNIME建立Spark Machine learning 模型 1:开发环境搭建
    本文介绍利用Knime建立Spark Machine learning 模型的第一步:开发环境搭建的具体步骤。
    阅读 487 评论 0 收藏 0
  • 哈斗篷

    发布于:19 天前

    1

    spark-使用总结-大数据基础入门
    这篇博客中对三种部署模式做了对比,请参考部署模式对比:总结如下:
    阅读 180 评论 0 收藏 0
  • flyfish225

    发布于:19 天前

    1

    Spark 的Core深入(二)
    Spark 的Core深入
    阅读 412 评论 0 收藏 0
  • ycwyong

    发布于:20 天前

    1

    Spark基础
    官方文档:spark.apache.org/docs/latest   Spark背景    MapReduce局限性:    1>) 繁杂            map/reduce (mapjoin没有reduce)            low_level            constained            需求 测试 每次改代码再测试    2>) 技术效率低  
    阅读 135 评论 0 收藏 0
写文章