代码示例:
转载 2018-03-06 17:24:00
139阅读
2评论
建筑物配置信息: 向hdfs写入json文件: 从hdfs中读取json文件:
转载 2018-03-14 00:41:00
102阅读
2评论
问题:为了将DataFrame中多列null值转换为0,采用na.fill方式,代码如下:_df.na.fill(0, Seq("col1", "col2", "col3"))在Spark2.1中运行该代码,发生报错Spark version 2.1.0 returns following error,报错信息如下
原创 2021-11-29 17:03:31
185阅读
测试spark版本: 备注:spark1.5中没有提供rdd.combineByKeyWithClassTag算子,但提供的有rdd.combineByKey算子(spark2.1中依然保留)。 使用示例:
转载 2018-03-04 22:27:00
143阅读
2评论
0: 设置系统登录相关Master要执行cat $HOME/.ssh/id_rsa.pub >> $HOME/.ssh/authorized_keys如果用root用户sed -ri 's/^(PermitRootLogin ).*$/\1yes/' /etc/ssh/sshd_config编辑/etc/hosts1
原创 2017-02-24 12:02:06
6590阅读
如何从Spark2.1升级到Spark2.2
原创 2022-09-21 22:35:32
396阅读
这两天和同事一起在想着如何把一个表的记录减少,表记录包含了:objectid(主小区信息),gridid(归属栅格),height(高度),rsrp(主小区rsrp),n_objectid(邻区),n_rsrp(邻小区rsrp) 记录中一个主小区对应有多个邻区信息,在分组合并记录时: 1)先按照ob
转载 2018-03-24 14:45:00
170阅读
2评论
问题代码: 替换方案: 注意:如果你的业务可以,也可以把flatMap替换为map,我这里边是要求返回结果为一维List集合。
转载 2018-03-06 17:23:00
77阅读
2评论
本文主要介绍如何在非Kerberos的CDH中部署Spark2.1Spark SQL。
原创 2022-09-08 15:30:51
253阅读
Kerberos环境下的Spark2 SQL配置
原创 2022-09-08 15:30:40
317阅读
函数代码: 使用spark-submit提交函数时,抛出异常: 解决方案: 把当前MySparkJob集成Serializable
转载 2018-03-14 23:24:00
471阅读
2评论
最近工作中把一些sql.sh脚本执行hive的语句升级为spark2.1版本,其中遇到将case when 替换为scala操作df的方式实现的问题: 代码数据: 错误代码: 错误的愿意就是这里的判定是否为空的地方。 正确用法: 疑问代码,如下代码在spark-shell中执行没有问题,但是使用sp
转载 2018-03-07 21:40:00
144阅读
2评论
本系列内容:Kafka环境搭建与测试Python生产者/消费者测试Spark接收Kafka消息处理,然后回传到KafkaFlask引入消费者WebSocket实时显示版本:spark-2.4.3-bin-hadoop2.7.tgzkafka_2.11-2.1.0.tgz------------------第3小节:Spark接收Kafka消息处理,然后回传到Kafka---------------
转载 2023-08-22 20:24:39
75阅读
sparkstreaming 消费kafka数据的 kafkautil 提供两种创建dstream的方法:                1 老版本的createStream方法     &
spark集群是依赖hadoop的。 hadoop集群搭建教程:Hadoop集群搭建教程(一)Hadoop集群搭建教程(二)Spark集群集群部署官网下载:spark官网这里要注意spark兼容的hadoop版本 接着解压:tar -zxvf spark-2.4.3-bin-hadoop2.7.tgz先在你的master节点进行spark的安装和配置,然后直接拷贝到其他节点就可以了。cd /usr
转载 2024-04-20 10:49:47
18阅读
1:Direct方式特点:1)Direct的方式是会直接操作kafka底层的元数据信息,这样如果计算失败了,可以把数据重新读一下,重新处理。即数据一定会被处理。拉数据,是RDD在执行的时候直接去拉数据。2)由于直接操作的是kafkakafka就相当于你底层的文件系统。这个时候能保证严格的事务一致性,即一定会被处理,而且只会被处理一次。而Receiver的方式则不能保证,因为Receiver和ZK
转载 2023-12-23 17:45:13
51阅读
(1)、如何实现sparkStreaming读取kafka中的数据 在kafka0.10版本之前有二种方式与sparkStreaming整合,一种是基于receiver,一种是direct,然后分别阐述这2种方式分别是什么 receiver:是采用了kafka高级api,利用receiver接收器来接受kafka topic中的数据,从kafka接收来的数据会存储在spark的executor中,
转载 2023-11-28 13:42:47
58阅读
对接kafka 0.8以及0.8以上的版本Spark要在2.3.0一下选择较好,因为这个Spark对接kafka用这个比较稳定,1.0还是测试 导入依赖<dependency> <groupId>org.apache.spark</groupId> <!--0.8是kafka的版本,2.11是scala的版本
转载 2023-09-05 10:51:57
152阅读
Reciver方式 spark streaming通过Reciver方式获取kafka的数据实质是:在spark程序的Executor中开Reciver来接收来自kafka的数据,然后spark streaming会启动job去处理这些数据。 因为这些数据是存在内存中的,所以这种方式会容易丢失数据,如果要启用高可靠机制,让数据零丢失,就必须启用Spark Streaming的预写日志机制(Writ
Kafka 0.10 与 Spark Streaming 流集成在设计上与0.8 Direct Stream 方法类似。它提供了简单的并行性,Kafka分区和Spark分区之间的1:1对应,以及对偏移量和元数据的访问。然而,由于新的集成使用了新的  Kafka consumer API 而不是简单的API,所以在使用方面有显著的差异。这个版本的集成被标记为实验性的,因此API有可能发生变
转载 2023-11-29 12:44:59
50阅读
  • 1
  • 2
  • 3
  • 4
  • 5