spark2.1 kafka_51CTO博客

spark2.1：flatMap的用法

代码示例：

Hadoop+Spark

调优

代码示例

scala

spring

转载

mob604756fc3573

2018-03-06 17:24:00

139阅读

2评论

spark2.1操作json（save/read）

建筑物配置信息：向hdfs写入json文件：从hdfs中读取json文件：

Spark

json

sql

spark

hdfs

转载

mb5ff80520dfa04

2018-03-14 00:41:00

102阅读

2评论

Spark2.1 DataFrameNaFunctions无fill方法解决

问题：为了将DataFrame中多列null值转换为0，采用na.fill方式，代码如下：_df.na.fill(0, Seq("col1", "col2", "col3"))在Spark2.1中运行该代码，发生报错Spark version 2.1.0 returns following error，报错信息如下

Spark

Dataframe

spark

apache

sql

原创

萧尐之空

2021-11-29 17:03:31

185阅读

spark2.1：rdd.combineByKeyWithClassTag的用法示例

测试spark版本：备注：spark1.5中没有提供rdd.combineByKeyWithClassTag算子，但提供的有rdd.combineByKey算子（spark2.1中依然保留）。使用示例：

Hadoop+Spark

spark

scala

java

调优

转载

mob604756fc3573

2018-03-04 22:27:00

143阅读

2评论

ubuntu安装spark2.1 hadoop2.7.3集群

0: 设置系统登录相关Master要执行cat $HOME/.ssh/id_rsa.pub >> $HOME/.ssh/authorized_keys如果用root用户sed -ri 's/^(PermitRootLogin ).*$/\1yes/' /etc/ssh/sshd_config编辑/etc/hosts1

spark

hadoopubuntum

原创

nonono11

2017-02-24 12:02:06

6590阅读

如何使用Cloudera Manager升级Spark2.1版本至Spark2.2

如何从Spark2.1升级到Spark2.2

spark

java

cloudera

原创

Hadoop实操

2022-09-21 22:35:32

396阅读

spark2.1：读取hive中存储的多元组（string,double）失败

这两天和同事一起在想着如何把一个表的记录减少，表记录包含了：objectid(主小区信息)，gridid(归属栅格)，height(高度)，rsrp(主小区rsrp)，n_objectid(邻区)，n_rsrp(邻小区rsrp) 记录中一个主小区对应有多个邻区信息，在分组合并记录时： 1）先按照ob

Hadoop+Spark

spark

scala

apache

sql

转载

mob6047570233c4

2018-03-24 14:45:00

170阅读

2评论

spark2.1：在RDD[unit].foreach(s=>{})内部调用sparkSession对象抛出NullPointException

问题代码：替换方案：注意：如果你的业务可以，也可以把flatMap替换为map，我这里边是要求返回结果为一维List集合。

Hadoop+Spark

调优

sql

spark

返回结果

转载

mob604756fc3573

2018-03-06 17:23:00

77阅读

2评论

如何在Kerberos环境下的CDH集群部署Spark2.1的Thrift及spark-sql客户端

本文主要介绍如何在非Kerberos的CDH中部署Spark2.1的Spark SQL。

spark

jar

hive

原创

Hadoop实操

2022-09-08 15:30:51

253阅读

如何在Kerberos环境下的CDH集群部署Spark2.1的Thrift及spark-sql客户端

Kerberos环境下的Spark2 SQL配置

spark

hive

jar

原创

Hadoop实操

2022-09-08 15:30:40

317阅读

spark2.1注册内部函数spark.udf.register("xx", xxx _)，运行时抛出异常：Task not serializable

函数代码：使用spark-submit提交函数时，抛出异常：解决方案：把当前MySparkJob集成Serializable

Hadoop+Spark

spark

apache

scala

java

转载

mob604756fc3573

2018-03-14 23:24:00

471阅读

2评论

spark2.1：使用df.select(when(a===b,1).otherwise(0))替换(case when a==b then 1 else 0 end)

最近工作中把一些sql.sh脚本执行hive的语句升级为spark2.1版本，其中遇到将case when 替换为scala操作df的方式实现的问题：代码数据：错误代码：错误的愿意就是这里的判定是否为空的地方。正确用法：疑问代码，如下代码在spark-shell中执行没有问题，但是使用sp

Hadoop+Spark

spark

scala

sql

apache

转载

mob604756fc3573

2018-03-07 21:40:00

144阅读

2评论

本系列内容：Kafka环境搭建与测试Python生产者/消费者测试Spark接收Kafka消息处理，然后回传到KafkaFlask引入消费者WebSocket实时显示版本：spark-2.4.3-bin-hadoop2.7.tgzkafka_2.11-2.1.0.tgz------------------第3小节：Spark接收Kafka消息处理，然后回传到Kafka---------------

kafka spark

kafka window 启动

spark

kafka

数据

转载

mob64ca1405a060

2023-08-22 20:24:39

75阅读

spark写入kafka认证 spark读kafka

sparkstreaming 消费kafka数据的 kafkautil 提供两种创建dstream的方法： 1 老版本的createStream方法 &

spark写入kafka认证

kafka

分布式

数据

偏移量

转载

数据探索者

2023-09-01 14:45:17

125阅读

spark kafka 如何合作 kafka hadoop spark

spark集群是依赖hadoop的。 hadoop集群搭建教程：Hadoop集群搭建教程（一）Hadoop集群搭建教程（二）Spark集群集群部署官网下载：spark官网这里要注意spark兼容的hadoop版本接着解压：tar -zxvf spark-2.4.3-bin-hadoop2.7.tgz先在你的master节点进行spark的安装和配置，然后直接拷贝到其他节点就可以了。cd /usr

spark kafka 如何合作

kafka

spark

hbase

zookeeper

转载

数码悟透

2024-04-20 10:49:47

18阅读

spark采集kafka spark streaming kafka direct

1：Direct方式特点：1）Direct的方式是会直接操作kafka底层的元数据信息，这样如果计算失败了，可以把数据重新读一下，重新处理。即数据一定会被处理。拉数据，是RDD在执行的时候直接去拉数据。2）由于直接操作的是kafka，kafka就相当于你底层的文件系统。这个时候能保证严格的事务一致性，即一定会被处理，而且只会被处理一次。而Receiver的方式则不能保证，因为Receiver和ZK

spark采集kafka

sparkStreaming

kafka

spark

数据

转载

网络智叶

2023-12-23 17:45:13

51阅读

Spark dataframe kafka 配置 kafka spark streaming

(1)、如何实现sparkStreaming读取kafka中的数据在kafka0.10版本之前有二种方式与sparkStreaming整合，一种是基于receiver，一种是direct,然后分别阐述这2种方式分别是什么 receiver：是采用了kafka高级api,利用receiver接收器来接受kafka topic中的数据，从kafka接收来的数据会存储在spark的executor中，

kafka

sspark streaming

数据

spark

转载

云端行者

2023-11-28 13:42:47

58阅读

spark到kafka认证 spark接kafka

对接kafka 0.8以及0.8以上的版本Spark要在2.3.0一下选择较好，因为这个Spark对接kafka用这个比较稳定，1.0还是测试导入依赖<dependency> <groupId>org.apache.spark</groupId> <!--0.8是kafka的版本，2.11是scala的版本

spark到kafka认证

kafka

spark

大数据

apache

转载

mob64ca14144dde

2023-09-05 10:51:57

152阅读

spark 配置kafka 认证 spark读kafka

Reciver方式 spark streaming通过Reciver方式获取kafka的数据实质是：在spark程序的Executor中开Reciver来接收来自kafka的数据，然后spark streaming会启动job去处理这些数据。因为这些数据是存在内存中的，所以这种方式会容易丢失数据，如果要启用高可靠机制，让数据零丢失，就必须启用Spark Streaming的预写日志机制（Writ

spark 配置kafka 认证

kafka

大数据

spark

数据

转载

mob64ca140b466e

2023-08-05 00:45:26

162阅读

Kafka与spark kafka与spark整合

Kafka 0.10 与 Spark Streaming 流集成在设计上与0.8 Direct Stream 方法类似。它提供了简单的并行性，Kafka分区和Spark分区之间的1:1对应，以及对偏移量和元数据的访问。然而，由于新的集成使用了新的 Kafka consumer API 而不是简单的API，所以在使用方面有显著的差异。这个版本的集成被标记为实验性的，因此API有可能发生变

Kafka与spark

kafka

spark

apache

转载

我是数据分析师

2023-11-29 12:44:59

50阅读

官方博客	全部文章	热门标签	班级博客
了解我们	网站地图	意见反馈

鸿蒙开发者社区	51CTO学堂
51CTO	软考资讯

51CTO博客

spark2.1 kafka

spark2.1：flatMap的用法

spark2.1操作json（save/read）

Spark2.1 DataFrameNaFunctions无fill方法解决

spark2.1：rdd.combineByKeyWithClassTag的用法示例

ubuntu安装spark2.1 hadoop2.7.3集群

如何使用Cloudera Manager升级Spark2.1版本至Spark2.2

spark2.1：读取hive中存储的多元组（string,double）失败

spark2.1：在RDD[unit].foreach(s=>{})内部调用sparkSession对象抛出NullPointException

如何在Kerberos环境下的CDH集群部署Spark2.1的Thrift及spark-sql客户端

如何在Kerberos环境下的CDH集群部署Spark2.1的Thrift及spark-sql客户端

spark2.1注册内部函数spark.udf.register("xx", xxx _)，运行时抛出异常：Task not serializable

spark2.1：使用df.select(when(a===b,1).otherwise(0))替换(case when a==b then 1 else 0 end)

kafka spark kafka spark 小文件

spark写入kafka认证 spark读kafka

spark kafka 如何合作 kafka hadoop spark

spark采集kafka spark streaming kafka direct

Spark dataframe kafka 配置 kafka spark streaming

spark到kafka认证 spark接kafka

spark 配置kafka 认证 spark读kafka

Kafka与spark kafka与spark整合

kafka spark

Kafka之——快速入门(基于Kafka 2.1.x版本)

spark stream整合kafka spark streaming kafka direct

spark 从kafka接入数据 spark连接kafka

spark消费kafka checkpoint spark streaming kafka direct

spark streaning 获取kafka数据 spark读取kafka

spark 传输kafka spark往kafka写数据

spark 消费kafka exactly spark-streaming-kafka

spark与kafka对应关系 kafka和spark