spark连接kafka jaas文件 sparkstreaming对接kafka

转载

mob6454cc75556b 2023-11-20 02:51:43

文章标签 spark连接kafka jaas文件大数据 git scala spark 文章分类 Spark 大数据

最近完成了Spark Streaming和Kafka的整合工作，耗时虽然不长，但是当中还是遇到了不少的坑，记录下来，大家方便绕行。

先说一下环境：

Spark 2.0.0 kafka_2.11-0.10.0.0

之前的项目当中，已经在pom当中添加了需要的Spark Streaming的依赖，这次只需要添加Spark Streaming Kafka的以来就行了，问题来了。首先是我之前添加的Spark Streaming的依赖：

<dependency>
       <groupId>org.apache.spark</groupId>
       <artifactId>spark-streaming_2.11</artifactId>
       <version>2.0.0</version>
     </dependency>

然后是找到的spark streaming对kafka的支持依赖：

<dependency>
     <groupId>org.apache.spark</groupId>
     <artifactId>spark-streaming-kafka_2.11</artifactId>
     <version>1.6.2</version>
 </dependency>

请注意2个version部分，好像差的有点多。不管了，照着例子写写看，果然报了各种class not found的错误。基本可以判断是版本差异造成的问题。

可是，在http://mvnrepository.com上找不到更高版本的依赖怎么办呢？

考虑了一下，只有一个办法了，下载spark源码，自行编译打包需要的jar包。

在github上找到spark项目，clone下来，懒病又犯了，也没仔细看当中的说明，直接就clean compile等等。结果又是各种报错。好吧，好好看看吧，github上给了个地址：http://spark.apache.org/docs/latest/building-spark.html，照着做就没问题了。

然后把项目当中pom里面对streaming kafka的依赖删掉，引入我们自己生成的jar包：

spark-streaming-kafka-0-10_2.11-2.1.0-SNAPSHOT.jar

然后贴上代码：

val conf = new SparkConf().setAppName("kafkastream").setMaster("spark://master:7077").
       set("spark.driver.host", "192.168.1.142").
       setJars(List("/src/git/msgstream/out/artifacts/msgstream_jar/msgstream.jar",
         "/src/git/msgstream/lib/kafka-clients-0.10.0.0.jar",
         "/src/git/msgstream/lib/kafka_2.11-0.10.0.0.jar",
         "/src/git/msgstream/lib/spark-streaming-kafka-0-10_2.11-2.1.0-SNAPSHOT.jar"))
     val ssc = new StreamingContext(conf, Seconds(2))    val topics = List("woozoom")
     val kafkaParams = Map(("bootstrap.servers", "master:9092,slave01:9092,slave02:9092"),
       ("group.id", "sparkstreaming"), ("key.deserializer", classOf[StringDeserializer]),
       ("value.deserializer", classOf[StringDeserializer]))
     val preferredHosts = LocationStrategies.PreferConsistent
     val offsets = Map(new TopicPartition("woozoom", 0) -> 2L)    val lines = KafkaUtils.createDirectStream[String, String](
       ssc,
       preferredHosts,
       ConsumerStrategies.Subscribe[String, String](topics, kafkaParams, offsets))    lines.foreachRDD(rdd => {
       rdd.foreach(x => {
         println(x)
       })
     })    ssc.start()
     ssc.awaitTermination()

上面标红的部分，是需要注意的，而这些本来我也是不会写的，后来去到spark源码找到test代码

/src/git/spark/external/kafka-0-10/src/test/scala/org/apache/spark/streaming/kafka010/DirectKafkaStreamSuite.scala

测试，通过！！！

总结：

1、spark项目很多时候，资源不是很充分，想找例子的话，2个途径，一个spark安装包当中的example但是这个很多时候，版本是比较老的，不是很理想。更好地是从spark源码当中找他的测试用例，这个基本上和你用的最新版本是完全匹配的。

2、编译过很多开源项目，一般大的项目都会有相应的build说明，照着那个做，会为你节省很多时间。

3、从最开始遇到的版本号的问题来看，很多时候我们遇到的问题并不一定是我们自己的问题，不迷信，大胆的相信自己的推测，非常有助于问题的解决。

本文章为转载内容，我们尊重原作者对文章享有的著作权。如有内容错误或侵权问题，欢迎原作者联系我们进行内容更正或删除文章。

上一篇：低代码平台设计架构低代码平台的显著特点

下一篇：微信开发者工具怎么将APPID改成测试号微信开放平台appid怎么生成

提问和评论都可以，用心的回复会被更多人看到评论

发布评论

相关文章

官方博客	全部文章	热门标签	班级博客
了解我们	网站地图	意见反馈

鸿蒙开发者社区	51CTO学堂
51CTO	软考资讯

spark连接kafka jaas文件 sparkstreaming对接kafka

spark连接kafka jaas文件 sparkstreaming对接kafka

51CTO博客