CDH集成spark后没有sparksql spring集成spark

转载

mob64ca13f3c9f0 2023-10-09 16:40:53

文章标签 大数据 spark Hbase hbase kafka 文章分类 Spark 大数据

前言

一、环境设置

1. pom文件引入依赖库

2. eclipse配置spark、hbase访问地址

二、Spark Streaming读取kafka中数据

三、Spark Streaming写Hbase

总结

前言

应用场景：日志数据使用flume收集后发送给Kafka，需要将这些流式日志数据实时写入到Hbase中，使用Spark Streaming进行流式数据处理达到近似实时的效果。

一、环境设置

1. pom文件引入依赖库

我使用的spark版本2.X，hbase版本1.3，pom文件添加如下依赖

<!-- spark -->
<dependency>
	<groupId>org.apache.spark</groupId>
	<artifactId>spark-core_2.11</artifactId>
	<version>2.2.0</version>
	<scope>provided</scope>
</dependency>
<!-- spark-streaming -->
<dependency>
	<groupId>org.apache.spark</groupId>
	<artifactId>spark-streaming_2.11</artifactId>
	<version>2.2.0</version>
	<scope>provided</scope>
</dependency>
<!-- spark-streaming-kafka-0-10 -->
<dependency>
	<groupId>org.apache.spark</groupId>
	<artifactId>spark-streaming-kafka-0-10_2.11</artifactId>
	<version>2.2.0</version>
</dependency>
<!-- hbase -->
<dependency>
	<groupId>org.apache.hbase</groupId>
	<artifactId>hbase-client</artifactId>
	<version>1.3.1</version>
</dependency>
<dependency>
	<groupId>org.apache.hbase</groupId>
	<artifactId>hbase-server</artifactId>
	<version>1.3.1</version>
</dependency>

这里<version>*</version>里的版本号指的是使用的spark、hbase的版本，而不是依赖库的版本。

2. eclipse配置spark、hbase访问地址

eclipse工程目录如下图：

CDH集成spark后没有sparksql spring集成spark_大数据

在src目录同层建立一个普通的文件夹，如上图的dataCenterAnalysisConf，用于放置各种配置文件。将集群上hdfs-site.xml、hbase-site.xml、core-site.xml等配置文件复制出来，放到该文件夹，然后将该文件夹添加到项目的构建路径中，这样在代码中就不需要写hdfs、hbase、hive等的访问地址了，程序在eclipse里运行时会自动找到这些配置文件并获取访问地址（记得修改本机hosts文件）。当打jar包时，由于该文件夹不在src下面，所以不会打进jar包，将jar提交到集群运行时，程序会在集群安装的hadoop、hbase环境中找这些配置文件。

二、Spark Streaming读取kafka中数据

public class KafkaReceiver {
	public static void main(String[] args) {
		// 获取配置文件路径.在eclipse里运行时user.dir返回src根目录位置,当以jar运行时user.dir返回jar所在的位置,配置文件放到jar同层
		String jarPath = System.getProperty("user.dir");
		Properties config = FileUtils.loadOutsideConfig(jarPath + "/dataCenterAnalysisConf/config.properties");

		// 切分窗口,单位为秒
        //int threshold = Integer.valueOf(config.getProperty("adjoint.time"));
        //int coNumber = Integer.valueOf(config.getProperty("adjoint.coNumber"));

		// 构建SparkStreaming上下文
		SparkConf conf = new SparkConf().setAppName("ReadKafka")
				.setMaster("local");//提交到集群时记得注释掉

		JavaStreamingContext jsc = new JavaStreamingContext(conf, Durations.seconds(5));

//		jsc.checkpoint("hdfs://hadoop02:9000/ck-2018-24-004");

		// 构建kafka参数map
		Map<String, Object> kafkaParams = new HashMap<>();
        //网上有一种参数叫metadata.broker.list,这是旧参数已被淘汰，改为bootstrap.servers
		kafkaParams.put("bootstrap.servers", config.getProperty("kafka.servers"));
		kafkaParams.put("group.id", "lq-consumer-group");
		// 指定从latest(最新)还是smallest(最早)处开始读取数据
        //kafkaParams.put("auto.offset.reset", "latest");
		// 如果true,consumer定期地往zookeeper写入每个分区的offset
		kafkaParams.put("enable.auto.commit", false);
		//指定kafka输出key、value的数据类型及编码格式（默认为字符串类型编码格式为uft-8）
		kafkaParams.put("key.deserializer", StringDeserializer.class);
		kafkaParams.put("value.deserializer", StringDeserializer.class);

		// kafka topic set
		String topics = config.getProperty("kafka.topics");
		Set<String> topicsSet = new HashSet<>(Arrays.asList(topics.split(",")));

		try {
			// 获取kafka的数据
			JavaInputDStream<ConsumerRecord<String, String>> stream = KafkaUtils.createDirectStream(jsc,
					LocationStrategies.PreferConsistent(),
					ConsumerStrategies.<String, String>Subscribe(topicsSet, kafkaParams));

			JavaDStream<String> flatMap = stream.flatMap(new FlatMapFunction<ConsumerRecord<String, String>, String>() {

				@Override
				public Iterator<String> call(ConsumerRecord<String, String> line) throws Exception {
					List<String> list = new ArrayList<>();
					// 处理kafka的每条数据
					System.out.print("***************************" + line.value() + "***************************");
					list.add(line.value() + "23333");
					return list.iterator();
				}
			});
			
			flatMap.print();

			jsc.start();
			jsc.awaitTermination();
			jsc.close();
		} catch (InterruptedException e) {
			e.printStackTrace();
		}
	}
}

config.properties文件中添加kafka地址和topic名称

CDH集成spark后没有sparksql spring集成spark_hbase_02

三、Spark Streaming写Hbase

代码如下（示例）：

data = pd.read_csv( 'https://labfile.oss.aliyuncs.com/courses/1283/adult.data.csv') print(data.head())

该处使用的url网络请求的数据。

总结

提示：这里对文章进行总结：
例如：以上就是今天要讲的内容，本文仅仅简单介绍了pandas的使用，而pandas提供了大量能使我们快速便捷地处理数据的函数和方法。

本文章为转载内容，我们尊重原作者对文章享有的著作权。如有内容错误或侵权问题，欢迎原作者联系我们进行内容更正或删除文章。

上一篇：python selenium 自动登录短信 selenium登录问题

下一篇：window虚拟环境更新python python创建虚拟环境特别慢

提问和评论都可以，用心的回复会被更多人看到评论

发布评论

相关文章

官方博客	全部文章	热门标签	班级博客
了解我们	网站地图	意见反馈

鸿蒙开发者社区	51CTO学堂
51CTO	软考资讯