Spark学习笔记1——Spark介绍,RDD算子Transformation和Action入门 Spark学习笔记总结01. Spark基础1. 介绍Spark可以用于批处理、交互式查询(Spark SQL)、实时流处理(Spark Streaming)、机器学习(Spark MLlib)和图计算(GraphX)。 Spark是MapReduce的替代
转载 2023-06-19 13:47:33
116阅读
//kafka的安装配置及sparksteaming消费 # by coco # 2015-07-06 前期准备 zookeeper在如下机器上运行 192.168.8.94 192.168.8.95 192.168.8.96 目前安装kafka集群模式: 192.168.8.98 192.168.8.97 1. 安装zookeeper集群。(略) 2. 安装kafka wget htt
原创
4k
2023-06-16 00:31:50
82阅读
先一个一个java程序,读取日志文件中的数据,然后将数据写入到Kafka中,然后写一个SparkSteaming程序,使用直连的方式读取Kafka中的数据,计算如下指标 该文件是一个电商网站某一天用户购买商品的订单成交数据,每一行有多个字段,用空格分割,字段的含义如下用户ID   ip地址          商品分类   购买明细     商品金额A        202.106.196.115
原创 2021-07-15 11:03:24
167阅读
1:SparkSteaming基于kafka获取数据的方式,主要有俩种,即Receiver和Derict,基于Receiver的方式,是sparkStreaming给我们提供了kafka访问的高层api的封装,而基于Direct的方式,就是直接访问,在sparkSteaming中直接去操作kafka中的数据,不需要前面的高层api的封装。而Direct的方式,可以对kafka进行更好的控制!同时性
转载 2024-06-26 21:14:17
45阅读
线上实战问题 问题 1:想要请问一下,我这边需求是每分钟利用 sparksteaming 插入按天的索引 1、
转载 2023-05-11 14:28:10
173阅读
1、线上实战问题问题 1:想要请问一下,我这边需求是每分钟利用 sparksteaming 插入按天的索引150万条数据。一般.
原创 2022-10-18 22:17:44
266阅读
SparkSteaming 实现图片流式抠图1.   思路由于抠图的算法是C++写的,将它编译成.so,打入jar包,运行时动态加载已经实现。抠图已经在hadoop2.2.0和spark0.9上实现,现在要对它进行流式抠图。目前想到的就是两种方式1)        每次需要背景图片的时候,
Spark Streaming揭秘 Day32WAL框架及实现今天会聚焦于SparkStreaming中非常重要的数据安全机制WAL(预写日志)。设计要点从本质点说,WAL框架是一个存储系统,可以简单的认为是一个文件系统,其作用类似于BlockManager,我们首先看一下官方的说明:这里有三个要点:总体上,sparksteaming是用WAL去保存接收到的数据,并且在写入数据后,要把元数据汇报给
转载 2023-12-26 21:16:47
37阅读
我的博客都是在开发过程中遇到问题,和学习到的经验,写出来,跟大家分享,写博客这个事情还是非常感谢上一家公司的领导对我教诲,虽然很严厉但是对我的帮助和成长真的很大,虽然很可惜离开了,但是还是很感谢,我的年龄其实不大,开发和工作经验不多还是学习阶段。如果哪里有写不对的地方还请帮忙指认出来。上一章节中我们提到了sparksteaming的检查点机制,我觉得只要是流式计算都会涉及数据安全性的问题,对于sp