wx59658a994b151的博客_spark

使用Java编写Spark Streaming来做大数据处理（六）

word count flatMap和flatMapToPair

spark

java

scala

apache

原创 2022-11-02 15:16:06 114 阅读

使用Java编写Spark Streaming来做大数据处理（二）

此时只能苦苦等待（不是），所以我们在分配资源时一定要合理，个人认为如果资源充足，就多分配一些举个例子,我们知道，一般默认一个核运行两到三个task，一个task一般几百兆到一个G，所以默认一个核一般跑2-3个G--driver-memory 4G --executor-memor

spark

java

hadoop

数据

ide

原创 2022-11-02 15:13:47 159 阅读

RDD算子的应用(农产品分析题目举例)

题目：根据农产品类型数量，统计每个省份排名前3名的农产品市场（备注：在spark-shell中操作使用）s

spark

scala

数据清洗

数据

导入数据

原创 2022-11-02 15:13:31 75 阅读

Spark综合学习笔记（一）

rk的对比...

spark

big data

官网

hadoop

原创 2022-11-02 15:13:30 52 阅读

使用Java编写Spark Streaming来做大数据处理（四）

本次我们只要从数据的流向和类型带大家深入spark

spark

java

数据

ide

原创 2022-11-02 15:13:25 48 阅读

Spark综合学习笔记（三）搜狗搜索日志分析

据，封装到RDD数据集中，调用Transformation函数和Action函数进行处理不同业务统计分析三、分词工具测试使用比较流行好用的中文分区：HanLP,面向生产环境的自

postman

测试工具

spark

scala

数据

原创 2022-11-02 15:13:18 177 阅读

spark sql操作外部数据源（hive和mysql）

article/det

hive

mysql

jdbc

spark

scala

原创 2022-11-02 15:13:11 138 阅读

Spark SQL精华及与Hive集成

一、

spark

hive

scala

sql

原创 2022-11-02 15:13:05 273 阅读

Spark GraphX概念及操作示例

引言:为什么要学计算许多大数据以大规模图或网络的形式呈现许多非图结构的大数据,

spark

大数据

graphx

apache

scala

原创 2022-11-02 15:13:01 178 阅读

spark读取文件的两种方式

spark读取文件的两种方式(1)从本机读取scala>

spark

大数据

hadoop

scala

原创 2022-11-02 15:12:34 185 阅读

Spark综合学习笔记（二十七）SparkSQL整合Hive-1 SparkSQL命令行

arkSQL诞生之后，Spark提出的，是

spark

big data

hive

sql

原创 2022-11-02 15:12:01 150 阅读

Spark综合学习笔记（三十）Structured Streaming引入

正的实时Spark Streaming会接收实时数据源的数据，并切分成很多小的batches，然后被Spark Engine执行，产出同样由很多小的batchs组成的结果流。本质上，这是一种micro-batch(微批处理）的方式.

spark

big data

大数据

数据

批处理

原创 2022-11-02 15:11:49 137 阅读

工具类——Spark写入csv文件到HDFS（Java代码）

spark写入csv到hdfs

java

spark

hdfs

apache

原创 2022-11-02 15:09:54 258 阅读

一秒看懂Subtract

spark

原创 2022-11-02 14:53:51 103 阅读

Spark综合学习笔记（七）SparkStreaming案例1 WordCount

t，流程图如下:准备工作1.在node01上安装nc命令nc是netcat的简称，原本是用来设置路由器,我们可以利用它向某个端口发送数据yum install -y nc代码的实现：...

spark

big data

scala

数据

apache

原创 2022-11-02 14:53:42 99 阅读

Spark综合学习笔记（八）SparkStreaming案例2 状态管理

et接收的数据做WordCoun并要求能够和历史数据进行累加!如:先发了一个spark,得到spark,1然后不管隔多久再发一个spark,得到spark,2也就是说要对数据的历史状态进行维护!实现思路：一、updataStateByKey先设置checkpoint存储状态status，使用updataStateByKey实现状态管理的单词统计，需要自己写一个updat

postman

测试工具

spark

数据

历史状态

原创 2022-11-02 14:53:39 148 阅读

Spark综合学习笔记（十三）SparkStreaming整合Kafka-连接方式和API版本

学习致谢;https://www.bilibili.com/video/BV1Xz4y1m7cv?p=48介绍在实际项目中，无论使=

postman

测试工具

spark

kafka

数据

原创 2022-11-02 14:53:17 116 阅读

使用Java编写Spark Streaming来做大数据处理（三）

本文主要内容为:通过spark提取hive中的数据先说一下主要的需求：从数据库种取姓名和编号，如果num为111，或者222，那编号为id，如果id为5为去除前两位，如

spark

java

hive

字段

数据

原创 2022-11-02 14:52:43 66 阅读

spark streaming WordCount实例演示

一、首先准备一台虚拟机安装NCyum -y install nc然后nc -lk 9999二、打开IDEA（1）创建一个maven项目，并修改pom文件如

spark

sparkstreaming

wordcount

apache

maven

原创 2022-11-02 14:52:35 83 阅读

Spark Streaming

使用Spark Streaming统计HDFS文件的词频Demo02_HDFSWordCountpackage cn.kgc.s

spark

大数据

apache

数据

原创 2022-11-02 14:52:26 80 阅读

使用Java编写Spark Streaming来做大数据处理（一）

写在前面：一般来说spark都是由Scala来实现，但Java一手遮天，非要以一己之力实现（不是）一、使用JAVA编写有哪几部组成？1.获取数据/ter)一般

java

spark

大数据

字段

数据

原创 2022-11-02 14:52:21 75 阅读

官方博客	全部文章	热门标签	班级博客
了解我们	网站地图	意见反馈

鸿蒙开发者社区	51CTO学堂
51CTO	软考资讯

51CTO博客

13117141

使用Java编写Spark Streaming来做大数据处理（六）

使用Java编写Spark Streaming来做大数据处理（二）

RDD算子的应用(农产品分析题目举例)

Spark综合学习笔记（一）

使用Java编写Spark Streaming来做大数据处理（四）

Spark综合学习笔记（三）搜狗搜索日志分析

spark sql操作外部数据源（hive和mysql）

Spark SQL精华及与Hive集成

Spark GraphX概念及操作示例

spark读取文件的两种方式

Spark综合学习笔记（二十七）SparkSQL整合Hive-1 SparkSQL命令行

Spark综合学习笔记（三十）Structured Streaming引入

工具类——Spark写入csv文件到HDFS（Java代码）

一秒看懂Subtract

Spark综合学习笔记（七）SparkStreaming案例1 WordCount

Spark综合学习笔记（八）SparkStreaming案例2 状态管理

Spark综合学习笔记（十三）SparkStreaming整合Kafka-连接方式和API版本

使用Java编写Spark Streaming来做大数据处理（三）

spark streaming WordCount实例演示

Spark Streaming

使用Java编写Spark Streaming来做大数据处理（一）