二哥不像程序员的博客_Spark

人人都懂Spark-SQL基础操作（Scala版）

Spark SQL简单的说Spark SQL是spark用来操作结构化和半结构化数据的接口。本文来讲述一下它的一些基本操作。Spark SQL的特性无缝地将SQL查询和spark程序混合，与常规的Python/Java/scala代码高度整合，包含了连接RDD与SQL表、公开的自定义SQL函数接口等。可以从各种结构化数据源中读取数据，如（JSON、HIVE等）可以通过JDBC或...

Spark

Spark SQL

SQL

hive

Hive

原创 2023-02-21 16:35:11 192 阅读

Spark-数据读取与保存（Scala版）

文件格式Spark对文件的读取和保存方式都很简单，会根据文件的扩展名选择对应的处理方式Spark支持的一些常见格式格式名称结构化备注文本文件否普通的文本

Spark

Scala

数据读取和保存

JSON

数据

原创 2023-02-21 16:31:07 362 阅读

Spark-RDD 键值对的操作（Scala版）

键值对RDD是Spark中许多操作所需要的常见数据类型。键值对RDD通常用来进行聚合运算，我们一般要先通过一些初始ETL（抽取，转化，装载）操作来将数据转化为键值对形式。Spark

Spark

RDD

键值对

数据

键值

原创 2023-02-17 10:01:27 54 阅读

PySpark｜RDD编程基础

RDD（弹性分布式数据集）RDD是Spark中最基本的数据抽象，其实就是分布式的元素集合。RDD有三

python

spark

大数据

数据集

数据

原创 2023-02-17 09:16:59 213 阅读

超全的Spark简介

Spark是什么？简单的说Apache Spark是一个开源的、强大的分布式查询和处理引擎，它提供MapReduc

分布式

spark

Apache

Python

原创 2023-02-17 09:16:37 49 阅读

PySpark ML（转换器）

PySpark ML（转换器）在PySpark中包含了两种机器学习相关的包：MLlib和ML，二者的主要区别在于M

spark

数据

ML

原创 2023-02-17 09:16:26 125 阅读

PySpark ML (评估器)

PySpark ML (评估器)评估器简介ML中的评估器主要是对于机器学习算法的使用，包括预测、分类

机器学习

python

spark

lua

数据

原创 2023-02-17 09:16:03 134 阅读

PySpark｜比RDD更快的DataFrame

DataFrame介绍DataFrame是一种不可变的分布式数据集，这种数据集被组织成指定的列，类似于关系数

python

spark

SQL

Python

原创 2023-02-17 09:15:46 153 阅读

官方博客	全部文章	热门标签	班级博客
了解我们	网站地图	意见反馈

鸿蒙开发者社区	51CTO学堂
51CTO	软考资讯

51CTO博客

wx63edfe2c340c0的博客

人人都懂Spark-SQL基础操作（Scala版）

Spark-数据读取与保存（Scala版）

Spark-RDD 键值对的操作（Scala版）

PySpark｜RDD编程基础

超全的Spark简介

PySpark ML（转换器）

PySpark ML (评估器)

PySpark｜比RDD更快的DataFrame