RDD概念一个 RDD 就是一个分布式对象集合,提供了一种高度受限的共享内存模型,其本质上是一个只读的分区记录集合,不能直接修改。每个 RDD 可以分成多个分区,每个分区就是一个数据集片段,并且一个 RDD 的不同分区可以保存到集群中不同的节点上,从而可以在集群中的不同节点上进行并行计算。RDD 提供了一组丰富的操作以支持常见的数据运算,分为“行动”(Action)和“转换”(Transforma
转载
2024-01-05 21:38:51
55阅读
RDD全称Resilient Distributed Dataset,弹性分布式数据集,它是记录的只读分区集合,是Spark的基本数据结构,见名释义: 弹性,表现在两个方面,一是当计算过程中内存不足时可刷写到磁盘等外存上,可与外存做灵活的数据交换;二是RDD使用了一种“血统”的容错机制,在结构更新和丢失后可随时根据血统进行数据模型的重建; 分布式,可分布在多台机器上进行并行计算
转载
2024-01-05 20:15:22
34阅读
Spark有效处理大规模数据的3个主要工具是RDD、DataFrame和Dataset API。虽然每个API都有自己的优点,但新范式转变支持Dataset作为统一数据API,以满足在单个界面中所有数据处理需求。新的Spark 2.0 Dataset API是一个类型安全的领域对象集合,可以使用函数运算或关系操作方式执行(类似于RDD的filter、map和flatMap()等)并行转换。
原创
2022-04-27 15:54:15
392阅读
降维-基于RDD的API Singular value decomposition (SVD) Performance SVD Example Principal component analysis (PCA) Dimensionality reduction is the process of
转载
2021-03-29 05:55:00
117阅读
2评论
FP-growth 可调参数: minSupport:被识别为频繁项集的最小支持度。例如,如果一个项目在 5 个事务中出现 3 个,则它的支持率为 3/5=0.6。 numPartitions: 用于分发工作的分区数。
原创
2023-03-07 09:39:49
92阅读
概要决策树及其集合是分类和回归的机器学习任务的流行方法。决策树被广泛使用,因为它们易于解释,可以处理分类特征,扩展到多类分类环境,不需要特征缩放,并且能够捕捉非线性和特征的相互作用。树的组合算法,如随机森林和提升算法,是分类和回归任务中表现最好的。
在这里就不过多介绍决策树的具体原理了,这篇文章主要介绍Spark的决策树的API。下面,主要讲解了Spark的决策树的参数调节的技巧:使用技巧我们在讲
原创
2023-03-07 09:40:15
94阅读
TF-IDF TF-IDF的算法步骤: TF(词频)=$\farc{某个词在该文章出现的次数}{该文章的总词数}$ IDF(逆文档频率)=$log
原创
2023-05-21 01:53:53
115阅读
朴素贝叶斯是基于每个特征都是相互独立的这个假设而成立的。朴素贝叶斯算法常常用于多分类的任务中。在spark mllib中支持多项式朴素贝叶斯和伯努利朴素贝叶斯模型。这些模型常常用于文档分类。在文档分类的任务中,每一个样本就是一个文档,每一个特征就是一个单词,单词的数值为该词的评率。而输入特征为稀疏向
原创
2021-07-25 14:26:59
395阅读
1.Python语言的优势1.Python的语法清晰2.易于操作纯文本3.使用广泛,存在大量开发文档2.开发机器学习应用程序步骤1.收集数据。常用的方法可以是网络爬虫从网站上抽取的数据、设备的实测数据、以及公开数据等。2.准备输入数据。对收集到的数据进行预处理,例如数据的格式。3.分析输入数据。主要是人工分析以前得到的数据,查看得到的数据是存在空值,并判断数据是否有可以识别出来的模式,另外还需要检
转载
2023-07-21 13:49:07
133阅读
使用flask的RESTful扩展库 flask-restful 安装 pip install flask-restful eg: 最简单的api from flask import Flask from flask_restful import Api, Resource app = Flask(
转载
2020-11-24 13:17:00
109阅读
2评论
文章目录一、RDD血缘关系二、RDD 依赖关系1.窄依赖2.宽依赖3.RDD的阶段划分4.RDD任务划分三、RDD持久化1.RDD Cache 缓存2.RDD CheckPoint 检查点四、RDD 分区器五、RDD 文件读取与保存 一、RDD血缘关系RDD不会保存数据;RDD为了提供容错性,会将RDD间的关系保存下来 一旦出现错误,可以根据血缘关系从新计算二、RDD 依赖关系1.窄依赖上游RD
转载
2023-09-03 15:50:32
66阅读
# 基于TF的机器学习:概念与应用
## 引言
在现代数据科学的领域内,机器学习(Machine Learning)作为一种强大的工具,用于发现数据中的模式和规律。许多机器学习模型的训练采用了词频(Term Frequency, TF)这一基本概念,特别是在自然语言处理(NLP)与文本挖掘中。本文将介绍基于TF的机器学习方法,并通过代码示例进行说明。
## 词频(Term Frequency
原创
2024-09-03 06:49:46
56阅读
基于核的机器学习算法以其强大的非线性处理能力,在多个领域都有广泛的应用。随着大数据时代的到来,这类算法
原创
2024-06-25 11:16:11
206阅读
# 教你如何实现“Spark RDD的API文档”
作为一名刚入行的开发者,你可能对如何实现“Spark RDD的API文档”感到困惑。不用担心,这篇文章将为你提供详细的指导,帮助你快速上手。
## 流程图
首先,让我们用流程图来展示实现Spark RDD API文档的整体流程:
```mermaid
flowchart TD
A[开始] --> B[了解Spark RDD]
原创
2024-07-21 09:56:08
20阅读
## 基于机器学习的WAF
网络应用程序防火墙(WAF)是一种用于保护 Web 应用程序免受恶意攻击的安全工具。传统的 WAF 通常依赖于规则集和签名来检测和阻止恶意流量,但这些方法往往难以跟上不断变化和复杂化的网络攻击。
基于机器学习的 WAF 则利用机器学习算法来自动学习和识别恶意流量,从而更有效地保护 Web 应用程序。在本文中,我们将介绍基于机器学习的 WAF 的工作原理,并演示一个简
原创
2024-05-01 07:11:20
197阅读
支付宝支付# 1、在沙箱环境下实名认证:https://openhome.alipay.com/platform/appDaily.htm?tab=info
# 2、电脑网站支付API:https://docs.open.alipay.com/270/105898/
# 3、完成RSA密钥生成:https://docs.open.alipay.com/291/105971
# 4、在开发中心
目录
一、RDD的概述1.1 什么是RDD?1.2 RDD的属性1.3 WordCount粗图解RDD二、RDD的创建方式2.1 通过读取文件生成的2.2 通过并行化的方式创建RDD2.3 其他方式三、RDD编程API3.1 Transformation3.2 Action3.3 Spark WordCount代码编写3.4 WordCount执行过程图四、RDD的宽依赖和窄依赖4.1 RD
转载
2021-06-11 22:34:47
160阅读