RDD概念一个 RDD 就是一个分布式对象集合,提供了一种高度受限共享内存模型,其本质上是一个只读分区记录集合,不能直接修改。每个 RDD 可以分成多个分区,每个分区就是一个数据集片段,并且一个 RDD 不同分区可以保存到集群中不同节点上,从而可以在集群中不同节点上进行并行计算。RDD 提供了一组丰富操作以支持常见数据运算,分为“行动”(Action)和“转换”(Transforma
RDD全称Resilient Distributed Dataset,弹性分布式数据集,它是记录只读分区集合,是Spark基本数据结构,见名释义: 弹性,表现在两个方面,一是当计算过程中内存不足时可刷写到磁盘等外存上,可与外存做灵活数据交换;二是RDD使用了一种“血统”容错机制,在结构更新和丢失后可随时根据血统进行数据模型重建; 分布式,可分布在多台机器上进行并行计算
转载 2024-01-05 20:15:22
34阅读
Spark有效处理大规模数据3个主要工具是RDD、DataFrame和Dataset API。虽然每个API都有自己优点,但新范式转变支持Dataset作为统一数据API,以满足在单个界面中所有数据处理需求。新Spark 2.0 Dataset API是一个类型安全领域对象集合,可以使用函数运算或关系操作方式执行(类似于RDDfilter、map和flatMap()等)并行转换。
原创 2022-04-27 15:54:15
392阅读
降维-基于RDDAPI Singular value decomposition (SVD) Performance SVD Example Principal component analysis (PCA) Dimensionality reduction is the process of
转载 2021-03-29 05:55:00
117阅读
2评论
原创 2023-05-21 01:54:03
99阅读
原创 2023-03-07 09:39:16
116阅读
FP-growth 可调参数: minSupport:被识别为频繁项集最小支持度。例如,如果一个项目在 5 个事务中出现 3 个,则它支持率为 3/5=0.6。 numPartitions: 用于分发工作分区数。
原创 2023-03-07 09:39:49
92阅读
概要决策树及其集合是分类和回归机器学习任务流行方法。决策树被广泛使用,因为它们易于解释,可以处理分类特征,扩展到多类分类环境,不需要特征缩放,并且能够捕捉非线性和特征相互作用。树组合算法,如随机森林和提升算法,是分类和回归任务中表现最好。 在这里就不过多介绍决策树具体原理了,这篇文章主要介绍Spark决策树API。下面,主要讲解了Spark决策树参数调节技巧:使用技巧我们在讲
原创 2023-03-07 09:40:15
94阅读
TF-IDF TF-IDF算法步骤: TF(词频)=$\farc{某个词在该文章出现次数}{该文章总词数}$ IDF(逆文档频率)=$log
原创 2023-05-21 01:53:53
115阅读
朴素贝叶斯是基于每个特征都是相互独立这个假设而成立。朴素贝叶斯算法常常用于多分类任务中。在spark mllib中支持多项式朴素贝叶斯和伯努利朴素贝叶斯模型。这些模型常常用于文档分类。在文档分类任务中,每一个样本就是一个文档,每一个特征就是一个单词,单词数值为该词评率。而输入特征为稀疏向
原创 2021-07-25 14:26:59
395阅读
1.Python语言优势1.Python语法清晰2.易于操作纯文本3.使用广泛,存在大量开发文档2.开发机器学习应用程序步骤1.收集数据。常用方法可以是网络爬虫从网站上抽取数据、设备实测数据、以及公开数据等。2.准备输入数据。对收集到数据进行预处理,例如数据格式。3.分析输入数据。主要是人工分析以前得到数据,查看得到数据是存在空值,并判断数据是否有可以识别出来模式,另外还需要检
使用flaskRESTful扩展库 flask-restful 安装 pip install flask-restful eg: 最简单api from flask import Flask from flask_restful import Api, Resource app = Flask(
转载 2020-11-24 13:17:00
109阅读
2评论
文章目录一、RDD血缘关系二、RDD 依赖关系1.窄依赖2.宽依赖3.RDD阶段划分4.RDD任务划分RDD持久化1.RDD Cache 缓存2.RDD CheckPoint 检查点四、RDD 分区器五、RDD 文件读取与保存 一、RDD血缘关系RDD不会保存数据;RDD为了提供容错性,会将RDD关系保存下来 一旦出现错误,可以根据血缘关系从新计算二、RDD 依赖关系1.窄依赖上游RD
转载 2023-09-03 15:50:32
66阅读
# 基于TF机器学习:概念与应用 ## 引言 在现代数据科学领域内,机器学习(Machine Learning)作为一种强大工具,用于发现数据中模式和规律。许多机器学习模型训练采用了词频(Term Frequency, TF)这一基本概念,特别是在自然语言处理(NLP)与文本挖掘中。本文将介绍基于TF机器学习方法,并通过代码示例进行说明。 ## 词频(Term Frequency
原创 2024-09-03 06:49:46
56阅读
基于机器学习算法以其强大非线性处理能力,在多个领域都有广泛应用。随着大数据时代到来,这类算法
原创 2024-06-25 11:16:11
206阅读
# 教你如何实现“Spark RDDAPI文档” 作为一名刚入行开发者,你可能对如何实现“Spark RDDAPI文档”感到困惑。不用担心,这篇文章将为你提供详细指导,帮助你快速上手。 ## 流程图 首先,让我们用流程图来展示实现Spark RDD API文档整体流程: ```mermaid flowchart TD A[开始] --> B[了解Spark RDD]
原创 2024-07-21 09:56:08
20阅读
## 基于机器学习WAF 网络应用程序防火墙(WAF)是一种用于保护 Web 应用程序免受恶意攻击安全工具。传统 WAF 通常依赖于规则集和签名来检测和阻止恶意流量,但这些方法往往难以跟上不断变化和复杂化网络攻击。 基于机器学习 WAF 则利用机器学习算法来自动学习和识别恶意流量,从而更有效地保护 Web 应用程序。在本文中,我们将介绍基于机器学习 WAF 工作原理,并演示一个简
原创 2024-05-01 07:11:20
197阅读
文章目录一、字典特征抽取二、文本特征抽取1.
原创 2022-09-23 22:42:30
105阅读
支付宝支付# 1、在沙箱环境下实名认证:https://openhome.alipay.com/platform/appDaily.htm?tab=info # 2、电脑网站支付API:https://docs.open.alipay.com/270/105898/ # 3、完成RSA密钥生成:https://docs.open.alipay.com/291/105971 # 4、在开发中心
  目录 一、RDD概述1.1 什么是RDD?1.2 RDD属性1.3 WordCount粗图解RDD二、RDD创建方式2.1 通过读取文件生成2.2 通过并行化方式创建RDD2.3 其他方式RDD编程API3.1 Transformation3.2 Action3.3 Spark WordCount代码编写3.4 WordCount执行过程图四、RDD宽依赖和窄依赖4.1 RD
转载 2021-06-11 22:34:47
160阅读
  • 1
  • 2
  • 3
  • 4
  • 5