执行流程 ①用户编写spark语句运行程序 ②生成一个application以及运行环境driver ③生成一个sparkcontext以及向资源管理器申请运行application的资源 ④资源管理器向exceutor分配资源,并且启动exceutor ⑤sparkcontext解析spark程序 (1).生成spark的RDD对象 (2).根据RDD对象生成DAG关系依赖图 (3).将DAG            
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2023-12-23 21:32:16
                            
                                46阅读
                            
                                                                             
                 
                
                                
                     
                                    
                             
         
            
            
            
            文章目录(一)大数据的定义(二)大数据的4V特征(1)大量(Volume)(2)多样(Variety)(3)快速(Velocity)(4)价值(Value)(三)大数据思维变革(1)随机数据与全体数据(2)精确度与混乱度(3)因果关系与相关关系(四)大数据处理过程(1)采集(2)导入/预处理(3)统计/分析(4)挖掘(五)大数据的应用附:参考资料 (一)大数据的定义大数据(Big data),又            
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2023-08-04 21:04:55
                            
                                117阅读
                            
                                                                             
                 
                
                                
                     
                                    
                             
         
            
            
            
            Flink 中文社区            
                
                    
                        
                                                            
                                                                        
                                                                                        原创
                                                                                    
                            2022-07-28 14:08:31
                            
                                138阅读
                            
                                                                             
                 
                
                             
         
            
            
            
            接上2篇:一小时了解数据挖掘①:解析常见的大数据应用案例   一小时了解数据挖掘②:分类算法的应用和成熟案例解析数据挖掘分类技术 从分类问题的提出至今,已经衍生出了很多具体的分类技术。下面主要简单介绍四种最常用的分类技术,不过因为原理和具体的算法实现及优化不是本书的重点,所以我们尽量用应用人员能够理解的语言来表述这些技术。 在我们学习这些算法之前必须要清楚一点,分类算法不会百分百准确            
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2023-08-24 22:54:58
                            
                                424阅读
                            
                                                                             
                 
                
                             
         
            
            
            
            一、练习内容1、新建数据库首先,我们创建一个数据库,给它一个名字,比如“mysql_shiyan”,以后的几次实验也是对mysql_shiyan这个数据库进行操作。 语句格式为“CREATE DATABASE <数据库名字>;”,(注意不要漏掉“;”)因此具体命令为:CREATE DATABASE mysql_shiyan;创建成功后输入命令“show databases;”(注意不要            
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2024-05-07 14:05:55
                            
                                76阅读
                            
                                                                             
                 
                
                             
         
            
            
            
            1、HDFS读流程和写流程1.1 HDFS写数据流程① 客户端通过Distributed FileSystem模块向NameNode请求上传文件,NameNode检查目标文件是否已存在,父目录是否存在。② NameNode返回是否可以上传。③ 客户端请求第一个 Block上传到哪几个DataNode服务器上。④ NameNode返回3个DataNode节点,分别为dn1、dn2、dn3。⑤ 客户端            
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2023-11-14 09:37:11
                            
                                79阅读
                            
                                                                             
                 
                
                                
                     
                                    
                             
         
            
            
            
            ES (ElasticSearch)是分布式搜索引擎。引擎太晦涩,其实类似一个 MySQL ,一个存储。方便提供下面功能:近实时搜索 全文检索,结构化搜索,统计分析 那么存储在 ES 数据哪里来?答案是数据同步。方式推荐如下:数据传输(Data Transmission)是阿里云提供的一种支持RDBMS(关系型数据库)、NoSQL、OLAP等多种数据源之间数据交互的数据服务。【阿里的】https:            
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2024-05-21 17:44:19
                            
                                69阅读
                            
                                                                             
                 
                
                             
         
            
            
            
            Python +大数据-Python学习(三)1 .列表基本语法列表名称 = [数据1, 数据2, 数据3, 数据4, ...]
列表的作用是一次性存储多个数据,程序员可以对这些数据进行的操作有:增、删、改、查。
# 列表的定义
name_list=['Daidai','Jack','Rose','Tom']
print(name_list) #['Daidai', 'Jack', 'Rose'            
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2023-09-20 22:55:44
                            
                                179阅读
                            
                                                                             
                 
                
                             
         
            
            
            
            背景魔镜是数据产品研发部基于大数据平台开发的一套可视化数据智能平台。传统机器学习建模流程对非数据科学专业人员来说,整体门槛较高,其中主要体现在几个方面:1. 机器学习概念较为抽象比如训练集、验证集、测试集、特征、维度、标签泄露、欠拟合、过拟合、学习曲线、验证曲线、ROC曲线、混淆矩阵等等,除了需要了解概念外,需要了解具体的使用场景、使用方法。2. 机器学习建模流程复杂数据准备、数据预处理、统计分析            
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2024-03-09 22:14:51
                            
                                116阅读
                            
                                                                             
                 
                
                             
         
            
            
            
              大数据是大量数据和数据集,形式多样,来源多样。许多组织已经认识到收集尽可能多的数据的优势。但是,仅仅收集和存储大数据是不够的,你还必须使用它。得益于快速发展的技术,组织可以使用大数据分析将TB级数据转化为可操作的见解。  那么大数据分析如何工作?  大数据分析主要利用了4个关键流程。这些工作包括数据的收集、处理、清理和分析。以下了解这些关键流程。  (1)收集数据  移动记录、客户反馈表、从客            
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2023-09-04 21:48:45
                            
                                53阅读
                            
                                                                             
                 
                
                             
         
            
            
            
            【温馨提示】亲爱的朋友,阅读之前请您点击【关注】,您的支持将是我最大的动力!       在日常使用Excel处理数据时,相信小伙伴们对于筛选功能已经是不陌生了,Excel筛选功能可以快速有效的帮助我们处理大量的数据,将我们想要的结果一一列出来,是我们分析数据的好帮手。今天小编就来分享一组筛选和高级筛选的使用技巧。先来看看本节教程要学习的目录导图       调出筛选功能的方法:选中表头行,点击【            
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2024-01-29 22:45:49
                            
                                99阅读
                            
                                                                             
                 
                
                                
                     
                                    
                             
         
            
            
            
            1 PySpark简介Apache Spark是用Scala编程语言编写的。为了用Spark支持Python,Apache Spark社            
                
                    
                        
                                                            
                                                                        
                                                                                        原创
                                                                                    
                            2023-05-17 15:22:42
                            
                                661阅读
                            
                                                                             
                 
                
                             
         
            
            
            
             文章目录前言一、数组的定义和访问1.1 容器概述1.2 数组概念1.3 数组的定义1.4 数组的初始化1.5 数组的访问二、数组原理内存图2.1 内存概述2.2 Java虚拟机的内存划分2.3 数组在内存中的存储一个数组内存图两个数组内存图两个变量指向一个数组三、数组操作的常见问题3.1 数组越界异常3.2 数组空指针异常四、数组练习4.1 数组遍历4.2 数组获取最值4.3 数组翻转五、IDE            
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2023-09-11 14:53:32
                            
                                27阅读
                            
                                                                             
                 
                
                                
                     
                                    
                             
         
            
            
            
            前言先引用一下马云大大的话:很多人还没搞清楚什么是PC互联网,移动互联网来了,我们还没搞清楚移            
                
                    
                        
                                                            
                                                                        
                                                                                        原创
                                                                                    
                            2023-01-27 09:03:45
                            
                                108阅读
                            
                                                                             
                 
                
                                
                     
                                    
                             
         
            
            
            
            引论在算法竞赛中我们经常遇到大数问题,例如求一个很大的斐波那契数。住在这种情况下我们用常规解法肯定是存不下的,而我们自己写一个大数的算法又过于麻烦且易于出错,在这种情况下使用java中自带的大数类是我们最好的选择。(TLE就换方法咯)介绍java中用于操作大数的类主要有两个,一个是BigInteger,代表大整数类用于对大整数进行操作,另一个是BigDecimal,代表高精度类,用于对比较大或精度            
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2023-09-11 14:53:53
                            
                                59阅读
                            
                                                                             
                 
                
                             
         
            
            
            
            目录水仙花数的程序编写求列表中的最大值和最小值斐波那契数列的程序编写用自己的代码实现Strip()的功能编写程序对列表中的元素去重统计列表中每个元素出现的个数九九乘法表选出两个列表中对应下标值最大的元素组成新的列表冒泡排序将列表中的元素依次打印出来函数调用args接单个值,kwargs用来接键值对random的用法定义一个函数,输入名字列表,输入随机数量,提取相应数量的名字,当次提取的名字不能有重            
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2023-08-09 15:23:12
                            
                                76阅读
                            
                                                                             
                 
                
                             
         
            
            
            
            今天我们在进行一个Python数据可视化的实战练习,用到的模块叫做Panel,我们通过调用此模块来绘制动态可交互的图表以及数据大屏的制作。而本地需要用到的数据集,可在kaggle上面获取 https://www.kaggle.com/datasets/rtatman/188-million-us-wildfires,如果无法访问kaggle,可以找我获取数据集。导入模块和读取数据那么首先我们先导入            
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2023-07-29 15:39:48
                            
                                184阅读
                            
                                                                             
                 
                
                                
                     
                                    
                             
         
            
            
            
            Python入门 一、基础语法 1、Python中数据类型 整数,浮点数,字符串,布尔值,空值(None) 2、print语句 注意: 1.当我们在Python交互式环境下编写代码时,>>>是Python解释器的提示符,不是代码的一部分。 2.当我们在文本编辑器中编写代码时,千万不要自己添加 >>>。 print语句也可以跟上多个字符串,用逗号“,”隔开,就可以            
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2023-06-19 14:38:09
                            
                                184阅读
                            
                                                                             
                 
                
                             
         
            
            
            
                在上节第三课中,我们介绍了Hadoop集群使用HDFS和MapReduce,我们在介绍HDFS时,都是直接运行hadoop命令来上传文件,这节课我们介绍在java环境调用和操作HDFS的文件管理功能。    我们知道,通过hadoop hive或spark等数据计算框架完成数据清洗后的数据是存储在HDFS上的,而爬虫和机器学习等程序在Python或j            
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2023-09-01 09:50:02
                            
                                46阅读
                            
                                                                             
                 
                
                                
                     
                                    
                             
         
            
            
            
            大数据系列教程            
                
                    
                        
                                                            
                                                                        
                                                                                        原创
                                                                                    
                            2022-12-28 11:41:54
                            
                                144阅读