文章目录需求分析数据格式问题记录代码 需求分析一个做零售相关业务的公司,旗下出品各类收银机 机器每次使用都会将售卖的商品数据上传到公司后台 老板现在想对 省份维度 的 销售情况 进行统计分析4个需求各省 销售指标,每个省的销售额统计Top3 销售省份中,有多少家店铺日均销售额 1000+Top3 省份中,各省的平均单单价Top3 省份中,各省的支付类型比例2个操作将需求结果写出到 mysql将数
最近在实习,公司用的Spark,需要学习一下,废话少说,开始学习旅程。说到Spark,不得不提一下MapReduce,众所周知,Spark的出现,正是用来替代原来的MapReduce计算框架,对于传统的MapReduce来说,存在许多局限性:1. 只支持Map和Reduce两种操作,编程不够灵活2. 处理效率低:map中间结果写入磁盘,reduce写HDFS,多个MR间通过HDFS交换数据&nbs
作者:csj 1 安装spark及简介 spark 是用scala语言编写的一套分布式内存计算系统,他的核心抽象模型是RDD(弹性分布式数据集),围绕rdd构件了一系列分布式API 可以直接对数据集进行分布式处理。 相对于mapreduce上的批量计算,跌代计算,以及基于hive的sql查询,spark可以带来1到2个数量级的效力提 升。 spark shell shark:sql s
文章目录一、why is Scala语言?二、Scala语言的特点三、Windows下搭建Scala开发环境四、配置 IDEA五、Scala语言快速开发入门 一、why is Scala语言?Spark—新一代内存级大数据计算框架,是大数据的重要内容。 Spark就是使用Scala编写的。因此为了更好的学习Spark, 需要掌握Scala这门语言。Scala 是 Scalable Languag
实验目的: 1.熟悉spark中RDD基本操作以及键值对操作 2.熟悉使用RDD编程解决实际问题实验内容: pyspark编程:按照要求处理给的数据集 数据集格式如下: (1)该系共有多少名学生#载入数据 print("###该系共有多少名学生#####") data=sc.textFile("chapter4-data01.txt") #读取文件 #print(data.collect())
最近一段时间学习了下Docker,关于Docker的安装,运用什么的在这里我不会过多的说明,我只说我对于Docker的一些理解,附加我用于记录的少量代码。刚开始学习Docker的时候,找资料在网上看到最多的是Docker的好处。比如:1、Docker 容器的启动可以在秒级实现,这相比传统的虚拟机方式要快得多2、Docker 对系统资源的利用率很高,一台主机上可以同时运行数千个 Docker 容器。
一:分布式基础架构   二:Spark大数据分析计算引擎Spark在传统的MapReduce 计算框架的基础上,对计算过程的优化,从而大大加快了数据分析、挖掘的运行和读写速度,并将计算单元缩小到更适合并行计算和重复使用的RDD计算模型。软件是完整的,框架是不全的,我们自己写的代码逻辑,需要部署到环境中才能够运行;val spakConf = new SparkConf
一、RDD.fold和Scala.fold使用之间的差别1.Scala中fold的使用val t1=Array(("C++", (1,"1")), ("Java", (2,"2")),("Java", (2,"2")), ("SQL", (3,"3")), ("Python", (4,"4"))) val rst=t1.foldLeft(("",0,""))((sum,obj)=>{ (s
转载 8月前
49阅读
上周终于把coursera上的一门数据课程结束了,并且通过了,周四根据课程assignment做的实验印象很深,觉得有必要记下来。 Hadoop Platform and Application Framework by University of California, San Diego https://www.coursera.org/learn/hadoop/home/
转载 8月前
82阅读
文章目录1 RDD创建1.1 从文件系统中加载数据1.2 通过并行集合2 RDD的操作2.1 转换2.1.1 filter2.1.2 map2.1.3 flatMap2.1.4 groupByKey2.1.5 reduceByKey2.2 行动2.2.1 count2.2.2 collect2.2.3 first2.2.4 take(n)2.2.5 reduce(func)2.2.6 forea
远程实习第一周学习总结本周的主要学习内容内容如下: 1、掌握AndroidStudio,项目结构以及SDK 2、掌握Git以及项目忽略表 3、熟悉Android 设计规范:Material Design 4、了解 Json、XML的格式规范以及解析表AndroidStudio概述AndroidStudio是Google开发的专门用于Android开发的IDE,相对于初期使用的Eclipse
jQuery基本概念学习目标:学会如何使用jQuery,掌握jQuery的常用api,能够使用jQuery实现常见的效果。为什么要学习jQuery?【01-让div显示与设置内容.html】使用javascript开发过程中,有许多的缺点:1. 查找元素的方法太少,麻烦。 2. 遍历伪数组很麻烦,通常要嵌套一大堆的for循环。 3. 有兼容性问题。 4. 想要实现简单的动画效果,也很麻烦 5. 代
[size=medium]前几天学习了关于android的一些知识,只是最近没怎么搞这个,这里就先写个小结,学了知识不用是会忘记的。。。说android是个新东西,它又不是个新东西,说它不是呢,又的确是第一次接触,为什么这样说,呵呵。。。在学习它之前一直感觉这东西很神奇,其实最后才发现它和java差不多,是java的一个提升。但是android系统底层,使
     验    报     告实验名称:             JAVA开发环境的熟悉                 
转载 2023-05-28 19:49:36
282阅读
一、概述是什么? 指可扩展标记语言  能干什么? 传输和存储数据  怎么干? 需要自行定义标签。XML 独立于硬件、软件以及应用程序通常。建立完xml文件后首要的任务是:引入约束文件!二、XML简介:可扩展标记语言,都是标记语言,通过标签来操作  具有拓展性,标签为预定义,用户自定义标签(包括自己定义中文标签)   HTML:显示数据。   XML: 存储数据。(小型数据库)   两个
转载 2023-08-04 21:59:15
36阅读
文章目录前言概述Spark和MR的数据处理流程对比Spark的组成示意图Spark模块Spark特点Spark的运行模式Spark官方测试案例SparkWebUISpark通用运行简易流程Spark核心概念RDD特点WordCount案例数据分区算子转换算子行动算子序列化血缘关系:RDD的持久化和检查点:RDD的分区器:文件数据的读取和存储广播变量:累加器:自定义累加器:案例:练习: 计算每个省
目录mySql语法规范检查mysql是否安装正确登录mysql查表基本操作显示所有数据库进入指定的库:use 库名显示库中所有表:show tables;查看其他库中所有的表查看表的创建语句查看表的结构查看当前所在库查看当前mysql支持的存储引擎查看某个系统变量 mySql语法规范1、不区分大小写,但建议关键字大写,标明、列名小写; 2、每条语句最好英文分号结尾; 3、每条命令根据需要进行缩进
1.document.write(""); 输出语句 2.JS中的注释为// 3.传统的HTML文档顺序是:document->html->(head,body) 4.一个浏览器窗口中的DOM顺序是:window->(navigator,screen,history,location,document) 5.得到表单中元素的名称和值:document.getElementById
Spark(RDDS概念、Action、Transformation、练习题)一、为什么使用spark?1、MapReduce编程模型的局限性2、Spark是类Hadoop MapReduce的通用并行框架二、Spark简介三、Spark优势四、Spark技术栈五、Spark初体验六、Spark架构核心组件七、使用Idea初始化Spark运行环境7.1 创建maven工程7.2 下载依赖包:7.
mysql篇Day2知识点回顾:作业的讲解与分析:知识点讲解:1、如何判断数据库中null的数据?2、<=> : 安全 等于3、运算符优先级(自测)4、排序查询:order by5、函数:6、单行函数7、分组函数:8、分组查询9、连接查询总结:1.STR_TO_DATE()函数的使用注意2.GROUP BY的执行顺序及其操控对象3.用中文给字段取别名时,使用别名不可加引号(字段而不是
  • 1
  • 2
  • 3
  • 4
  • 5