在大数据领域,只有深挖数据科学领域,走在学术前沿,才能在底层算法和模型方面走在前面,从而占据领先地位。一、Spark专业术语定义1.Application:Spark应用程序指的是用户编写的Spark应用程序,包含了Driver功能代码和分布在集群中多个节点上运行的Executor代码。Spark应用程序,由一个或多个作业JOB组成,如下图所示:2.Dirver:驱动程序Spark中的Driver
转载
2023-10-11 22:56:49
474阅读
基础知识之数据类型数据类型基本数据类型整型浮点型字符型布尔型引用数据类型注释命名规约 数据类型在Java中,数据类型从大的方面来说有基本数据类型和引用数据类型两种,除开基本数据类型所规定的范围以外的所有数据类型都属于引用数据类型。基本数据类型基本数据类型包括一下四个类型:整型整型又细分为字节型,短整型,整型,长整型。字节型: 也叫byte型,byte类型时Windows下最小的数据类型单位,1字
转载
2023-07-04 13:41:23
68阅读
Bitter.Core 在聚联/分页聚联查询的时候,采用原生的MSSQL, MYSQL 语句查询,做过复杂高级项目的人知道,原生的聚合查询代码执行效率更高,更快,更容易书写,开发量最少。借助原生的MSSQL,MYSQL 客户端工具,将聚合查询的SELECT 语句写好,直接扔进Bitter ORM 框架就行了。业务层只关心写好相对应的 SELECT SQL 语句. 如下代码示例:#region /
转载
2021-05-24 08:36:52
86阅读
2评论
当我们查询之前,我们先构造一个查询对象的输出DTO。如下图代码:public class TScoreSearchDto { /// <summary> /// 分数 /// </summary> public Int32 FScore { get; set; } /// <summary> /// ...
转载
2021-01-15 13:11:00
102阅读
2评论
Bitter ORM 全网最轻量化高性能的 ORM 之 .NETFRAMEWORK 版本数据库连接
下面使.NETFRAMEWORK Bitter orm 数据库连接配置,如需 NETCORE 版本的,请参考教程:https://www.cnblogs.com/davidchild/p/14276611.html
Bitter.Core.netframework 相当的简单易用,下面附上使用示
转载
2021-04-07 12:55:45
196阅读
2评论
BitterCore 生产环境用了四年的 NETCore ORM 开源了, BitterCore 是一个高性能,粗暴易用型的NETCORE/NETFRAMEWORK 框架。我想你会爱上它的 。专为偷懒程序员而设计。够懒,寻求高性能,高稳定永远是程序员的追求。BitterCore 就是为此而生。 开源的来了,懒人程序员的福音,.NET 生态闭环太缺开源精神了, 拥抱开源! 前言: 本人不是
转载
2021-01-14 11:42:00
342阅读
2评论
Spark 开发原则坐享其成要省要拖跳出单机思维 应用开发原则 :坐享其成 : 利用 Spark SQL 优化能省则省、能拖则拖 : 节省数据量 , 拖后 Shuffle跳出单机思维 : 避免无谓的分布式遍历坐享其成设置好配置项,享受 Spark SQL 的性能优势,如钨丝计划、AQE、SQL functions钨丝计划:Tungsten 自定义了紧凑的二进制格式的数据结构,避免了 Java 对
转载
2024-01-28 01:18:02
100阅读
点赞
Spark扩展持久化RDD Cache缓存RDD CheckPoint 检查点缓存和检查点区别自定义分区存储与读取累加器广播持久化RDD Cache缓存RDD 通过 Cache 或者 Persist 方法将前面的计算结果缓存,默认情况下会把数据以缓存在 JVM 的堆内存中。但是并不是这两个方法被调用时立即缓存,而是触发后面的 action 算子时,该 RDD 将会被缓存在计算节点的内存中,并供后面重用。// cache 操作会增加血缘关系,不改变原有的血缘关系println(wordToOneR.
原创
2022-03-23 10:21:17
998阅读
一、什么是SparkApache Spark 是专为大规模数据处理而设计的快速通用的计算引擎。Spark是UC Berkeley AMP lab (加州大学伯克利分校的AMP实验室)所开源的类Hadoop MapReduce的通用并行框架。Spark,拥有Hadoop MapReduce所具有的优点;但不同于MapReduce的是——Job中间输出结果可以保存在内存中,从而不再需要读写HDFS,因
转载
2023-07-12 09:57:21
441阅读
1、Application application(应用)其实就是用spark-submit提交的程序。一个application通常包含三部分:从数据源(比方说HDFS)取数据形成RDD,通过RDD的transformation和action进行计算,将结果输出到console或者外部存储。2、Driver Spark中的driver感觉其实和yarn中Application Master的
转载
2023-11-02 10:32:42
202阅读
一、定义与特点定义
专为大规模数据处理而设计的快速通用的计算引擎,并形成一个高速发展应用广泛的生态系统。特点
速度快
内存计算下,Spark 比 Hadoop 快100倍易用性
80多个高级运算符跨语言:使用Java,Scala,Python,R和SQL快速编写应用程序。通用性
Spark 提供了大量的库,包括SQL、DataFrames、MLib、Gra
转载
2023-08-10 09:12:39
366阅读
spark架构设计 1 角色名称 Client,Driver program,cluster manager/Yarn,workerNode 2 角色作用 client:用户通过client提交application程序,shell命令等 Driver:启动sparkContext环境,将application程序转换成任务RDD和DAG有向图,与clustermanger进行资源交互,分配ta
转载
2023-12-09 15:40:46
163阅读
Spark官方文档: Spark Configuration(Spark配置)Spark主要提供三种位置配置系统:环境变量:用来启动Spark workers,可以设置在你的驱动程序或者conf/spark-env.sh 脚本中;java系统性能:可以控制内部的配置参数,两种设置方法:编程的方式(程序中在创建SparkContext之前,使用System.setProperty(“xx”,“xxx
原创
2017-07-03 11:19:00
6469阅读
点赞
引入 一般来说,分布式数据集的容错性有两种方式:数据检查点和记录数据的更新。 面向大规模数据分析,数据检查点操作成本非常高,须要通过数据中心的网络连接在机器之间复制庞大的数据集,而网络带宽往往比内存带宽低得多,同一时候还须要消耗很多其它的存储资源。 因此,Spark选择记录更新的方式。可是,假设更新
转载
2017-07-13 21:10:00
2606阅读
2评论
一、官网介绍 1 什么是Spark 官网地址:://spark.apache.org/ Apache Spark 是专为大规模数据处理而设计的快速通用的计算引擎。Spark是UC Berkeley AMP lab (加州大学伯克利分校的AMP实验室)所开源的类Hadoop MapReduce ...
转载
2021-08-03 09:25:00
2527阅读
2评论
一、分区的概念 分区是RDD内部并行计算的一个计算单元,RDD的数据集在逻辑上被划分为多个分片,每一个分片称为分区,分区的格式决定了并行计算的粒度,而每个分区的数值计算都是在一个任务中进行的,因此任务的个数,也是由RDD(准确来说是作业最后一个RDD)的分区数决定。 二、为什么要进行分区 数据分区, ...
转载
2021-08-03 14:38:00
3049阅读
2评论
本编主要基于B站尚硅谷的视频及文档做出的一些改写和添加自己的理
原创
2022-03-23 10:24:56
832阅读
# 监控Spark History的入门指南
作为一名刚入行的开发者,监控Spark History可能是一个令人生畏的任务。但不用担心,本文将引导你一步步实现监控Spark History的过程。通过本文,你将学会如何设置和使用Spark监控工具,确保你的Spark作业运行得更加高效和稳定。
## 监控Spark History的流程
首先,让我们通过一个表格来了解整个监控流程的步骤:
原创
2024-07-30 11:25:29
641阅读
Spark SQL原理解析前言:Spark SQL源码剖析(一)SQL解析框架Catalyst流程概述Spark SQL源码解析(二)Antlr4解析Sql并生成树Spark SQL源码解析(三)Analysis阶段分析前面已经介绍了SQL parse,将一条SQL语句使用antlr4解析成语法树并使用访问者模式生成Unresolved LogicalPlan,然后是Analysis阶段将Unre
转载
2023-10-11 09:47:32
37阅读
概述Spark 应用程序由一个在集群上运行着用户的 main 函数和执行各种并行操作的 driver program(驱动程序)组成。Spark 提供的主要抽象是一个弹性分布式数据集(RDD)RDD 可以从一个 Hadoop 文件系统或其他地方获得。了让它在整个并行操作中更高效的重用,也许会让 Spark persist(持久化)一个 RDD 到内存中。最后,RDD 会自动的从节点故障中恢复。Sp
转载
2023-09-13 20:36:07
118阅读