摘要:2019年1月18日,由阿里巴巴MaxCompute开发者社区和阿里云栖社区联合主办的“阿里云栖开发者沙龙大数据技术专场”走近北京联合大学,本次技术沙龙上,阿里巴巴高级技术专家吴永明为大家分享了MaxCompute,基于Serverless的高可用大数据服务,以及MaxCompute低计算成本背后的秘密。以下内容根据演讲视频以及PPT整理而成。一、什么是MaxComputeBig Data
一、整体架构    从下至上依次分为数据采集层、数据计算层、数据服务层、数据应用层  数据采集层:以DataX为代表的数据同步工具和同步中心   数据计算层:以MaxComputer为代表的离线数据存储和计算平台   数据服务层:以RDS为代表的数据库服务(接口或者视图形式的数据服务)   数据应用层:包含流量分析平台等数据应用工具二、数据采集(离线数据同步)  数据采集主要分为日志采集
维度设计维度整合数仓优化经常通过维度的整合和拆分 步骤:确定粒度,选择维度,确定主维度,确定相关维度,确定维度属性 水平整合:数据源来自不同数据集。比如不同的部门的不同数据集,但是都会有商品价格,标题等可以整合的属性 垂直整合:相同数据集,可以根据来源表产出新旧,频率,热度等 历史归档缓慢渐变维度处理1 装载:阿里主要采用最简单粗暴的1天粒度的全量快照存储,不采用代理键。 2 对数据的清理要求较高
目录:简介pysparkIPython Notebook安装配置spark编写框架:首先开启hdfs以及yarn1 sparkconf2 sparkcontext3 RDD(核心)4 transformation(核心)          5 action(核心)当然也可以指定运行py程序简介:不可否认,sp
1、什么是大数据?在互联网技术发展到现今阶段,大量日常、工作等事务产生的数据都已经信息化,人类产生的数据量相比以前有了爆炸式的增长,以前的传统的数据处理技术已经无法胜任,需求催生技术,一套用来处理海量数据的软件工具应运而生,这就是大数据!  2、数据的处理技术处理海量数据的核心技术:海量数据存储:分布式海量数据运算:分布式  3、常用的大数据框架这些核心技术
自底向上,与OSI类似,通用框架下的大数据体系有七层:数据源、数据收集层、数据存储层、资源管理与服务协调层、计算引擎层、数据分析层及数据可视化层。
原创 2021-07-05 13:49:02
2367阅读
大数据之Scala基础完整使用一、概述1、为什么学习 Scala2、Scala 发展历史3、Scala 和 Java 关系4、Scala 语言特点二、Scala 环境搭建1、安装步骤2、测试三、Scala 插件安装四、HelloWorld 案例1、创建 IDEA 项目工程2、Maven 不支持 Scala 的开发,需要引入 Scala 框架。3、编写Helloword4、Scala 程序反编译5
这不马上要到金三银四了吗,最近小编整理了一套 5000 页的 Java 技术栈的学习手册, 新鲜出炉!此手册内容专注 Java技术,包括 JavaWeb,SSM,Linux,Spring Boot,MyBatis,MySQL,Nginx,Git,GitHub,Servlet,IDEA,多线程,集合,JVM,DeBug, Dubbo,Redis,算法,面试题等相关内容。IDEA DeBug调试技巧一
主要基于对现阶段一些常用的大数据开源框架技术的整理,只是一些简单的介绍,并不是详细技术梳理。可能会有疏漏,发现再整理。参考的太多,就不一一列出来了。这只是作为一个梳理,对以后选型或者扩展的做个参考。
转载 2021-06-13 21:47:52
167阅读
主要基于对现阶段一些常用的大数据开源框架技术的整理,只是一些简单的介绍,并不是详细技术梳理。可能会有疏漏,发现再整理。参考的太多,就不一一列出来了。这只是作为一个梳理,对以后选型或者扩展的做个参考。目录系统平台(Hadoop、CDH、HDP) 监控管理(CM、Hue、Ambari、Dr.Elephant、Ganglia、Zabbix、Eagle) 文件系统(HDFS、GPFS...
原创 2021-09-01 16:28:19
298阅读
**软考大数据技术框架深度解析** 在信息化时代的浪潮中,大数据技术成为了推动社会发展的重要力量。作为信息技术领域的一大热点,大数据技术在软考(计算机技术与软件专业技术资格考试)中也占据了举足轻重的地位。本文将对软考大数据技术框架进行深度解析,帮助考生更好地理解和掌握这一关键技术。 **一、大数据技术概述** 大数据技术是指从各种各样类型的数据中,快速获得有价值信息的能力。这些数据包括结构化
大数据离线部分HDFS1:HDFS的架构部分及工作原理NameNode:负责管理元素据,将信息保存在内存中DataNode:保存数据,以块的形式保存。启动后需要定时的向NameNode发送心跳,报告自身存储的块信息2:HDFS的上传过程3:HDFS的下载4:NameNode的元数据安全机制以记日志的形式将每一个操作写在磁盘的日志文件中,然后借助SecondaryNameNode的checkpoin
原创 2019-01-04 17:49:49
407阅读
1点赞
工业大数据是指在工业领域中,围绕典型智能制造模式,从客户需求到销售、订单、计划、研发、设计、工艺、制造、采购、供应、库存、发货和交付、售后服务、运维、报废或回收再制造等整个产品全生命周期各个环节所产生的各类数据及相关技术和应用的总称。其以产品数据为核心,极大延展了传统工业数据范围,同时还包括工业大数据相关技术和应用(狭义和广义)。数据可视化是关于数据视觉表现形式的科学技术研究。其中,这种数据的视觉
大数据技术学习进阶路线随着大数据技术的不断发展,大数据技术体系已经趋于成熟,由于大数据技术体系比较庞大,所以在学习大数据的时候首先应该根据自身的知识结构,找到一个适合的切入点。本节将介绍大数据技术学习需要经过的几个阶段,帮助想转大数据开发的同学,对大数据技术有个整体的把握。第一阶段Java语言基础:由于大数据开发,大多是基于Java语言进行的,所以Java语言开发是必需要掌握的。掌握技能如下图所
大数据框架 系统平台 Hadoop、CDH、HDP 监控管理 CM、Hue、Ambari、Dr.Elephant、Ganglia、Zabbix、Eagle 文件系统 HDFS、GPFS、Ceph、GlusterFS、Swift 、BeeGFS、Alluxio 资源调度 YARN、Mesos 协调框架
原创 2022-07-30 00:54:47
869阅读
工作四五年了,做了不少项目,学了不少技术框架,了解不不少设计思想,自身的技术积累也有不少了,今天用头脑风暴的方式梳理一下,可能不全,后面会不断完善。技术栈     1.java:集合、多线程、JVM原理     1)  Collection         List &
文章目录java集合框架简单介绍集合框架一览图java集合框架的优点和作用基本关系说明集合框架关于各种接口的描述集合框架关于各种类的描述collection接口的一些常用方法Map接口的一些常用方法 前言:java语法基础,博主已经更完了,接下来就要进入数据结构这新的篇章了,紧跟博主,从此让数据结构变得简单,让你爱上数据结构。 冰冻三尺,非一日之寒。学习数据结构是一个漫长的过程,有一句话所得
Hadoop生态圈 一 ,采集,数据从哪里来?主要包括flume等;一 ,存储,海量的数据怎样有效的存储?主要包括hdfs、Kafka;二,计算,海量的数据怎样快速计算?主要包括MapReduce、Spark、storm等;三,查询,海量数据怎样快速查询?主要为Nosql和Olap,Nosql主要包括Hbase、 Cassandra 等,其中olap包括kylin、impla等,其中Nosql主
架构图从下往上看,从数据采集和接入为始,抽取到计算平台,通过OneData体系,以“业务板块+分析维度”为架构去构建“公共数据中心”。基于公共数据中心在上层根据业务需求去建设消费者数据体系、企业数据体系、内容数据体系等核心数据资产,深度加工后,数据就可以发挥其价值被产品、业务所用。通过数据服务平台“OneService”提供统一数据服务。目前在这个服务之上正在构建两个智能化平台:数据智能平台和B
Dataphin是阿里巴巴集团OneData数据治理方法论内部实践的云化输出,一站式提供数据采、建、管、用全生命周期的大数据能力,以助力企业显著提升数据治理水平,构建质量可靠、消费便捷、生产安全经济的企业级数据中台。Dataphin兼容多种计算平台,并开放可拓展的能力,以适应不同行业客户的平台技术架构和特定诉求。Dataphin产品能力大图如下图所示基本概念:数据板块:(原名业务板块 < V
  • 1
  • 2
  • 3
  • 4
  • 5