DataX 是一款支持任意异构数据系统离线数据交换工具、框架、平台,实现了在任意数据处理系统(RDBMS/Hdfs/Local filesystem)之间数据交换。目前DataX支持数十种各类数据存储、计算系统,每天为阿里集团传输数据高达数十T。DataX服务客户不仅仅局限于三淘、支付宝、阿里巴巴B2B,阿里集团外部客户有大众点评、蘑菇街等也在采用Da
阿里datav是近两年阿里推出一款市局大屏应用,主要是用于1920*1080以上大屏幕数据展示,小屏幕报表还有个QuickBI。 网络上还有网易帆软之类有类似的产品。datav网易有数虽然datav提供了一些自带组件(38款)有列表柱状图一些地图 但实际上这些组件还是太少,难以满足更多需求。 很多组件样式非常固定没有什么改造空间,这个时候就需要用datav自定义组件功
转载 2024-01-31 16:10:19
150阅读
https://github.com/aliyun/MaxCompute-Spark/wiki/02.-Spark-on-Dataworks ...
转载 2021-08-16 11:01:00
176阅读
# 阿里DataWorks与Hadoop架构关系解析 作为一名刚入行开发者,理解阿里DataWorks与Hadoop架构关系是至关重要。本文将通过流程图、状态图、序列图以及代码示例,帮助你深入理解这两者联系。 ## 阿里DataWorks与Hadoop架构概述 阿里DataWorks是一个数据研发平台,它提供了数据集成、开发、测试、发布等一系列功能。而Hadoop是一个开源分布式
原创 2024-07-24 10:39:42
241阅读
阿里Dataworks架构深入探讨 阿里Dataworks作为一款数据集成与处理平台,广泛应用于各行业数据分析管理。其架构设计灵活,能够支持大规模数据高效处理分析。本篇文章将深入探讨其架构原理、技术实现,并结合实例进行分析,助力大家更好地理解阿里Dataworks设计理念应用场景。 ## 背景描述 在互联网快速发展背景下,数据体量与复杂性不断增加。阿里Dataworks
原创 5月前
38阅读
DataWorks阿里巴巴自主研发,支撑阿里巴巴经济体 99% 数据业务建设治理,每天数万名数据开发算法开发工程师在使用。从 2010 年起步到目前版本,经历了多次技术变革架构升级,也遗留了大量历史包袱。技术创新和业务发展,相辅相成但也互为掣肘。存在需求接入慢,代码牵一发而动全身,环境复杂等问题,沉疴已久。历次迭代均未从根基上升级 DataWorks ,仅仅是一些性能提升、工程结
1 DataWorks工作空间配置数据源链接URL:​​https://setting-cn-beijing.data.aliyun.com/?defaultProjectId=80602#/dataSource​​2 数据源配置2.1 数据源类型选择关系型数据库:MySQL、SQL Server、PostgreSQL、Oracle、DM、DRDS、PolarDB、HybridDB for MyS
原创 精选 2023-02-06 00:31:22
1302阅读
3点赞
什么是DataWorks?  一个大数据开发治理平台,集数据集成,数据开发,数据地图,数据质量,数据服务等于一体,一站式开发管理界面。  DataWorks支持多种计算存储引擎服务,包括离线计算MaxCompute、开源大数据引擎E-MapReduce、实时计算(基于Flink)、机器学习PAI、云原生数据仓库 AnalyticDB for PostgreSQL,云原生数据仓库Analytic
目录一、DataFrame是什么二、DataSet是什么三、DataFrame三、RDD、DataFrame、DataSet之间互相转换四、spark读取1、对于Hive2、对文件操作3、对数据库操作五、hint与AQE六、spark sql是如何选择join策略?1、SparkSQL支持三种Join算法2、Hash Join3、Broadcast Hash Join 4、Shuff
转载 2024-05-15 13:35:43
41阅读
序言整理一下SparkSql DataSet Api使用方式与心得cuiyaonan2000@163.com参考资料: Dataset (Spark 3.2.1 JavaDoc)Dataset (Spark 3.2.1 JavaDoc) Getting Started - Spark 3.2.1 Documentation  -----官网用例背景在使用sparksql时候,应用
转载 2024-04-15 23:54:55
35阅读
秋招第三弹:oppo一面-大数据开发工程师写在最前:秋招以来一直在冲,因为事情比较多,对于笔试面试一直没有复盘,现在靠仅存记忆把面试一些问题记录下来,尽可能记录出能回忆到问题,但可能记不是很全。时长:70min左右自我介绍问项目,问不深,大概一些设计数据类型、业务线、业务逻辑怎么处理、怎么处理脏数据、模型怎么设计?数仓建模这个问题也是比较重要,被问到几率也很高spark OOM
大家好,我是 V 哥。DataWorks阿里云提供大数据开发治理平台,它集成了多种大数据引擎,提供了从数据采集、
阿里DataWorks是一种用于构建和管理数据仓库架构工具。对于刚入行小白来说,这可能是一个相对陌生领域。下面是一个关于如何实现阿里DataWorks数仓架构步骤表格: | 步骤 | 描述 | | --- | --- | | 步骤1 | 创建项目 | | 步骤2 | 创建数据源 | | 步骤3 | 创建表 | | 步骤4 | 定义数据抽取任务 | | 步骤5 | 定义数据处理任务 | |
原创 2023-12-30 11:04:20
223阅读
# 深入理解阿里DataWorks整体架构 随着大数据技术快速发展,企业对于数据处理分析需求日益增加。阿里DataWorks作为一种全面的数据开发管理平台,提供了强大功能,帮助企业从多源数据中提取、转换和加载(ETL),并为数据分析可视化提供支持。本文将介绍DataWorks整体架构,并结合代码示例流程图,帮助读者更好地理解其功能应用。 ## DataWorks整体架构概
原创 10月前
413阅读
       云平台近几年在飞速发展,有些公司也会把自己在线业务离线数据业务迁移到阿里云上,一方面节省研发成本,另一方面服务更加稳定,下面我以自己粗浅认识对比下两者。     2021年7月又换了一家公司,又用回了原生大数据组件,之前3年都用阿里云,最近觉得很不适应,对两者区别有了更多感受,再回来总结下。指标自建集
转载 2024-05-28 10:14:37
526阅读
本文整理自云栖社区之前对阿里搜索事业部资深搜索专家蒋晓伟老师一次采访,蒋晓伟老师,认真而严谨。在加入阿里之前,他曾就职于西雅图脸书,负责过调度系统,Timeline InfraMessenger项目。而后在微软SQL Server引擎担任过Principal Engineer,负责关系数据库架构工作。2014年加入阿里以后,作为阿里搜索事业部资深搜索专家,他负责搜索工程数据团队。谈起
转载 2024-01-05 21:35:02
49阅读
   1、SparkStreaming && Storm区别?答: SparkStreaming 是微批处理,不是真正实时,它实时性取决于自定义间隔是多大。 Storm是真正意义上实时处理,因为它是一条一条处理数据。但Storm吞吐量比起SparkStreaming是要小很多。 SparkStreaming依托于Spark
转载 2024-04-17 15:25:48
55阅读
1、基本概念(了解)  ①流(Streaming):       是一种数据传送技术,它把客户机收到数据变成一个稳定连续流,源源不断地送出,使用户听到声音或看到图象十分平稳,       而且用户在整个文件送完之前就可以开始在屏幕上浏览文件。   ②常见流式计算框架       Apache Storm       Spark Streaming       Apache Flink  
一、Spark Streaming概述1.1 Spark Streaming是什么?Spark Streaming用于流式数据处理。Spark Streaming支持数据输入源很多,例如:Kafka、Flume、Twitter、ZeroMQ简单 TCP套接字等等。数据输入后可以用 Spark 高度抽象原语如:map、reduce、join、window等进行运算。而结果也能保存在很多地方
日前,由阿里数据打造智能数据构建与管理Dataphin,重磅上线阿里云-公共云,开启智能研发版本公共云公测!在此之前,Dataphin以独立部署方式输出并服务线下客户,已助力多家大型客户高效自动化构建企业数据中台,不仅大幅度提升大数据研发效率,实现数据资产标准化管理,更通过数据服务体系让数据智能驱动业务。智能数据构建与管理Dataphin是企业在建设数据中台中必不可少核心组成部分,是阿里
  • 1
  • 2
  • 3
  • 4
  • 5