1.出于吞吐量以及系统压力上的考虑,并不是新增一条数据记录就采集一次,而是几句下面的原则,按照批次对数据进行采集 数据大小限制:当达到限制条件的时候,把目前采集到的新数据作为一批(例如512kb写一批) 时间阈值限制:当时间达到一定条件的时候,也会把目前采集到的新数据作为一批,避免在数据量少的情况下
原创
2022-01-16 13:37:29
891阅读
摘要:2019年1月18日,由阿里巴巴MaxCompute开发者社区和阿里云栖社区联合主办的“阿里云栖开发者沙龙大数据技术专场”走近北京联合大学,本次技术沙龙上,阿里巴巴高级技术专家吴永明为大家分享了MaxCompute,基于Serverless的高可用大数据服务,以及MaxCompute低计算成本背后的秘密。以下内容根据演讲视频以及PPT整理而成。一、什么是MaxComputeBig Data
转载
2024-05-11 23:26:41
54阅读
一、整体架构 从下至上依次分为数据采集层、数据计算层、数据服务层、数据应用层 数据采集层:以DataX为代表的数据同步工具和同步中心 数据计算层:以MaxComputer为代表的离线数据存储和计算平台 数据服务层:以RDS为代表的数据库服务(接口或者视图形式的数据服务) 数据应用层:包含流量分析平台等数据应用工具二、数据采集(离线数据同步) 数据采集主要分为日志采集
转载
2023-12-13 16:07:07
624阅读
分享:范伦挺-高级运维专家编辑:白凡讲师介绍:首先简单介绍一下我自己,我叫范伦挺,也算是运维的老兵了,大概 2008年开始进入运维行业,现在就职于阿里巴巴计算平台事业部大数据基础工程技术团队。先后负责过阿里 MaxCompute、AnalyticDB、PAI等大数据产品运维工作,目前主要专注于实时计算平台 Stream-Compute 的运维工作。右手边是我们团队的微信公众号,会经常推一些文章来介
原创
2021-03-18 21:08:55
2002阅读
大数据之路:阿里巴巴大数据实践简介:在Alibaba集团内,数据人员面临的现实情况
原创
2022-09-18 08:29:09
1284阅读
简介:介绍MaxCompute和阿里巴巴内部基于MaxCompute的大数据开发套件,并对在数据开发过程中经常遇到的问题和相关解决方案进行介绍。前言:-更多关于数智化转型、数据中台内容请加入阿里云数据中台交流群—数智俱乐部和关注官方微信公总号(文末扫描二维码或点此加入)-阿里云数据中台官网https://dp.alibaba.com/index数据只有被整合和计算,才能被用于洞察商业规律,挖掘潜在
转载
2020-08-11 17:35:59
380阅读
阿里数据人都在用的内部技术经验关注数智化转型俱乐部,数智化不迷路摘要服务架构的每次升级,均在性能、稳定性、扩
转载
2022-06-30 11:42:36
129阅读
简介: 介绍MaxCompute和阿里巴巴内部基于MaxCompute的大数据开发套件,并对在数据开发过程中经常遇到的问题和相关解决方案进行介绍。前言:-更多关于数智化转型、数据中台内容请加入阿里云数据中台交流群—数智俱乐部 和关注官方微信公总号(文末扫描二维码或点此加入)-阿里云数据中台官网 https://dp.alibaba.com/index数据只有被整合和计算,才能被用于洞察商业规律,挖
转载
2020-08-11 19:51:38
432阅读
阿里数据人都在用的内部技术经验关注数智化转型俱乐部,数智化不迷路摘要介绍MaxCompute和阿里巴巴内部基
转载
2022-07-04 10:00:18
425阅读
阿里数据人都在用的内部技术经验关注数智化转型俱乐部,数智化不迷路摘要相对于离线批处理技术,流式实时处理技术作
转载
2022-07-04 09:54:12
169阅读
2019杭州云栖大会大数据技术专场,由阿里云通用计算平台负责人关涛带来以 “阿里巴巴大数据技术关键进展及展望” 为主题的演讲。本文首先讲解了从阿里巴巴的角度看待大数据领域的客户价值迁移,概览了核心技术的发展点,最后针对如何构建智能化大数据平台的相关工作进行了介绍,从引擎优化到 “自动驾驶”,并
转载
2019-11-06 15:43:00
167阅读
2评论
简介: 相对于离线批处理技术,流式实时处理技术作为一个非常重要的技术补充,在阿里巴巴集团内被广泛使用。前言:-更多关于数智化转型、数据中台内容请加入阿里云数据中台交流群—数智俱乐部 和关注官方微信公总号(文末扫描二维码或点此加入)-阿里云数据中台官网 https://dp.alibaba.com/index来源:数智化转型俱乐部数据价值是具有时效性的,在一条数据产生的时候,如果不能及时处理并在业务
转载
2020-08-20 11:58:04
395阅读
作为一名热爱数据分析、通过努力拿到心仪offer的学生,是许许多多通过努力实现目标的学生中的普通一员。一路走来,我把自己的经历按照时间线写下来,中间穿插我的经验,在记录自己工作的同时,希望能给想要进入数据分析师岗位的学弟学妹们一点点的小收获。一、本科4年,初识数学建模,爱上统计从小就特别喜欢数学,高考146,大一时特别顺理成章的参加了数学建模的校内比赛,接着一直到大三,参加各种数学建模比赛,也是在
转载
2023-07-25 16:26:43
2阅读
阿里巴巴集团离线大数据处理平台介绍上周报名参加了2013阿里巴巴暑期学校,课程为期两天,主要介绍阿里巴巴离线大数据处理平台(开放数据处理服务ODPS)。这里通过博客形式与大家分享一下。暑期学校官网:http://102.alibaba.com/competition/dataSummer.htm备注:该课程面向各高校院所的在读研究生,属于公开课程,且主要介绍系统的基本架构,并未对实现细节做过多阐述
原创
2013-07-15 21:38:26
2856阅读
点赞
大家好,我是云祁!这两天又翻出了《大数据之路:阿里巴巴大数据实践》,重新读了数据建模那部分的内容,依旧感觉受益良多,遂整理了笔记分享给大家。数据建模数据建模在这本书占据了三分之一篇幅,可见其重要性!9.1 典型的数据仓库建模方法论9.1.1 ER模型传统关系型数据库的ER模型是基于具体业务实体的,而大数据领域的ER模型是建立于业务主题之上的。更着重描述业务主题之间的关系,将具体业务实体整合到了业务
转载
2022-11-14 17:52:25
396阅读
坐过飞机的朋友应该有过类似经验,不知道在哪才能买到或知道机票的真实价格。机场、旅行社、网站、代办点,都有相关信息,太多了以至于不知道哪才便宜。那该怎么办呢?中间人收取中介费用合理,但要有个度,我发现在这块上中间人根据情况不同,给出的价格也不一样。因此很多人花了不少钱坐飞机,都给中间人蒙了。似乎蒙了就蒙了,没关系,大爷我有的是钱,那好,我说的这些对您来说没有任何价值,你可以走了。其实有很
转载
精选
2005-10-26 11:36:47
727阅读
一个打工者失业不稀奇,失业再找工作。可就是有一点,失业期间没人发工资。这期间怎么过呢?勤俭持家,细水长流是我多年来养成的习惯,提前做好积蓄,免得失业的时候没钱花。花着积蓄找着兼职,慢慢再找个工作。哈哈!反正想法挣钱才是硬道理。
原创
2022-01-14 13:40:09
17阅读
用户画像在阿里巴巴旗下的淘宝网、虾米音乐上都不乏个性化推荐场景,淘宝、天猫平台上的众多商家则需要通过用户调研和产品研发来把握产品的目标人群和人群偏好,从而对用户投其所好。对用户有深刻的理解是网站推荐、企业经营制胜的重要 环。在传统企业中,获取用户的反馈信息耗时长、结果缺失,是个难关。然而 随着大数据热潮的兴起,快速捕捉海量用户行为并精确分析人群偏好等商业信息已经成为可能。作为个性化技术的重要基础,相比于传统企业的购物篮分析、问卷调查,在用户 画像的塑造上具备技术的天然优势。阿里全域数据提供
原创
2021-08-19 11:09:58
369阅读
阿里巴巴云原生大数据运维平台 SREWorks,沉淀了团队近10年经过内部业务锤炼的 SRE 工程实践,今天正式对外开源,秉承“数据化、智能化”运维思想,帮助运维行业更多的从业者采用“数智”思想做好高效运维。
原创
2022-03-22 15:57:39
937阅读
aaS单租户大数据产品架构基于IaaS单租户大数据产品架构如上图所示,架构底层通常利用HDFS2实现;基于HDFS2之上搭建Hadoop Yarn或MESOS等资源管控平台;在其之上再实现具体的计算模型,如MR、Hive、HBASE以及Spark等。在这类生态环境中,IaaS平台通常作为同一租户存在,当用户产生新需求时,通过IaaS平台申请一批集群(虚机),再这些集群上部署相应的开源产品。从隔离的
原创
2021-03-17 21:36:34
818阅读