大数据也是构建各类系统的时候一种全新的思维,以及架构理念,比如
原创 2022-08-05 22:37:11
237阅读
信息技术和互联网技术的发展,带来了全球数据的爆发式增长。超大规模的数据计算问题成为各大科技公司急需解决的世界级难题。2004年谷歌的MapReduce论文给出了一个可行的大数据计算模型,给大数据并行处理带来了巨大的革命性影响。随后大数据计算取得了飞速发展,针对更细化的大数据应用场景,各种优秀的大数据引擎不断涌现,呈现出百花齐放百家争鸣的景象。在国外一些社区,很多人将大数据计算引擎分成了四代(如下
实时计算是常见的大数据计算场景。业务部门需要实时反馈产品的被点击、浏览、收藏、购买、评价等数据,对时延的要求一般是秒级,甚至毫秒级。而批处理计算引擎一般需要几分钟或者几小时才能返回结果,显然无法满足该场景的计算需求。基于实时计算的需求,流式计算引擎应运而生。目前,应用得较多的流式计算引擎主要有Spark、Storm和Flink。典型的实时计算流程如下图所示,首先通过Flume实时采集数据,然后通过
     实时计算是常见的大数据计算场景。业务部门需要实时反馈产品的被点击、浏览、收藏、购买、评价等数据,对时延的要求一般是秒级,甚至毫秒级。而批处理计算引擎一般需要几分钟或者几小时才能返回结果,显然无法满足该场景的计算需求。基于实时计算的需求,流式计算引擎应运而生。目前,应用得较多的流式计算引擎主要有Spark、Storm和Flink。​   
原创 2022-10-25 18:32:20
438阅读
Flink 入门什么是FlinkApache Flink 是为分布式、高性能、随时可用以及准确的流处理应用程序打造的开源流处理框架Flink 官网Flink 的发展历史d    Flink 诞生于欧洲的一个大数据研究项目 StratoSphere。该项目是柏林工业大学的一个研究性项目。早期,Flink 是做 Batch 计算的,但是在 2014 年, StratoSphere 里面的核心成员孵化出
数据实时计算
转载 2019-07-30 11:04:00
263阅读
2评论
大数据分析(BDA)包括大数据的采集、存储、分析、展示。而其中分析是BDA的关键。说到分析,可以分为历史分析和实时分析。上次我们着重提过了历史分析,尤其是交互式历史分析,当然还有批处理式的历史分析。这次,我们回过头来再谈谈实时分析,包括流处理、CEP,等等。说到CEP,复杂事件处理(Complex Event Process),在2009年的时候我就有博文提及过。经过这么些年,CEP技术不断演进,
大数据中台架构1. 数据采集传输1.1 Flume 和 Logstash1.2 日志采集如何工作1.3 数据传输 Kafka2. 数据存储HDFSHBaseHive 和 PigMapReduce3. 数据计算&查询3.1 批计算和流计算3.2 Spark 和 Flink3.3 数据查询PrestoDruidKylin4. 数据可视化及分析 数据中台概念大火,大家对它的定义也五花八门,不
随着大数据实时处理需求的强劲增长,Storm的出现填补了大数据处理生态系统的缺失,并被越来越多的公司所采用。阿里巴巴集团数据平台事业部商家数据业务部正是最早使用Storm的技术团队之一。 《Storm实战:构建大数据实时计算 》是一本系统并且具有实践指导意义的Storm工具书和参考书,对Storm整个技术体系进行了全面的讲解,不仅包括对基本概念、特性的介绍,也涵盖了一些原理说明。 实战性很强,各章节都提供了一些小案例,同时对于本地,以及集群环境的部署有详细介绍,易于理解,操作性强。 《Storm实战:构建大数据实时计算 》一共分为10章:第1章全面介绍了Storm的特性、能解决什么问题,以及和其他流计算系统的对比;第2章通过实际运行一个简单的例子,以及介绍本地环境和集群环境的搭建,让读者对Storm有了直观的认识;第3章深入讲解了Storm的基本概念,同时实现一个Topology运行;第4章和第5章阐述了Storm的并发度、可靠处理的特性;第6章~第8章详细而系统地讲解了几个高级特性:事务、DRPC和Trident;第9章以实例的方式讲解了Storm在实际业务场景中的应用;第10章总结
原创 2014-08-15 15:05:37
894阅读
Storm 实战:构建大数据实时计算(阿里巴巴集团技术丛书,大数据丛书。大型互联网公司大数据实时处理干货分享!来自淘宝一线技术团队的丰富实践,快速掌握Storm技术精髓!)阿里巴巴集团数据平台事业部商家数据业务部 编著 ISBN 978-7-121-22649-62014年8月出版定价:59.00元 184页16开编辑推荐Storm以其简单、灵活、健壮而著称。随着大数据实时处理需求的强劲增长,St
转载 2014-08-15 14:52:00
161阅读
2评论
摘要 纯 .Net 自研大数据实时计算平台,在中通快递服务数百亿包裹,处理数据万亿计!将分享大数据如何落地以及设计思路,技术重难点。 目录 背景介绍 计算平台架构 项目实战 背景介绍 计算平台架构 分片实时计算 计算平台 数据统计模型 开源项目 项目实战 数据清洗 数据计算 汇总统计 分布式 总结
原创 2021-10-22 16:29:09
507阅读
本文作者为携程大数据平台负责人张翼。张翼浙江大学硕士毕业,2015年初加入携程,主导了携程实时数据计算平台的
转载 2021-08-05 09:38:35
718阅读
  常用的大数据实时计算框架有哪些?在大数据技术中,有离线计算、批量计算实时计算以及流式计算,其中,离线计算实时计算指的是数据处理的延迟;批量计算和流式计算指的是数据处理的方式。  Web应用、网络监控、传感监测、电信金融、生产制造等领域,对数据实时处理的需求不断增强,而Spark中的SparkStreaming实时计算框架就是为了实现对数据实时处理的需求而设计的。在电子商务中,淘宝、京东等网
转载 2021-03-21 13:04:02
709阅读
2评论
文章目录Spring Data ElasticSearch介绍1.1、SpringData介绍1.2、Spring Data Elasticsearch介绍引入依赖、yml配置、实体类继承ElasticsearchRepository接口使用ElasticsearchRestTemplate高级查询操作精确查询(term)全文查询(match)通配符查询(wildcard)模糊查询(fuzzy)
第1章:初识Hadoop1.1 数据数据! 我们生活在一个大数据的时代。各处都是数据1.2 数据的存储与分析 硬盘容量在扩大,但是读写数据没有改变。就会导致读取大数据数据变慢 那么就需要并行读取,但是会存在两个问题。 第一个问题: 硬件故障问题,故障容易照成数据丢失,所以需要进行备份。例如RAID、Hadoop的HDFS 第二个问题:不同磁盘的数据需要相互结合来完成计算,这里就需要用到Hado
点击上方蓝色字体,选择“设为星标”回复”资源“获取更多资源一开始需要全量导入kudu,这时候我们先用sqoop把关系数据数据导入临时表,再用impala从临时表导入kudu目标表由于sq...
转载 2021-06-10 21:53:19
383阅读
一开始需要全量导入kudu,这时候我们先用sqoop把关系数据数据导入临时表,再用impala从临时表导入kudu目标表 由于sqoop从关系型数据直接以parquet格式导入hive会有问题,这里默认hive的表都是text格式;每次导完到临时表,需要做invalidate metadata 表 ...
转载 2021-08-06 11:54:00
270阅读
2评论
大数据实时计算引擎 Flink 实战与性能优化
原创 2019-11-27 22:15:43
909阅读
点击上方蓝色字体,选择“设为星标”回复”资源“获取更多资源一开始需要全量导入kudu,这时候我们先用sqoop把关系数据数据导入临时表,再用impala从临时表导入kudu目标表由于sq...
转载 2021-06-10 21:53:18
448阅读
spark
原创 2023-02-09 10:41:36
478阅读
1点赞
  • 1
  • 2
  • 3
  • 4
  • 5