实时计算是常见的大数据计算场景。业务部门需要实时反馈产品的被点击、浏览、收藏、购买、评价等数据,对时延的要求一般是秒级,甚至毫秒级。而批处理计算引擎一般需要几分钟或者几小时才能返回结果,显然无法满足该场景的计算需求。基于实时计算的需求,流式计算引擎应运而生。目前,应用得较多的流式计算引擎主要有Spark、Storm和Flink。典型的实时计算流程如下图所示,首先通过Flume实时采集数据,然后通过
大数据中台架构1. 数据采集传输1.1 Flume 和 Logstash1.2 日志采集如何工作1.3 数据传输 Kafka2. 数据存储HDFSHBaseHive 和 PigMapReduce3. 数据计算&查询3.1 批计算和流计算3.2 Spark 和 Flink3.3 数据查询PrestoDruidKylin4. 数据可视化及分析 数据中台概念大火,大家对它的定义也五花八门,不
转载
2023-07-12 18:25:18
176阅读
大数据也是构建各类系统的时候一种全新的思维,以及架构理念,比如
原创
2022-08-05 22:37:11
237阅读
信息技术和互联网技术的发展,带来了全球数据的爆发式增长。超大规模的数据计算问题成为各大科技公司急需解决的世界级难题。2004年谷歌的MapReduce论文给出了一个可行的大数据计算模型,给大数据并行处理带来了巨大的革命性影响。随后大数据计算取得了飞速发展,针对更细化的大数据应用场景,各种优秀的大数据引擎不断涌现,呈现出百花齐放百家争鸣的景象。在国外一些社区,很多人将大数据的计算引擎分成了四代(如下
实时流处理简单概述:实时是说整个流处理相应时间较短,流式计算是说数据是源源不断的,没有尽头的。实时流处理一般是将业务系统产生的数据进行实时收集,交由流处理框架进行数据清洗,统计,入库,并可以通过可视化的方式对统计结果进行实时的展示。本文涉及到的框架或技术有 Flume,Logstash,kafka,Storm, SparkStreaming等。 实时流处理的的流程与技术选型 : 一、日志收
转载
2023-07-19 15:59:58
81阅读
实时计算是常见的大数据计算场景。业务部门需要实时反馈产品的被点击、浏览、收藏、购买、评价等数据,对时延的要求一般是秒级,甚至毫秒级。而批处理计算引擎一般需要几分钟或者几小时才能返回结果,显然无法满足该场景的计算需求。基于实时计算的需求,流式计算引擎应运而生。目前,应用得较多的流式计算引擎主要有Spark、Storm和Flink。
原创
2022-10-25 18:32:20
438阅读
大数据分析(BDA)包括大数据的采集、存储、分析、展示。而其中分析是BDA的关键。说到分析,可以分为历史分析和实时分析。上次我们着重提过了历史分析,尤其是交互式历史分析,当然还有批处理式的历史分析。这次,我们回过头来再谈谈实时分析,包括流处理、CEP,等等。说到CEP,复杂事件处理(Complex Event Process),在2009年的时候我就有博文提及过。经过这么些年,CEP技术不断演进,
数据实时计算
转载
2019-07-30 11:04:00
263阅读
2评论
随着大数据实时处理需求的强劲增长,Storm的出现填补了大数据处理生态系统的缺失,并被越来越多的公司所采用。阿里巴巴集团数据平台事业部商家数据业务部正是最早使用Storm的技术团队之一。
《Storm实战:构建大数据实时计算 》是一本系统并且具有实践指导意义的Storm工具书和参考书,对Storm整个技术体系进行了全面的讲解,不仅包括对基本概念、特性的介绍,也涵盖了一些原理说明。
实战性很强,各章节都提供了一些小案例,同时对于本地,以及集群环境的部署有详细介绍,易于理解,操作性强。
《Storm实战:构建大数据实时计算 》一共分为10章:第1章全面介绍了Storm的特性、能解决什么问题,以及和其他流计算系统的对比;第2章通过实际运行一个简单的例子,以及介绍本地环境和集群环境的搭建,让读者对Storm有了直观的认识;第3章深入讲解了Storm的基本概念,同时实现一个Topology运行;第4章和第5章阐述了Storm的并发度、可靠处理的特性;第6章~第8章详细而系统地讲解了几个高级特性:事务、DRPC和Trident;第9章以实例的方式讲解了Storm在实际业务场景中的应用;第10章总结
原创
2014-08-15 15:05:37
894阅读
Storm 实战:构建大数据实时计算(阿里巴巴集团技术丛书,大数据丛书。大型互联网公司大数据实时处理干货分享!来自淘宝一线技术团队的丰富实践,快速掌握Storm技术精髓!)阿里巴巴集团数据平台事业部商家数据业务部 编著 ISBN 978-7-121-22649-62014年8月出版定价:59.00元 184页16开编辑推荐Storm以其简单、灵活、健壮而著称。随着大数据实时处理需求的强劲增长,St
转载
2014-08-15 14:52:00
161阅读
2评论
摘要 纯 .Net 自研大数据实时计算平台,在中通快递服务数百亿包裹,处理数据万亿计!将分享大数据如何落地以及设计思路,技术重难点。 目录 背景介绍 计算平台架构 项目实战 背景介绍 计算平台架构 分片实时计算 计算平台 数据统计模型 开源项目 项目实战 数据清洗 数据计算 汇总统计 分布式 总结
原创
2021-10-22 16:29:09
507阅读
实时计算数据架构的演变
原创
2021-09-01 13:36:06
353阅读
介绍概述 Apache Flink是一个面向数据流处理和批量数据处理的可分布式的开源计算框架,它基于同一个Flink流式执行模型(streaming execution model),能够支持流处理和批处理两种应用类型。由于流处理和批处理所提供的SLA(服务等级协议)是完全不相同, 流处理一般需要支持低延迟、Exactly-once
目录0-前言1-实时计算2-实时计算应用场景2.1-实时智能推荐2.2-实时欺诈检测2.3-舆情分析2.4-复杂事件处理2.5-实时机器学习3-实时计算架构4-实时数仓解决方案 0-前言本文分为四个章节介绍实时计算,第一节介绍实时计算出现的原因及概念;第二节介绍实时计算的应用场景;第三节介绍实时计算常见的架构;第四节是实时数仓解决方案。1-实时计算实时计算一般都是针对海量数据进行的,并且要求为秒
Flink 入门什么是FlinkApache Flink 是为分布式、高性能、随时可用以及准确的流处理应用程序打造的开源流处理框架Flink 官网Flink 的发展历史d Flink 诞生于欧洲的一个大数据研究项目 StratoSphere。该项目是柏林工业大学的一个研究性项目。早期,Flink 是做 Batch 计算的,但是在 2014 年, StratoSphere 里面的核心成员孵化出
RTBDA概述当被分解到其最简单的形式时,大数据分析包括两部分,以便将自身与数据仓库和商业智能进行区分:实时行动分布式,并行处理大数据分析能够解决处理大量无关且不能存放在一个单一的服务器或数据库的数据集所带来的普遍的挑战问题。而这个问题可以通过使用分布式并行处理分布在多个服务器的大型数据集得以解决,每台服务器处理并行数据的一部分。大数据分析可以与结构化和非结构化数据工作,因为它并不需要一个特定的结
第1章:初识Hadoop1.1 数据!数据! 我们生活在一个大数据的时代。各处都是数据1.2 数据的存储与分析 硬盘容量在扩大,但是读写数据没有改变。就会导致读取大数据,数据变慢 那么就需要并行读取,但是会存在两个问题。 第一个问题: 硬件故障问题,故障容易照成数据丢失,所以需要进行备份。例如RAID、Hadoop的HDFS 第二个问题:不同磁盘的数据需要相互结合来完成计算,这里就需要用到Hado
Spark Streaming 是 Spark 核心 API 的一个扩展,可以实现高吞吐量的、具备容错机制的实时流数据的处理。Spark Streaming 支持从多种数据源获取数据,包括 Kafka、Flume、Twitter、ZeroMQ、Kinesis 以及 TCP Sockets。从数据源获取数据之后,可以使用诸如 map、reduce、join 和 window 等高级函数进行复杂算法的
转载
2023-10-19 09:36:21
92阅读
本文作者为携程大数据平台负责人张翼。张翼浙江大学硕士毕业,2015年初加入携程,主导了携程实时数据计算平台的
转载
2021-08-05 09:38:35
718阅读
常用的大数据实时计算框架有哪些?在大数据技术中,有离线计算、批量计算、实时计算以及流式计算,其中,离线计算和实时计算指的是数据处理的延迟;批量计算和流式计算指的是数据处理的方式。 Web应用、网络监控、传感监测、电信金融、生产制造等领域,对数据实时处理的需求不断增强,而Spark中的SparkStreaming实时计算框架就是为了实现对数据实时处理的需求而设计的。在电子商务中,淘宝、京东等网
转载
2021-03-21 13:04:02
709阅读
2评论