大数据篇:MapReduceMapReduce是什么?MapReduce源自于Google发表于2004年12月的MapReduce论文,是面向大数据并行处理的计算模型、框架和平台,而Hadoop MapReduce是Google MapReduce克隆版。如果没有MapReduce!那么在分布式计算上面将很难办,不好编程。在早期无法处理大数据的离线计算。编程中不易扩展性分布式计算任务一旦挂了,没            
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2023-11-24 21:10:51
                            
                                143阅读
                            
                                                                             
                 
                
                                
                     
                                    
                             
         
            
            
            
            什么是MapReduce
MapReduce是一个分布式计算框架; 它将大型数据操作作业分解为可以跨服务器集群并行执行的单个任务;适用于大规模数据处理场景;每个节点处理存储在该节点的数据;每个 job 包含Map和Reduce两部分MapReduce的设计思想1、分而治之简化并行计算的编程模型2、构建抽象模型开发人员专注于实现 Mapper 和 Reduce 函数3、隐藏系统层细节开发人员专注于业            
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2024-01-15 01:13:41
                            
                                137阅读
                            
                                                                             
                 
                
                                
                     
                                    
                             
         
            
            
            
             文章目录1.storm集群架构2.storm编程模型Topologies(拓扑)Streams(流)SpoutsBoltsStream groupingsTasksWorkers3.storm入门实例集群安装项目创建定义WordReaderSpout定义WordSplitBolt定义WordCountBolt定义main本地集群运行生产集群运行4.storm其他应用场景 1.storm集群架构A            
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2024-02-29 12:33:57
                            
                                28阅读
                            
                                                                             
                 
                
                                
                     
                                    
                             
         
            
            
            
            目录一、Kafka Streams概述1)Kafka Streams是什么2)流式计算与批量计算区别3)Kafka Streams特点二、Kafka Streams流处理拓扑1)相关概念2)Kafka Streams中两种定义流处理的方法3)流处理中的三种时间4)KTable和KSteam5)窗口三、Kafka Streams原理与架构1)流分区和任务2)线程模型3)本地状态存储4)容错四、简单应            
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2023-12-04 04:32:24
                            
                                107阅读
                            
                                                                             
                 
                
                                
                     
                                    
                             
         
            
            
            
                 大数据计算引擎分为离线计算和实时计算,离线计算就是我们通常说的批计算,代表是Hadoop MapReduce、Hive等大数据技术。实时计算也被称作流计算,代表是Storm、Spark Streaming、Flink等大数据技术。        计算引擎也在不            
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2023-09-20 10:38:12
                            
                                162阅读
                            
                                                                             
                 
                
                                
                     
                                    
                             
         
            
            
            
            
            一、前言1、从今天开始进行流式大数据计算的实践之路,需要完成一个车辆实时热力图2、技术选型:HBase作为数据仓库,Storm作为流式计算框架,ECharts作为热力图的展示3、计划使用两台虚拟机来打一个小型的分布式系统,使用Ubuntu系统二、HBase简介1、HBase是基于HDFS(Hadoop分布式文件系统)的NoSQL数据库,采用k-v的存储方式,所以查询速度相对比较快。2、下面画图比较            
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2023-08-09 15:30:33
                            
                                64阅读
                            
                                                                             
                 
                
                                
                     
                                    
                             
         
            
            
            
            1.定义是一个分布式运算程序的编程框架,能将用户编写的业务逻辑代码和自带默认组件整合成一个完成的分布式运算程序。2.优缺点2.1优点2.1.1易于编程只需要简单的实现一些接口,就可以完成一个分布式程序。2.1.2高容错性mr程序可以部署在多台机器上,其中一台挂了,可以把上面的计算任务转移到另外一个节点上运行,由hadoop内部自动完成。2.1.3良好的扩展性可以通过增加机器来有效扩展其计算能力。2            
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2023-08-08 17:13:50
                            
                                95阅读
                            
                                                                             
                 
                
                                
                     
                                    
                             
         
            
            
            
            一、前言1、从今天开始进行流式大数据计算的实践之路,需要完成一个车辆实时热力图2、技术选型:HBase作为数据仓库,Storm作为流式计算框架,ECharts作为热力图的展示3、计划使用两台虚拟机来打一个小型的分布式系统,使用Ubuntu系统二、HBase简介1、HBase是基于HDFS(Hadoop分布式文件系统)的NoSQL数据库,采用k-v的存储方式,所以查询速度相对比较快。2、下面画图比较            
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2024-06-07 20:16:56
                            
                                23阅读
                            
                                                                             
                 
                
                                
                     
                                    
                             
         
            
            
            
            流计算概述一、 流计算应用需求静态数据(支持决策分析而构建的数据仓库系统)可以利用数据挖掘和OLAP.OLTP(transaction)数据存储和管理,除了用数据仓库做,还可以用hdfs, 
  hive就是基于hdfs的数据仓库挖掘引擎除了用数据仓库,还可以用hadoop,spark 
  计算开始之前,数据已经存在了流数据特征:大量、快速、时变的流形式 
  数据量大,但是不十分关注存储(是没            
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2024-07-01 18:03:56
                            
                                68阅读
                            
                                                                             
                 
                
                                
                     
                                    
                             
         
            
            
            
            1、 MapReduce计算框架简介Mapreduce 是hadoop项目中的分布式运算程序的编程框架,是用户开发"基于hadoop的数据分析应用"的核心框架,Mapreduce 程序本质上是并行运行的。分布式程序运行在大规模计算机集群上,可以并行执行大规模数据处理任务,从而获得巨大的计算能力。谷歌公司最先提出了分布式并行编程模型MapReduce,Hadoop MapReduce是它的开源实现。            
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2023-11-30 16:21:12
                            
                                59阅读
                            
                                                                             
                 
                
                                
                     
                                    
                             
         
            
            
            
            流式大数据计算实践(3)----高可用的Hadoop集群一、前言1、上文中我们已经搭建好了Hadoop和Zookeeper的集群,这一文来将Hadoop集群变得高可用2、由于Hadoop集群是主从节点的模式,如果集群中的namenode主节点挂掉,那么集群就会瘫痪,所以我们要改造成HA模式(High Avaliable,高可用性)的集群,说白了就是设置一个备用的namenode节点,当线上使用的n            
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2023-09-08 20:03:59
                            
                                26阅读
                            
                                                                             
                 
                
                                
                     
                                    
                             
         
            
            
            
            需求描述:现在有一个文件,包含若干个字段(时间戳,手机号,...,上行流量,下行流量等),字段间以“\t“,分隔,数据格式如下,现在要统计出所有手机号的上行/下行流量总和。输入:时间戳 手机号  ... 上行流量  下行流量输出:手机号  总上行流量  总下行流量 总流量思路:框架传递给Map的数据是文件中的一行数据,首先将行切分成字符串数组,提取出要用的字            
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2024-07-16 06:52:09
                            
                                54阅读
                            
                                                                             
                 
                
                             
         
            
            
            
            流计算浅谈         流计算是什么?这个概念是和普通的计算区分的。普通的计算是通过 ETL 程序清洗上报的数据,然后把数据存入 HDFS,通过 MapReduce 的批处理 Job /Task对数据进行分区、分类、排序、计算等操作。,然后再通过quartz 定时调度任务,将Hbase数据做统计聚合至 前台页面,然            
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2024-08-27 17:53:48
                            
                                70阅读
                            
                                                                             
                 
                
                                
                     
                                    
                             
         
            
            
            
            一、大数据技术划分   二、流式计算历史演进  目前主流的流式计算框架有Storm/Jstorm、Spark Streaming、Flink/Blink三种。  Apache Storm是一个分布式实时大数据处理系统。Storm设计用于在容错和水平可扩展方法中处理大量数据。它是一个流数据框架,具有最高的摄取率。在Storm中,需要先设计一个实时计算结构,我们称之为拓扑            
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2024-07-04 09:36:30
                            
                                173阅读
                            
                                                                             
                 
                
                                
                     
                                    
                             
         
            
            
            
            流式计算的概念    实时获取来自不同数据源的海量数据,进行实时分析处理,获得有价值的信息,一般用于处理数据密集型应用。流式计算属于持续性、低时延、事件驱动型的计算作业。流式计算工作原理1.提交流式计算作业,流式计算作业属于常驻计算服务,必须预先定义好计算逻辑,并提交到流计算系统中,在系统运行期间,流式计算作业的逻辑是不可更改的2.加载流式数据进行流计算,流式计算系统中有多个流            
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2023-07-09 13:11:45
                            
                                334阅读
                            
                                                                             
                 
                
                                
                     
                                    
                             
         
            
            
            
            有关hdfs的链接http://hadoop.apache.org/docs/current/api/ (Apache Hadoop Main 2.7.1 API) http://slaytanic.blog.51cto.com/2057708/1101111/ (hdfs-site.xml 配置项说明) http://archive-primary.cloudera.com/cm5/instal            
                
         
            
            
            
            随着互联网的不断发展,行业内对于数据的处理能力和计算的实时性要求都在不断增加,随之而来的是计算框架的升级。经过了十余年开源社区的不断演进,现在计算框架已经从第一代的雅虎开源的Hadoop体系进化到目前主流的Spark框架,这两套框架的计算主要是从强依赖硬盘存储能力的计算发展到了内存计算,大大增强了计算力。下一代计算引擎,也就是第三代计算引擎,将会从计算实时性的角度突破,也就是今天要讲到的Flink            
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2023-11-07 01:52:13
                            
                                85阅读
                            
                                                                             
                 
                
                                
                     
                                    
                             
         
            
            
            
            前言在 Flink最佳实践(一)流式计算系统概述 中,我们详细讨论了流式计算系统中 时域、窗口、时间推理与正确性工具 等概念。本文将以这些概念为基础,逐一介绍 Flink 的 发展背景、核心概念、时间推理与正确性工具、安装部署、客户端操作、编程API 等内容,让开发人员对 Flink 有较为全面的认识并拥有一些基础操作与编程能力。一、发展背景1.1 数据处理架构在流处理器出现之前,数据处理架构主要            
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2024-03-10 21:40:40
                            
                                100阅读
                            
                                                                             
                 
                
                                
                     
                                    
                             
         
            
            
            
            目录SparkStreaming相关概念概述SparkStreaming的基本数据抽象DStream处理模式操作流程中细节StreamingContextStreamingContext对象的创建StreamingContext主要用法输入源DStream两种转化无状态转化操作有状态转化操作输出操作实践(最简单的wordCount)创建StreamingContext对象创建DStream对象对D            
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2024-03-30 20:33:11
                            
                                70阅读
                            
                                                                             
                 
                
                                
                    