简述Zookeeper 是一个开源的分布式的,为分布式框架提供协调服务的 Apache 项目。它是一个为分布式应用提供一致性服务的软件,提供的功能包括:配置维护、域名服务、分布式同步、组服务等。zookeeper工作机制Zookeeper从设计模式角度来理解:是一个 于观察者模式设计的分布式服务管理框架,它负 责 存储和管理大家都关心的数据,然后接受观察者的 注册,一旦这些数据的状态发生变化,Z
大数据:分享大数据基础语法1计算机理论介绍2编程基础--进制分类、进制转换进制就是进位制。指的是我们来表示一个数字的时候进位的制度。进制分类计算机中,常用的进制有以下几种:进制描述示例备注二进制使用0和1来描述所有的自然数0,1,10,11,100,101使用0b开头八进制使用0-7来描述所有的自然数4,5,6,7,10,11,12使用0开头十进制使用0-9来描述所有的自然数6,7,8,9,10
原创 2020-03-11 16:37:46
1750阅读
一、什么是FlinkFlink起源于德国柏林工业大学、柏林洪堡大学和哈索普拉特纳的博士生和研究生联合开展的项目。Flink是一个分布式流和批处理数据结合的统一计算框架,其核心是一个提供了数据分发以及并发化计算的流数据处理引擎。Flink在流引擎之上构建批处理,覆盖本机迭代,托管内存和程序优化。二、数据流开发流程1.抽象层次SQL                                  
原创 2021-03-07 20:28:14
677阅读
  大数据presto  默认的配比是query.max-memory-per-node的值在jvm重点的Xmx的10%左右即可。   presto官网​​  https://prestodb.io/docs/current/release/release-0.215.html​​   日常维护:  1、问题:maxRequestsQueuedPerDestinatio  日
原创 2022-06-13 10:45:20
614阅读
1、Redis概述  Redis是一个开源,先进的key-value存储,并用于构建高性能,可扩展的应用程序的完美解决方案。  Redis的三个主要特点:  Redis数据库完全在内存中,使用磁盘仅用于持久性。  相比许多键值数据存储,Redis拥有一套较为丰富的数据类型。String,Li ...
转载 2021-08-11 11:00:00
207阅读
2评论
一、安装: 1 解压然后把mysql的驱动放在$SQOOP_HOME/lib 目录中2. conf/sqoop-en.sh export HADOOP_COMMON_HOME=/home/hadoop/hadoop/hadoop-2.3.0export HADOOP_MAPRED_HOME=/home/hadoop/hadoop/hadoop-2.3.0 注意事项 1.数据库驱动:在执行s...
原创 2021-07-29 10:47:17
756阅读
在当今数字化时代,大数据已经成为企业发展的必争之地。作为全球领先的信息通信解决方案供应商,华为一直致力于为客户提供可靠、高效的大数据解决方案。其中,OSPF作为大数据网络的核心协议之一,发挥着至关重要的作用。 OSPF(Open Shortest Path First)是一种链路状态路由协议,用于在大规模IP网络中自动计算路由信息。在大数据网络中,OSPF可以帮助数据中心实现高速、高效的数据传输
原创 2024-03-05 12:08:21
30阅读
HDFS
原创 2022-01-12 15:58:30
99阅读
hadoop:是一个开源软件平台,它本身不能完成特定功能,但是可以利用服务器集群,对海量数据进行分布式处理。一、hadoop组件:HDFS(分布式文件系统); YARN(运算资源调度系统); Mapreduce(分布式运算编程框架);二、点击流框架分析:数据采集:定制开发采集程序,或使用开源框架FLUME;数据预处理:定制开发mapreduce程序运行于hadoop集群;数据仓库技术:基于hado
原创 2022-04-22 10:22:53
127阅读
Mapreduce是一个分布式运算程序的编程框架,是用户开发“基于hadoop的数据分析应用”的核心框架。Mapreduce分布式运算程序往往分2个阶段:map阶段:并发实例,各司其职,互不干涉,完全并行; reduce阶段:并发实例,互补干涉,但它们的数据依赖上一个阶段实例输出; mrapplication master 负责监管map和reduce。Mapreduce实现两个表的join:方式
原创 2022-04-22 10:31:09
79阅读
当你真心渴望追求某种事物的话,整个宇宙都会联合起来帮你完成。——牧羊少年奇幻之旅
原创 2023-08-07 11:08:04
227阅读
例如:假设要对8亿个正整数进行排序(000000000-999999999),该如何操作? 分析:首先,确认这些数是不是不重复的,这点很重要,8亿个9整数占用内存很庞大,用计算机直接一次性进行处理显然不现实,800,000,000*4Byte=3.0G。为此可以利用Bloom Filter建立N个哈希函数的映射集;或者使用导入数据库的方法;还可以使用bit位的方法...... 1、分段排序
原创 2013-04-14 11:19:35
883阅读
1点赞
4 大数据协作框架sqoop Hadoop 2.x HDFS YARN MapReduce Zookeeper Hive 对日志类型的海量数据 hdfs mr, hive - hql 一、面临的问题 第一个问题:hdfs 文件来源于哪里? 数据怎样存储到hdfs ? 海量 现实中的数据来源于两个方 ...
转载 2021-09-22 18:18:00
134阅读
2评论
大数据主要解决: 大数据的特点: nameNode就像是目录 相当于实实在在的数据 辅助nameNode工作。HDFS负责文件的存储 YARN: 节点=服务器/电脑 整个集群资源的老大: 整个集群中单个节点的老大:
原创 2022-11-21 06:58:13
229阅读
一、nutch简介 nutch是大名鼎鼎的Doug Cutting发起的爬虫项目,nutch孵化了现在大数据处理框架Hadoop。在nutch V 0.8.0 版本之前,Hadoop是nutch的一部分,从nutch V0.8.0开始,HDFS和MapReduce从nutch中剥离出成为Hadoop。v0.8.0之后,nutch就完全构建在Hadoop的基础上了。 Nutch是一个开源的网络爬...
原创 2021-07-29 10:42:43
455阅读
Logstash是一款开源的数据收集引擎,具备实时管道处理能力。简单来说,logstash作为数据源与数据存储分析工具之间的桥梁,结
原创 2022-01-12 15:41:34
125阅读
yarn: 运算资源(jar包、内存、cpu、配置文件)调度系统。一、mapreduce提交job运行在yarn流程:yarn的调度机制有:队列(先进先出)、fair、capacity;yarn只负责程序运行所需资源的分配回收等调度任
原创 2022-01-12 15:49:22
71阅读
hadoop:
原创 2022-01-12 15:59:26
224阅读
Logstash是一款开源的数据收集引擎,具备实时管道处理能力。 简单来说,logstash作为数据源与数据存储分析工具之间的桥梁,结合ElasticSearch以及Kibana,能够极大方便数据的处理与分析。通过200多个插件,logstash可以接受几乎各种各样的数据。包括日志、网络请求、关系型数据库、传感器或物联网等.Logstash工作过程 如上图,Logstash的数据处理过程主要包括:
原创 2022-04-22 10:06:04
98阅读
Spark是一种快速、通用、可扩展的大数据计算引擎,是MapReduce的替代方案,而且兼容HDFS、Hive,可融入Hadoop的生态系统,以弥补MapReduce的不足。Spark特点:1、快 ,与MapReduce相比,Spark基于内存的运算要快100倍以上;2、易用 ,支持Java、Python和Scala的API,还支持超过80种高级算法;3、通用,可以用于批处理、交互式查询(Spar
原创 2022-04-22 10:08:02
189阅读
  • 1
  • 2
  • 3
  • 4
  • 5