目录1 Flume 事务2 Flume Agent 内部原理3 Flume 拓扑结构3.2 复制和多路复用3.3 负载均衡和故障转移3.4 聚合 1 Flume 事务 2 Flume Agent 内部原理 重要组件: 1 ) ChannelSelector ChannelSelector 的作用就是选出 Event 将要被发往哪个 Channel。其
原创
2021-11-25 16:31:25
217阅读
几乎每周、有时甚至更为频繁,总有人会问我们为何不采用MySQL作为OpenACS的RDBMS(关系式数据库管理系统)。ACS Classic team(ArsDigita)也一再地在他们的论坛上遇到同样的提问。如果MySQL对于Slashdot来说足够好的话,它也一定能够用于OpenACS,不是吗?
不对。 这篇简短的论文将尝试解释为何MySQL不仅对OpenACS
转载
精选
2007-10-23 16:27:39
497阅读
一、什么是大数据大数据,IT行业术语,是指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合(由数据组成的集合),是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。 它具有以下特征: 1、海量的数据规模。随着信息技术的高速发展,数据开始爆发性增长,存储单位从过去的GB到TB,乃至现在的PB、EB级别。 2、快速的数据流转。大数据的产生非
转载
2023-11-17 21:45:27
8阅读
目录1 HDFS的回收站2 HDFS的安全模式3 实战:定时上传数据至HDFS4 HDFS的快照5 HDFS的HA与联盟 1 HDFS的回收站我们windows系统里面有一个回收站,当想恢复删除的文件的话就可以到这里面进行恢复,HDFS也有回 收站。 HDFS会为每一个用户创建一个回收站目录:/user/用户名/.Trash/,每一个被用户在Shell命令行删除的 文件/目录,会进入到对应的回收站
原创
2021-04-09 20:03:30
193阅读
什么是大数据?大数据(Big Data),是一个描述大量高速,复杂和可变数据的术语,需要先进的技术来实现信息的捕获,存储,分发,管理和分析。大数据是指无法在可承受的时间范围内用常规软件工具进行捕捉、管理和处理的数据集合,是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。大数据的特点4VVolume: 数据量异常庞大,一般达到PB量级Variety:
转载
2024-01-15 12:46:53
41阅读
Bash基本特性: 首先得从逻辑运算来说起: 与运算 && 两个判断条件都必须为真时,状态才为真,否则都为假,在此1是真,0是假 1 && 1 = 1 1 && 0 = 0 0 && 1 = 0 0 && 0 = 0 或运算 || 两个判断条件中都必须为假时,那么这个或运算就为假
原创
2017-04-18 14:48:10
783阅读
String的基本特性1.概述2.String在jdk9中存储结构变更
原创
2021-08-14 00:38:10
223阅读
如今,数字化时代正逐渐向数智化时代转变,我们生活的方方面面都充满了数据,我们越来越离不开数据,也越来越依赖数据。现在越来越多的企业关注数据分析,这表明数据分析在企业运营中的重要性。众所周知,数据分析是对数据进行详细研究和总结的过程,以提取有用的信息并形成结论。但是你真的足够了解数据吗?你知道数据分析的四个要素是什么吗?一、场景BI工具可以帮助企业制定更加科学、明智的决策,从而给企业带来价值,因此愿
转载
2024-01-12 15:23:45
192阅读
上节研究了Flink的Sink的案例:SinkJDBC,SinkKafka,并且附带了代码的实现案例,本节继续研究FlinkDataSet,包含基本介绍
原创
2024-09-10 15:35:33
55阅读
2. Hive 的基本概念2.1. Hive 简介什么是 HiveHive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供类 SQL查询功能。其本质是将SQL转换为MapReduce的任务进行运算,底层由HDFS来提供数据的存储,说白了hive可以 理解为一个将SQL转换为MapReduce的任务的工具,甚至更进一步可以说hive就是一个MapRedu...
原创
2021-08-18 10:39:50
212阅读
1. MapReduce 介绍MapReduce思想在生活中处处可见。或多或少都曾接触过这种思想。MapReduce的思 想核心是“分而治之”,适用于大量复杂的任务处理场景(大规模数据处理场景)。Map负责“分”,即把复杂的任务分解为若干个“简单的任务”来并行处理。可以进行拆 分的前提是这些小任务可以并行计算,彼此间几乎没有依赖关系。Reduce负责“合”,即对map阶段的结果进行全局汇总...
原创
2022-03-04 16:43:49
154阅读
1. HDFSHDFS(Hadoop Distributed File System) 是一个 Apache Software Foundation项目, 是 Apache Hadoop 项目的一个子项目. Hadoop 非常适于存储大型数据(比如 TB 和 PB), 其就是使用 HDFS 作为存储系统
原创
2022-03-04 16:58:59
205阅读
1. MapReduce 介绍MapReduce思想在生活中处处可见。或多或少都曾接触过这种思想。MapReduce的思 想核心是“分而治之”,适用于大量复杂的任务处理场景(大规模数据处理场景)。Map负责“分”,即把复杂的任务分解为若干个“简单的任务”来并行处理。可以进行拆 分的前提是这些小任务可以并行计算,彼此间几乎没有依赖关系。Reduce负责“合”,即对map阶段的结果进行全局汇总...
原创
2021-08-18 10:56:20
109阅读
大数据概念想必大家都不陌生,毕竟是近年来最热门的话题之一。在计算机以及互联网如此普及的今天,我们所有人每天都会在互联网上产生大量的数据,例如在淘宝浏览商品时会产生数据,使用社交app进行即时通讯时也会产生数据,每天股市的上涨下跌及交易量也是数据......如此可见,每天互联网上产生的数据是有多庞大,数据可谓是无处不在:但是数据量大,只是大数据概念的特征之一,大数据有4个特征简称4V特征:在2001
原创
2018-01-26 18:37:48
7910阅读
点赞
2. Hive 的基本概念2.1. Hive 简介什么是 HiveHive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供类 SQL查询功能。其本质是将SQL转换为MapReduce的任务进行运算,底层由HDFS来提供数据的存储,说白了hive可以 理解为一个将SQL转换为MapReduce的任务的工具,甚至更进一步可以说hive就是一个MapRedu...
原创
2022-03-04 16:38:28
75阅读
主要商业价值为:解决当下“大规模、个性化”的商业需求主要计算方面为:1 运行监控 有效快速监控异常现象,防患于未然。2 用户
原创
2023-03-02 05:34:54
137阅读
目录1 数据仓库概念2 场景案例:数据仓库为何而来?2.1 操作型记录的保存2.2 分析型决策的制定2.3 OLTP 环境开展分析可行吗?2.4 数据仓库的构建2.5 场景案件2: 超市连锁企业3 数据仓库主要特征3.1 面向主题性3.2 集成性3.3 非易失性3.4 时变性4 数据仓库、数据库、数据集市4.1 OLTP 、OLAP4.2 数据仓库、数据库4.3 数据仓库、数据集市5 数据仓库分层 架构5.1 数仓分层思想和标准5.2 阿里巴巴数仓 3 层架构5.3 ETL 和 ELT5.4 为什么要分层
原创
2021-03-14 18:35:52
591阅读
的...
原创
2023-04-19 09:28:44
162阅读
大数据处理流程主要包括数据收集、数据预处理、数据存储、数据处理与分析、数据展示/数据可视化、数据应用等环节,其中数据质量贯穿于整个×××程,每一个数据处理环节都会对大数据质量产生影响作用。通常,一个好的大数据产品要有大量的数据规模、快速的数据处理、精确的数据分析与预测、优秀的可视化图表以及简练易懂的结果解释,本文将基于以上环节分别分析不同阶段对大数据质量的影响及其关键影响因素。一、数据收集在数据
原创
2019-06-11 10:51:28
8919阅读
1. HDFS
HDFS(Hadoop Distributed File System) 是一个 Apache Software Foundation项目, 是 Apache Hadoop 项目的一个子项目. Hadoop 非常适于存储大型数据(比如 TB 和 PB), 其就是使用 HDFS 作为存储系统. HDFS使用多台计算机存储文件, 并且提供统一的访问接口,像是访问一个普通文件系统一样使
原创
2021-08-18 11:06:52
389阅读