目录​​1 Flume 事务​​​​2 Flume Agent 内部原理​​​​3 Flume 拓扑结构​​​​3.2 复制和多路复用​​​​3.3 负载均衡和故障转移​​​​3.4 聚合​​ 1 Flume 事务 2 Flume Agent 内部原理 重要组件: 1 ) ChannelSelector ChannelSelector 作用就是选出 Event 将要被发往哪个 Channel。其
原创 2021-11-25 16:31:25
217阅读
几乎每周、有时甚至更为频繁,总有人会问我们为何不采用MySQL作为OpenACSRDBMS(关系式数据库管理系统)。ACS Classic team(ArsDigita)也一再地在他们论坛上遇到同样提问。如果MySQL对于Slashdot来说足够好的话,它也一定能够用于OpenACS,不是吗? 不对。 这篇简短论文将尝试解释为何MySQL不仅对OpenACS
转载 精选 2007-10-23 16:27:39
497阅读
一、什么是大数据大数据,IT行业术语,是指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理数据集合(由数据组成集合),是需要新处理模式才能具有更强决策力、洞察发现力和流程优化能力海量、高增长率和多样化信息资产。 它具有以下特征: 1、海量数据规模。随着信息技术高速发展,数据开始爆发性增长,存储单位从过去GB到TB,乃至现在PB、EB级别。 2、快速数据流转。大数据产生非
目录1 HDFS回收站2 HDFS安全模式3 实战:定时上传数据至HDFS4 HDFS快照5 HDFSHA与联盟 1 HDFS回收站我们windows系统里面有一个回收站,当想恢复删除文件的话就可以到这里面进行恢复,HDFS也有回 收站。 HDFS会为每一个用户创建一个回收站目录:/user/用户名/.Trash/,每一个被用户在Shell命令行删除 文件/目录,会进入到对应回收站
原创 2021-04-09 20:03:30
193阅读
什么是大数据大数据(Big Data),是一个描述大量高速,复杂和可变数据术语,需要先进技术来实现信息捕获,存储,分发,管理和分析。大数据是指无法在可承受时间范围内用常规软件工具进行捕捉、管理和处理数据集合,是需要新处理模式才能具有更强决策力、洞察发现力和流程优化能力海量、高增长率和多样化信息资产。大数据特点4VVolume: 数据量异常庞大,一般达到PB量级Variety:
Bash基本特性: 首先得从逻辑运算来说起: 与运算  && 两个判断条件都必须为真时,状态才为真,否则都为假,在此1是真,0是假 1 && 1 = 1 1 && 0 = 0 0 && 1 = 0 0 && 0 = 0 或运算 || 两个判断条件中都必须为假时,那么这个或运算就为假
原创 2017-04-18 14:48:10
783阅读
String基本特性1.概述2.String在jdk9中存储结构变更
原创 2021-08-14 00:38:10
223阅读
如今,数字化时代正逐渐向数智化时代转变,我们生活方方面面都充满了数据,我们越来越离不开数据,也越来越依赖数据。现在越来越多企业关注数据分析,这表明数据分析在企业运营中重要性。众所周知,数据分析是对数据进行详细研究和总结过程,以提取有用信息并形成结论。但是你真的足够了解数据吗?你知道数据分析四个要素是什么吗?一、场景BI工具可以帮助企业制定更加科学、明智决策,从而给企业带来价值,因此愿
上节研究了FlinkSink案例:SinkJDBC,SinkKafka,并且附带了代码实现案例,本节继续研究FlinkDataSet,包含基本介绍
原创 2024-09-10 15:35:33
55阅读
2. Hive 基本概念2.1. Hive 简介什么是 HiveHive是基于Hadoop一个数据仓库工具,可以将结构化数据文件映射为一张数据库表,并提供类 SQL查询功能。其本质是将SQL转换为MapReduce任务进行运算,底层由HDFS来提供数据存储,说白了hive可以 理解为一个将SQL转换为MapReduce任务工具,甚至更进一步可以说hive就是一个MapRedu...
原创 2021-08-18 10:39:50
212阅读
1. MapReduce 介绍MapReduce思想在生活中处处可见。或多或少都曾接触过这种思想。MapReduce思 想核心是“分而治之”,适用于大量复杂任务处理场景(大规模数据处理场景)。Map负责“分”,即把复杂任务分解为若干个“简单任务”来并行处理。可以进行拆 分前提是这些小任务可以并行计算,彼此间几乎没有依赖关系。Reduce负责“合”,即对map阶段结果进行全局汇总...
1. HDFSHDFS(Hadoop Distributed File System) 是一个 Apache Software Foundation项目, 是 Apache Hadoop 项目的一个子项目. Hadoop 非常适于存储大型数据(比如 TB 和 PB), 其就是使用 HDFS 作为存储系统
原创 2022-03-04 16:58:59
205阅读
1. MapReduce 介绍MapReduce思想在生活中处处可见。或多或少都曾接触过这种思想。MapReduce思 想核心是“分而治之”,适用于大量复杂任务处理场景(大规模数据处理场景)。Map负责“分”,即把复杂任务分解为若干个“简单任务”来并行处理。可以进行拆 分前提是这些小任务可以并行计算,彼此间几乎没有依赖关系。Reduce负责“合”,即对map阶段结果进行全局汇总...
大数据概念想必大家都不陌生,毕竟是近年来最热门的话题之一。在计算机以及互联网如此普及今天,我们所有人每天都会在互联网上产生大量数据,例如在淘宝浏览商品时会产生数据,使用社交app进行即时通讯时也会产生数据,每天股市上涨下跌及交易量也是数据......如此可见,每天互联网上产生数据是有多庞大,数据可谓是无处不在:但是数据量大,只是大数据概念特征之一,大数据有4个特征简称4V特征:在2001
原创 2018-01-26 18:37:48
7910阅读
2点赞
2. Hive 基本概念2.1. Hive 简介什么是 HiveHive是基于Hadoop一个数据仓库工具,可以将结构化数据文件映射为一张数据库表,并提供类 SQL查询功能。其本质是将SQL转换为MapReduce任务进行运算,底层由HDFS来提供数据存储,说白了hive可以 理解为一个将SQL转换为MapReduce任务工具,甚至更进一步可以说hive就是一个MapRedu...
原创 2022-03-04 16:38:28
75阅读
主要商业价值为:解决当下“大规模、个性化”商业需求主要计算方面为:1 运行监控 有效快速监控异常现象,防患于未然。2 用户
原创 2023-03-02 05:34:54
137阅读
目录1 数据仓库概念2 场景案例:数据仓库为何而来?2.1 操作型记录保存2.2 分析型决策制定2.3 OLTP 环境开展分析可行吗?2.4 数据仓库构建2.5 场景案件2: 超市连锁企业3 数据仓库主要特征3.1 面向主题性3.2 集成性3.3 非易失性3.4 时变性4 数据仓库、数据库、数据集市4.1 OLTP 、OLAP4.2 数据仓库、数据库4.3 数据仓库、数据集市5 数据仓库分层 架构5.1 数仓分层思想和标准5.2 阿里巴巴数仓 3 层架构5.3 ETL 和 ELT5.4 为什么要分层
原创 2021-03-14 18:35:52
591阅读
...
大数据处理流程主要包括数据收集、数据预处理、数据存储、数据处理与分析、数据展示/数据可视化、数据应用等环节,其中数据质量贯穿于整个×××程,每一个数据处理环节都会对大数据质量产生影响作用。通常,一个好大数据产品要有大量数据规模、快速数据处理、精确数据分析与预测、优秀可视化图表以及简练易懂结果解释,本文将基于以上环节分别分析不同阶段对大数据质量影响及其关键影响因素。一、数据收集在数据
1. HDFS HDFS(Hadoop Distributed File System) 是一个 Apache Software Foundation项目, 是 Apache Hadoop 项目的一个子项目. Hadoop 非常适于存储大型数据(比如 TB 和 PB), 其就是使用 HDFS 作为存储系统. HDFS使用多台计算机存储文件, 并且提供统一访问接口,像是访问一个普通文件系统一样使
原创 2021-08-18 11:06:52
389阅读
  • 1
  • 2
  • 3
  • 4
  • 5