原创 28天前
37阅读
1. Azkaban介绍1.1. 为什么需要Azkaban一个完整的数据分析系统通常都是由大量任务单元组成shell脚本程序java程序mapreduce程序hive脚本等各任务单元之间存在时间先后及前后依赖关系, 为了很好地组织起这样的复杂执行计划, 需要一个工作流调度系统来调度执行;例如,我们可能有这样一个需求,某个业务系统每天产生20G原始数据,我们每天都要对 其进行处理...
原创 2022-03-04 16:34:27
105阅读
1. Flume 介绍1.1. 概述Flume是一个分布式、可靠、和高可用的海量日志采集、聚合和传输的系统。Flume可以采集文件,socket数据包、文件、文件夹、kafka等各种形式源数据,又可以将采集到 的数据(下沉sink)输出到HDFS、hbase、hive、
原创 2022-03-04 16:38:57
64阅读
1:Hadoop介绍 Hadoop是一个分布式系基础框架,它允许使用简单的编程模型跨大型计算机的大型数据集进行分布式处理. 它主要解决两个问题 ​ 大数据存储问题: HDFS ​ 大数据计算问题:MapReduce 问题一: 大文件怎么存储? 假设一个文件非常非常大,大小为1PB/a.txt, 大到世界上所有的高级计算机都存储不下,
原创 2022-03-04 17:06:33
110阅读
大数据技术是基于谷歌在2004~2006年发表的3篇论文第一篇论文 GFS 分布式文件系统第二篇论文 MapReduce 分布式计算第三篇论文 HBase 分布式存储Hadoop发展历史:Hadoop到目前为止一共有3个大版本Hadoop1.0Hadoop2.0Hadoop3.0Hadoop1.0 是分布式计算框架基于分布式文件系统,将计算和...
1. Flume 介绍1.1. 概述Flume是一个分布式、可靠、和高可用的海量日志采集、聚合和传输的系统。Flume可以采集文件,socket数据包、文件、文件夹、kafka等各种形式源数据,又可以将采集到 的数据(下沉sink)输出到HDFS、hbase、hive、kafka等众多外部存储系统中一般的采集需求,通过对flume的简单配置即可实现Flume针对特殊场景也具备良好的自定...
原创 2021-08-18 02:41:12
272阅读
1:Hadoop介绍Hadoop是一个分布式系基础框架,它允许使用简单的编程模型跨大型计算机的大型数据集进行分布式处理.它主要解决两个问题​ 大数据存储问题: HDFS​ 大数据计算问题:MapReduce问题一: 大文件怎么存储?假设一个文件非常非常大,大小为1PB/a.txt, 大到世界上所有的高级计算机都存储不下, 怎么办?为了保存大文件, 需要把文...
原创 2021-08-18 10:41:04
167阅读
RAID介绍
原创 2022-10-16 16:06:36
39阅读
大数据介绍 第一节:数据 一、概念 数据就是数值,也就是我们通过观察、实验或计算得出的结果。数字、图片、 视频……. 二、分类 1、按照结构分 结构化数据:mysql表中的数据、excel 表、严格的二维表数据。每一行都有相同的列,每一行对应的列的类型一致的。 非结构化数据:没有任何结构的数据,视
转载 2020-07-21 14:32:00
110阅读
2评论
1、MongoDB​——最受欢迎的,跨平台的,面向文档的数据库。 mongodb​是一个基于分布式文件存储的数据库,使用C++语言编写。旨在为Web应用提供可扩展的高性能数据存储解决方案。应用性能高低依赖于数据库性能,MongoDB则是非关系数据库中功能最丰富,最像关系数据库的,随着MongDB 3.4版本发布,其应用场景适用能力得到了进一步拓展。 MongoDB的核心优势
1.Hadoop是一个大家族,是一个开源的生态系统,是一个分布式运行系统,是基于Java编程语言的架构。不过它最高明的技术还是HDFS和MapReduce,使得它可以分布式处理海量数据。 2.HDFS(分布式文件系统):它与现存的文件系统不同的特性有很多,比如高度容错(即使中途出错,也能继续运行),
原创 2021-07-23 09:51:09
279阅读
1. Azkaban介绍1.1. 为什么需要Azkaban一个完整的数据分析系统通常都是由大量任务单元组成shell脚本程序java程序mapreduce程序hive脚本等各任务单元之间存在时间先后及前后依赖关系, 为了很好地组织起这样的复杂执行计划, 需要一个工作流调度系统来调度执行;例如,我们可能有这样一个需求,某个业务系统每天产生20G原始数据,我们每天都要对 其进行处理...
原创 2021-08-18 10:39:44
148阅读
了解大数据各种技术之间的关系,选择合适的语言。我们可以带着下面问题来阅读本文章:1....
转载 2022-10-20 23:23:58
81阅读
大数据我们都知道hadoop,可是还会各种各样的技术进入我们的视野:Spark,Storm,impala,让我们都反映不过来。司与hadoop的关系是什么,都有什么产品,产品有...
原创 2023-07-24 18:08:25
81阅读
好程序员大数据培训分享Hadoop分布式集群的详细介绍,首先Hadoop的搭建有三种方式,单机版适合开发调试;伪分布式版,适合模拟集群学习;完全分布式,生产使用的模式。这篇文件介绍如何搭建完全分布式的hadoop集群,一个主节点,三个数据节点为例来讲解。   基础环境   环境准备   1、软件版本   四台服务器配置,系统:centos6.5、内存:1G(视自己配置而定)、硬盘:20G(视自己配
好程序员大数据培训之Hadoop常见问题解答,Hadoop的常见问题有很多,以前也曾给读者们分享过一些,本篇文章继续给读者们分享一些Hadoop常见问题解答,感兴趣的小伙伴就来了解一下吧。1、100个以上hadoop节点,一般怎么开发,运维?任务很多的情况下任务资源怎么分配,任务执行顺序是定时脚本还是别的什么方式控制?a.首先大数据的应用开发和hadoop集群的规模是没有关系,你指的是集群的搭建和
  不少人把数据中心、云计算数据中心、大数据搞混淆,觉得这三者是一样的产品,其实有显著的区别,数据中心机房是一整套复杂的设施,如今,云计算即将成为信息社会的公共资源,而数据中心则是支撑云计算服务的基础设施,所以自从云计算横空出世,一切信息技术都开始围着它转,云计算有如神一样地存在着,下面看看数据中心、云计算、大数据之间有什么区别和联系?  大数据  1、大数据(BigData)又称为巨量资料,指需
什么是大数据大数据有哪些特点?大数据是指数据规模大,尤其是指由于数据形式多样性,非结构化特征明显,导致数据存储,处理和挖掘异常困难的那类数据集;特点:Volume(数据容量大,PB级以上的数据)Variety(数据类型繁多)Viscosity(价值密度低)Velocity(速度,大数据产生的速度快)Veracity(数据真实性差,大数据分析需要真实性数据)2.大数据技术概述大数据技术是指从数据
一,GreenPlum  01,介绍:  Greenplum是一种基于PostgreSQL的分布式数据库,其采用shared-nothing架构,主机、操作系统、内存、存储都是自我控制的,不存在共享。  官方文档:>>>--大概内容如下Greenplum Database是一个大规模并行处理(MPP)数据库服务器,其架构专门用于管理大规模分析数据仓库和商业智能工作负载。MPP(也
转载 2022-01-25 09:58:11
583阅读
针对刚刚接触大数据的小伙伴,整理了一篇入门指南,帮助大家快速掌握大数据的基本概念什么是大数据大数据是指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合,是需要新处理模式才能具有更强决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。主要解决,海量数据的存储和海量数据的分析计算能力。一般具有4V的特点:Volume(大量)、Velocity(高速)、Variety(
原创 2023-06-08 08:38:34
1379阅读
  • 1
  • 2
  • 3
  • 4
  • 5