学习大数据
原创 2020-08-24 20:50:26
429阅读
1点赞
Hadoop学习–(大数据)一、大数据概念:大数据是指在一定时间内无法用常规软件工具进行捕捉、管理和处理的数据集合。大数据主要是解决海量数据的存储和分析计算。二、大数据特点:大量高速(产生速度)多样:结构化数据:以二维表来逻辑表达和实现的数据。例如:文本文件、库表非结构化数据:没有固定的结构。视频、图片半结构化数据:存储的数据信息类似结构化,但本身以非结构化数据存储。 半结构化数据,属于同一类实体
原创 1月前
25阅读
上传centOS6.7-hadoop-2.6.4.tar.gz 解压 tar -zxvf centOS6.7-hadoop-2.6.4.tar.gz hadoop相关修改配置 1 修改 /root/apps/hadoop/etc/hadoop  目录下的hadoop-env.sh vi hadoop-env.sh 中 export JAVA_HOME=${JAVA_HOME}修改为 export
转载 2018-12-23 19:10:00
120阅读
2评论
 摘要:并行分析模块接受用户提交的多维分析命令,并将通过核心模块将该命令解析为Map-Reduce,提交给Hadoop集群之后,生成报表供报表中心展示。标签:大数据 数据分析 Hadoop 随着互联网、移动互联网和物联网的发展,谁也无法否认,我们已经切实地迎来了一个海量数据的时代,数据调查公司IDC预计2011年的数据总量将达到1.8万亿GB,对这些海量数据的分析已经成为一个非常重要且紧
一、Hadoop的优势1)高可靠性:因为Hadoop假设计算元素和存储会出现故障,因为它维护多个工作数据副本,在出现故障时可以对失败的节点重新分布处理。2)高扩展性:在集群间分配任务数据,可方便的扩展数以千计的节点。3)高效性:在MapReduce的思想下,Hadoop是并行工作的,以加快任务处理速度。4)高容错性:自动保存多份副本数据,并且能够自动将失败的任务重新分配。二、Hadoop组成1)H
转载 2018-08-29 19:11:32
502阅读
什么是大数据?进入本世纪以来,尤其是2010年之后,随着互联网特别是移动互联网的发展,数据的增长呈爆炸趋势,已经很难估计全世界的电子设备中存储的数据到底有多少,描述数据系统的数据量的计量单位从MB(1MB大约等于一百万字节)、GB(1024MB)、TB(1024GB),一直向上攀升,目前,PB(等于1024TB)级的数据系统已经很常见,随着移动个人数据、社交网站、科学计算、证券交易、网站日志、传感
转载 2018-11-14 10:29:05
527阅读
4.1 HADOOP集群搭建 4.1.1集群简介 HADOOP集群具体来说包含两个集群:HDFS集群和YARN集群,两者逻辑上分离,但物理上常在一起 HDFS集群: 负责海量数据的存储,集群中的角色主要有 NameNode / DataNode YARN集群: 负责海量数据运算时的资源调度,集群中的角色主要有 ResourceManager /NodeManager (那mapredu
转载 2018-12-23 10:57:00
178阅读
2评论
第0章大数据概论一、大数据概念大数据:Big Data,指的是无法在一定时间范围内使用常规软进行捕捉,管理和处理的数据的集合。需要新的处理模式来进行决策力。洞察收取海量、高增长和多样化的信息进行管理。二、大数据的特点大量高速多样性低密度值三、大数据的应用场景物流仓储零售旅游商品广告推荐保险金融人工智能…四、大数据的部门组织结构平台组:数据仓储组:数据挖掘:报表工程:第一章Hadoop简介一、什么是
转载 2023-07-25 20:09:02
189阅读
大数据在近些年来越来越火热,人们在提到大数据遇到了很多相关概念上的问题,比如云计算、 hadoop等等。那么,大数据是什么、Hadoop是什么,大数据Hadoop有什么关系呢?  大数据概念早在1980年,著名未来学家阿尔文·托夫勒提出的概念。2009年美国互联网数据中心证实大数据时代的来临。随着谷歌 MapReduce和 GoogleFile System (GFS)的发布,大数据
MapReduce简介MapReduce是hadoop四大组件之一(HDFS,MapReduce,YARN和Comment),是一种分布式计算编程模型,用于解决海量数据的计算问题。MapReduce思想原理MapReduce采用分而治之的思想,将大文件切割成片,然后由多个map task并行处理,处理完成后交由reduce再做合并,最后输出结果MapReduce执行过程这里我们以经典例子WordC
转载 2024-01-11 09:10:09
95阅读
1. 大数据的概念大数据(Big Data):指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合,是需要新处理模式才能具有更强的决策力、洞察发现力和流程  优化能力的海量、高增长率和多样化的信息资产。主要解决,海量数据的存储和海量数据的分析计算问题。1.2 大数据的包含以下4个特点:1.Volume(大量)2.Velocity(高速)3.Variety(多样)4
转载 2023-10-15 14:23:55
62阅读
一、什么是大数据,什么是Hadoop        大数据:指无法再一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合,是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多元化的信息资产。        数据存储单位:bit<Byte&
转载 2024-02-22 15:39:19
64阅读
hadoop是什么?Hadoop就是为大数据应运而生、Hadoop 框架是用 Java 编写的、Hadoop是Apache下的子项目、Hadoop是分布式系统基础架构,它主要是用于大数据的处理、Hadoop可以看成是一个平台或者生态系统。Hadoop生态系统包含哪些组件?有分布式存储HDFS,有并行计算 MapReduce,有NoSQL数裾库的HBase,有数据仓库工具 Hive, 有 Pig 工
转载 2023-09-06 20:43:14
63阅读
大数据是一系列技术的统称,经过多年的发展,大数据已经形成了从数据采集、整理、传输、存储、安全、分析、呈现和应用等一系列环节,这些环节涉及到诸多大数据工作岗位,这些工作岗位与物联网、云计算也都有密切的联系。Hadoop是一个由Apache基金会所开发的分布式系统基础架构,是用Java语言开发的一个开源分布式计算平台,适合大数据的分布式存储和计算平台。广义上讲,大数据是时代发展和技术进步的产物。Had
原创 2019-06-27 11:54:49
821阅读
hadoop基础环境搭建 关于博客 由于平常在做java开发及ETL,对大数据方向有了写兴趣,所以想学习学习,将学习过程笔记及心得写在博客中,用来共享,希望有所帮助基础环境搭建步骤1.配置阿里云yum源 2.安装常用软件 3.关闭防火墙 4.关闭selinux 5.安装JDK 6.创建hadoop用户并配置hadoop用户密码 7.给hadoop用户配置ssh秘钥 8.创建whell用户组,禁止
项目结构   服务端代码 test-hadoop-rpc pom.xml <?xml version="1.0" encoding="UTF-8"?> <project xmlns="http://maven.apache.org/POM/4.0.0" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance"
转载 2019-01-03 22:47:00
210阅读
2评论
引子虽然通过《小白学习大数据测试之hadoop初探》以及把hadoop的基本核心说明白了,但是似乎对于小白来说还是会有点懵逼。。。。那么这次我们就在来看看大数据粗暴理解大数据甭管什么,简单粗暴的理解为大!大!大!对,你没看错,不管什么都是大就对了,哈哈哈哈大数据应用的功能抽象出来基本就是:数据采集、数据存储、数据处理(过滤、拆分、聚合)、数据分析、数据应用。说白了就是对从各处采集的数据经过一系列的
Hadoop的集群配置
原创 2020-08-19 18:13:46
486阅读
1点赞
Hadoop 学习资料分享(3份)
转载 2021-08-11 15:52:19
77阅读
1、大数据导论 1.1、大数据概念 大数据(Big Data),指无法一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合,是需要新处理模式才能具有更强的决策力、洞察发现和流程优化能力的海量、高增长率和多样化的信息资产。 我们来看看计算机数据的单位: 按照小到大的顺序:Bit->Byte->K
原创 2022-01-05 17:23:57
232阅读
  • 1
  • 2
  • 3
  • 4
  • 5