blog/1943464[/url]
原创 2023-05-29 11:06:47
87阅读
一、天气案例:细粒度介绍计算框架(1)需求:找出每个月气温最高的2天(2)思路每年每个月最高2天1天多条记录?进一部思考:年月分组温度升序key中要包含时间和温度呀!MR原语:相同的key分到一组,通过GroupCompartor设置分组规则(3)实现具体思路自定义数据类型Weather:包含时间包含温度自定义排序比较规则自定义分组比较:年月相同被视为相同的key那么reduce迭代时,相同年月的
转载 2023-08-31 13:08:58
67阅读
文章目录Hadoop(伪分布)+ Spark(Local)软件安装及环境配置前言一、安装虚拟机1.下载Ubuntu16.04镜像二、Hadoop安装及配置(伪分布式)1.创建hadoop用户2.更新apt3.安装SSH、配置SSH无密码登陆4.安装Java环境5.安装Hadoop3.1.36.Hadoop伪分布式配置三、安装 Spark2.4.01.下载Spark2.4.02.安装Spark(L
转载 2023-08-30 15:38:31
3阅读
## **参考博客:**# 本博客仅供自己大数据面试整理, 如果您不小心看到了这个博客, 请带着一种批判的角度阅读,方便的话,欢迎指正其中的错误,小白谢谢你啦。## 1.HadoopHadoop 三大核心: HDFS, MapReduce, YARN.HDFS: 分布式存储系统, 主要构成有 HDFS client, Name node, Data Node, Secondary node.HDF
目录 一、Hive做离线批处理1、实现步骤①、启动hadoop,启动hive②、在hive下创建weblog库,并使用③、 创建外部表管理数据④、为总表添加当天分区数据⑤、建立数据清洗表,用于清洗出业务所需的字段。⑥、业务处理⑦、创建业务表并插入数据⑧、从清洗表查询得到当天的统计指标,插入到业务表中⑨、利用Sqoop工具从HDFS上将数据导入到Mysql数据库中二、Hive的占位符与文件
大数据工程实战:实时数据流处理一、配置环境1、hadoop伪分布配置2、hbase伪分布配置。创建Flume日志文件。。hbase建表。。mysql建表低版本mysql可能出现的问题二、后端项目三、前端项目四、最后结果 一、配置环境小tips: 删除hadoopcd /usr/local sudo rm -rf hadoop删除hbasecd /usr/local sudo rm -rf hba
实验五总共有三个小实验,其中第三个是其中逻辑最复杂的一个,我今天结合官方的实现代码来讲解其中的执行过程。首先是以如下形式表示的表明亲子关系的输入文件,左列为孩子名字,右列为父母名字,中间以空格分隔。其中第一行是表头,第二行开始才是真实的数据,所以在处理数据时不考虑第一行。child-parent.txtchild parent Steven Lucy Steven Jack Jone Lucy J
转载 2023-11-20 15:03:49
78阅读
数据挖掘的基本任务:包括利用分类与预测、聚类分析、关联规则、包括利用分类与预测、聚类分析、关联规则、 时序模式、偏差检测、智能推荐等方法,帮助企业提取数据中蕴含的商业价值,提高企业竞争力。数据挖掘建模过程:    1. 目标定义        任务理解     &nbs
转载 2023-10-13 23:02:29
248阅读
第0章大数据概论一、大数据概念大数据:Big Data,指的是无法在一定时间范围内使用常规软进行捕捉,管理和处理的数据的集合。需要新的处理模式来进行决策力。洞察收取海量、高增长和多样化的信息进行管理。二、大数据的特点大量高速多样性低密度值三、大数据的应用场景物流仓储零售旅游商品广告推荐保险金融人工智能…四、大数据的部门组织结构平台组:数据仓储组:数据挖掘:报表工程:第一章Hadoop简介一、什么是
转载 2023-07-25 20:09:02
189阅读
超详细的Hadoop HA 高可用安装教程哟(^U^)ノ小白可入,手把手教学,可能出现的结果在这里会有呈现,超详细!答主在安装的时候也是踩过超多坑的 ̄□ ̄||hhh现分享给大家一些常见问题的解决方法来避坑呀欢迎大家前来指正━(`∀´)ノ亻!前期准备知识HA & Federation 介绍HA安装方案 接下来我们将安照这个表格来进行配置一、jdk的分发和安装1.分发jdk给node02,no
转载 2023-10-08 00:38:07
54阅读
Hadoop模式HDFS概述优点缺点基本组成NameNodeSecondary NameNodeDataNodeYARNYARN调度器(Scheduler)FIFO SchedulerCapacity ScheduleFair SchedulerMapReduce设计思想编程模型初识MapReduce模型MapReduce模型简单示例MapReduce编程模型编程模型实例-分析好友关注Hive体系
                   分布式系统详解--架构(Hadoop-克隆服务器)         分布式系统上一个呢,写了一下分布式系统的单机版安装教程,并且对于hadoop来说进行了一个单机版的应用测试。我们这篇文章主要讲解一下利用hado
MapReduce简介MapReduce是hadoop四大组件之一(HDFS,MapReduce,YARN和Comment),是一种分布式计算编程模型,用于解决海量数据的计算问题。MapReduce思想原理MapReduce采用分而治之的思想,将大文件切割成片,然后由多个map task并行处理,处理完成后交由reduce再做合并,最后输出结果MapReduce执行过程这里我们以经典例子WordC
转载 2024-01-11 09:10:09
95阅读
1. 大数据的概念大数据(Big Data):指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合,是需要新处理模式才能具有更强的决策力、洞察发现力和流程  优化能力的海量、高增长率和多样化的信息资产。主要解决,海量数据的存储和海量数据的分析计算问题。1.2 大数据的包含以下4个特点:1.Volume(大量)2.Velocity(高速)3.Variety(多样)4
转载 2023-10-15 14:23:55
62阅读
一、什么是大数据,什么是Hadoop        大数据:指无法再一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合,是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多元化的信息资产。        数据存储单位:bit<Byte&
转载 2024-02-22 15:39:19
64阅读
hadoop是什么?Hadoop就是为大数据应运而生、Hadoop 框架是用 Java 编写的、Hadoop是Apache下的子项目、Hadoop是分布式系统基础架构,它主要是用于大数据的处理、Hadoop可以看成是一个平台或者生态系统。Hadoop生态系统包含哪些组件?有分布式存储HDFS,有并行计算 MapReduce,有NoSQL数裾库的HBase,有数据仓库工具 Hive, 有 Pig 工
转载 2023-09-06 20:43:14
63阅读
大数据在近些年来越来越火热,人们在提到大数据遇到了很多相关概念上的问题,比如云计算、 hadoop等等。那么,大数据是什么、Hadoop是什么,大数据Hadoop有什么关系呢?  大数据概念早在1980年,著名未来学家阿尔文·托夫勒提出的概念。2009年美国互联网数据中心证实大数据时代的来临。随着谷歌 MapReduce和 GoogleFile System (GFS)的发布,大数据
这是一个非常经典的案例: 就是统计单词的个数,统计个数的就可以使用到wordcount 这是在尚硅谷的课程中做的笔记: ...
转载 2021-10-30 11:26:00
187阅读
2评论
1.计算出10月1日这天每小时的载客量JobMainpackage input.mapreduceT1;import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.fs.Path;import org.apache.hadoop.io.LongWritable;import org.apache.hadoop.io.Text;import org.apache.hadoop.mapreduce.Job;impor
原创 2022-04-20 16:40:13
223阅读
大数据开发工程师是做什么的?岗位要求高吗?大数据开发工程师要负责数据仓库建设、ETL开发、数据分析、数据指标统计、大数据实时计算平台及业务开发、平台建设及维护等工作内容。熟练掌握数据仓库、hadoop生态体系、计算及二次开发、大数据平台工具的开发:开发平台、调度系统、元数据平台等工具,该岗位对于技术要求较高。大数据开发工程师的岗位要求有哪些:1、本科以上学历,计算机相关专业,对数据处理、数据建模、
转载 2023-07-25 20:12:09
109阅读
  • 1
  • 2
  • 3
  • 4
  • 5