该文章为lagou学习记录笔记,里面的资源和内容来自lagou,作为大数据菜鸡,如果内容部分有错误还请各位大佬指出并纠正,谢谢?大数据技术解决的是什么问题?大数据技术解决的主要是海量数据的存储和计算 大数据的定义:是指无法在一定时间内用常规软件工具进行捕捉、管理和处理的数据集合,是需要新处理模式。 大数据的特点:5v(volumn–大量、velocity–高速、variety–多样、veracit
转载 2023-07-20 20:44:42
62阅读
p01 课程整体介绍p02 大数据的概念p03大数据的特点p04 05 大数据应用场景p06 未来工作内容p07hadoop入门 课程介绍p08 09 hadoop是什么p 10 hadoop3大发行版本p11 hadoop优势p12 hadoop 1 2 3版本区别p13 HDFS概述NameNode DataNode SecondNameNodep14 Hadoop入门 YARN概述Resou
 文章目录〇、要点一、概念1.1 Hadoop是什么1.2 Hadoop发展历史1.3 Hadoop的三大发行版本1.4 Hadoop的优势1.5 Hadoop的组成1.5.1 HDFS架构概述1.5.2 Yarn架构概述1.5.3 MapReduce架构概述1.5.4 HDFS、Yarn、MapReduce三者的关系1.6 大数据技术生态体系1.7 推荐系统案例二、环境准备2.1 模板
大概的原理就是,先使用一个自定义的InputFormat将视频文件从HDFS里面读到内存,这时是以二进制字节的形式存在,然后对视频文件根据其编码类型,比如x264或者xvid格式,对这些二进制的字节流进行截取,转换成一个个的桢。这时将“帧流”以key-value的方式输入到Map Task中进行处理。其实我们之前一直存在一个误区,就是opencv的API读取的是文件路径,这两个对不上啊。但是,op
原创 2014-07-04 00:46:48
9375阅读
1点赞
4评论
着重介绍了HDFS运行了示例程序wordcount,自己也试了一遍(用的伪分布式)1.建立数据(和讲师的操作有些不一样,不过我相信自己)2.运行wordcount程序3.查看结果(可以看出来,只要没空格,它都看作是一个单词) 接下来介绍了50030和50070查看任务和HDFS状态......其中如果想看日志的话除了命令行也可以直接输入http://localhost:50070/log
集群配置整体思路1.切换到/opt/module/hadoop-3.3.4/etc/hadoop,配置core-site.xml、hdfs-site.xml、yarn-site.xml、mapred-site.xml,分发hadoop文件夹集群启动整体思路1.第一次启动时需要配置workers配置文件,以及进行hdfs的初始化( hdfs namenode -format )2.启动集群
近一年来一直都在学习Hadoop,初接触时感觉是个全新的领域,后期随着学习的深入,本质上觉得就是那些Java大神写出来的一个分布式计算框架,终究还是Java的综合应用和架构的综合设计,除了Java语言的要求非常之高,还得有这种分布式处理的思想。Doug Cutting实在令我等膜拜。好了不说废话了,下面分享一些Hadoop及Java视频学习资料。1.Hadoop视频百度云链接:http://pan
# Hadoop视频编码 Hadoop是一个开源的分布式计算框架,用于处理大规模数据集的存储和处理。它的设计目标是能够在一组计算机上并行处理大规模数据,具有高可靠性和容错性。Hadoop采用了一种称为MapReduce的编程模型,它将计算任务分解为多个小任务,并在分布式环境中并行执行。 视频编码是一种将视频数据转换为压缩格式的技术。在视频编码中,视频数据被分割成多个小块,每个小块被称为帧。Ha
原创 2023-07-19 11:31:08
110阅读
2021SC@SDUSC 目录项目名称:multimedia-utils综述小结项目名称:multimedia-utils博客十三综述这是本学期软件工程应用与实践课程的最后一次报告。在前几次的博客里,我们首先对项目multimedia-utils整体进行了介绍,并逐期对项目中的关键代码进行了分析讲解。 在讲核心代码的过程中,我们还收搜索了相关知识来加强对代码的理解和应用。接下来我们将对这
转载 2023-08-06 11:58:14
131阅读
1、hadoop3(听说比spark快10倍),基于jdk1.8以上,至少3台机器 更加支持spark, 增加classpath isolation   防止一些不同的jar包版本 支持hdfs的擦除编码DataNode 存储数据添加负载均衡MapReduce优化2、hadoop --- hdfs架构NameNode  DataNode&
转载 2023-08-25 18:21:16
0阅读
1.Hadoop序列化机制当程序在向磁盘中写数据和读取数据时会进行序列化和反序列化,磁盘IO的这些步骤无法省略,我们可以从这些地方着手优化。当我们想把内存数据写到文件时,写序列化后再写入,将对象信息转为二进制存储,默认Java的序列化会把整个继承体系下的信息都保存,这就比较大了,会额外消耗性能。反序列化也是一样的,如果文件很大,加载数据进内存也需要耗费很多资源。鉴于上述问题,Hadoop提供了常用
备注:hadoop安装的坑是真的多,大家警惕1. 环境要求        X64的jdk1.8        使用 Java -version 查询jdk安装信息2.下载文件hadoop3.2.1下载下面是百度网盘的下载连接,也可以自行去官网下载 链接:https://pan.baidu.com/s/1WbZ
转载 2023-07-24 14:26:20
78阅读
1. MapReduce 与 HDFS 简介  什么是 Hadoop ?  Google 为自己的业务需要提出了编程模型 MapReduce 和分布式文件系统 Google File System,并发布了相关论文(可在 Google Research 的网站上获得:GFS、MapReduce)。Doug Cutting 和 Mike Cafarella 在开发搜索引擎 Nutch 时对这两篇论文
前言    针对Hadoop的一些基础概念和术语进行整理。1、Hadoop是什么?    分布式的解决方案。2、Hadoop解决了什么问题?    分布式存储和分布式计算的问题。3、Hadoop如何处理数据?    Hadoop的数据来源可以是任何形式,在处理半结构化和非结构化数据上与关系型数据库相比有更好的性能,具有
转载 2023-09-06 14:09:14
65阅读
一、写在前面上一篇文章,我们聊了一下Hadoop中的NameNode里的edits log写机制。主要分析了edits log写入磁盘和网络的时候,是如何通过分段加锁以及双缓冲的机制,大幅度提升了多线程并发写edits log的吞吐量,从而支持高并发的访问。如果没看那篇文章的同学,可以回看一下:大规模集群下Hadoop NameNode如何承载每秒上千次的高并发访问。这篇文章,我们来看看,Hado
转载 2023-07-24 11:03:24
67阅读
HDFS分布式文件系统: 优点:支持超大文件存储、流式访问、一次写入多次读取。 缺点:不适应大量小文件、不适应低时延的数据访问、不适应多用户访问任意修改文件。
转载 2023-05-30 12:20:22
81阅读
Hadoop-HDFS,思想的总结Hadoop的工作离线数据处理的简单流程(也就是不是实时更新是数据,如果要实时更新,就要用到spark进行实时处理): 流程:①②③④⑤⑥⑦⑧ ① :是产生的数据源,会将客户的操作等以日志的形式保存 ② :这些数据都会上传到Tomact服务器上,进行保存 ③ :通过flume对保存到磁盘的数据,进行捕抓到HDFS中的各个datenode ④ :通过mapreduc
文章目录一、HDFS写数据流程1. 剖析文件写入2. 网络拓扑-节点距离计算3. 机架感知(副本存储节点选择)二、HDFS读数据流程 前言:在《Hadoop系列》的第一篇博文里,就已经提到了 【hadoop】(一)分布式文件系统 HDFS,但作为面试中经常遇到的数据流的问题,特地拎出来专门写一篇文章,详细解读 HDFS 数据流的知识点,帮助小伙伴们跳出面试中的那些大坑。 一、HDFS写数据流程
1、代码示例 package com.ares.hadoop.mr.flowsort; import java.io.IOException; import org.apache.hadoop.conf.Configuration; import org.apache.hadoop.conf.Configured; import org.apache.hadoop.fs.Path; imp
原创 2021-07-22 13:49:28
680阅读
Hadoop 引擎上的 SQL 有许多广泛的应用领域:数据处理与在线分析处理(OLAP)改进优化在线事务处理(OLTP) 存储引擎: 今天 Hadoop 主要有三个存储引擎:分别是 Apache HBase、Apache Hadoop HDFS 和 Hadoop Accumulo。Apache Accumlo与 Hbase 非常相似,但它本是由 NSA 组织创建的项目,历史上特别看重系统的安全性
转载 2023-07-12 12:24:59
98阅读
  • 1
  • 2
  • 3
  • 4
  • 5