目录1 数据源(学生成绩.csv)2 hadoop平台上传数据源3 idea代码3.1 工程框架3.2 导入依赖3.3 系统主入口(menu)3.4 六个mapreduce3.4.1 计算每门成绩的最高分、最低分、平均分(Mma)3.4.2 计算每个学生的总分及平均成绩并进行排序(Sas)3.4.3 统计所有学生的信息(Si)3.4.4 统计每门课程中相同分
转载 2023-11-18 23:15:11
99阅读
一、hadoop是什么? 狭义上:hadoop是一个apache的一个顶级项目,一套开源软件平台 广义上:hadoop是以hadoop为核心的整个大数据处理体系 二、hadoop核心组件 1、Hadoop Common :支持其他Hadoop模块的常用工具 2、HDFS:hadoop分布式文件系统,提供对应用程序的高吞吐量访问 3、Hadoop Yarn:作业调度和集群资源管理框架 4、Hadoo
转载 2023-07-12 11:20:35
53阅读
Hadoop产生的背景1. HADOOP最早起源于Nutch。Nutch的设计目标是构建一个大型的全网搜索引擎,包括网页抓取、索引、查询等功能,但随着抓取网页数量的增加,遇到了严重的可扩展性问题——如何解决数十亿网页的存储和索引问题。2. 2003年开始谷歌陆续发表的三篇论文为该问题提供了可行的解决方案。——分布式文件系统(GFS),可用于处理海量网页的存储——分布式计算框架M
转载 2023-07-26 22:16:45
99阅读
前言  前面以前把关于HDFS集群的所有知识给讲解完了,接下来给大家分享的是MapReduce这个Hadoop的并行计算框架。一、背景1)爆炸性增长的Web规模数据量  2)超大的计算量/计算复杂度  3)并行计算大趋所势  二、大数据的并行计算1)一个大数据若可以分为具有同样计算过程的数据块,并且这些数据块之间不存在数据依赖关系,则提高处理速度最好的办法就是并行计算。  2)大数据并行计算  三
1.集群规划: IP                安装的软件 drguo1 192.168.80.149 jdk、hadoop NameNode、DFSZKFailoverControl
原因 ================================== 用OpenSSH的人都知ssh会把你每个你访问过计算机的公钥(public key)都记录在~/.ssh/known_hosts。当下次访问相同计算机时,OpenSSH会核对公钥。如果公钥不同,OpenSSH会发出警告,避免你受到DNS Hijack之类的攻击。 SSH对主机的public_key
1.集群规划: IP                安装的软件 drguo1 192.168.80.149 jdk、hadoop NameNode、DFSZKFailoverControll
转载 2024-10-12 10:54:40
23阅读
    在上一篇文章我写了个简单的WordCount程序,也大致了解了下关于mapreduce运行原来,其中说到还可以自定义分区、排序、分组这些,那今天我就接上一次的代码继续完善实现自定义分区。part-r-00000),这个文件就是所有的词的数量记录,这个时候有没什么想法比如如果我想把一些包含特殊的词放置单独的一个文件,其他我不关心的放置在另一个文件这样我
MapReduce是一个分布式计算框架,主要由两部分组成:编程模型和运行时环境。其中,编程模型为用户提供了非常易用的编程接口,用户只需要像编写串行程序一样实现几个简单的函数即可实现一个分布式程序,而其他比较复杂的工作,如节点间的通信、节点失效、数据切分等,全部由MapReduce运行时环境完成.MapReduce设计目标,主要有以下几个:易于编程:传统的分布式程序设计(如MPI)非常复杂,用户需要
转载 2023-09-20 10:18:12
63阅读
转载请注明作者,谢谢支持!昨天有个面试,问到在MapReduce过程中会发生几次排序? 如图,应该还是两次排序.  第一次应该是在map数据持久化到本地硬盘的时候,这个时候,每次从内存spill之前会做inmemory sort,在map操作完成之前还会对所有spill文件做排序,完成磁盘文件合并。步骤应该是partition in momery sort combinespi
1. key设计    可读性和可管理性:数据库名:表名:id,如用户中心的用户表里的数据,usersystemconter:usertb:128,表示用户中心系统里的用户表里id为128这条数据。    简洁性:在保证语义的前提下,控制key的长度,在数据量很大的情况下,也能节省一定的内存,如usersystemconter:usertb:128可以简化成
转载 2023-08-30 11:46:27
85阅读
Redis高级篇之最佳实践内容Redis键值设计批处理优化服务端优化集群最佳实践1、Redis键值设计1.1、优雅的key结构Redis的Key虽然可以自定义,但最好遵循下面的几个最佳实践约定:遵循基本格式:[业务名称]:[数据名]:[id]长度不超过44字节不包含特殊字符例如:我们的登录业务,保存用户信息,其key可以设计成如下格式:这样设计的好处:可读性强避免key冲突方便管理更节省内存: k
转载 2023-07-09 19:17:22
62阅读
1.把表名转换为key前缀;如:tags2.中间放置的是用于区分key的字段-对应mysql中的主键的列名,如ID3.第三段放置主键值,如2,3,a,b4.写要存储的列明用户表user,转换为key-value存储   useridusernamepasswordemail1test123123123123@163.comset user:userid:1:usern
转载 2023-07-07 15:57:09
46阅读
一、Redis的键值设计1.1key的结构Redis的Key在自定义时,最好遵循以下三个规则:基本格式:[业务名称]:[数据名]:[id]长度不超过44字节不包含特殊字符如:登录业务,保存用户信息的key 定义为 login:user:10( [业务名称]:[数据名]:[id] )优点:可读性强避免key冲突方便管理(使用可视化工具显示的是 层级结构 清晰明了)更节省内存:key是string类型
转载 2023-05-25 13:40:35
996阅读
一、hadoop简介1、hadoop的初衷是为了解决Nutch的海量数据爬取和存储的需要,HDFS来源于google的GFS,MapReduce来源于Google的MapReduce,HBase来源于Google的BigTable.hadoop后被引入Apache基金会.2、hadoop两大核心设计是HDFS和MapReduce,HDFS是分布式存储系统,提供高可靠性、高扩展性、高吞吐率的数据存储
转载 2023-09-03 09:06:52
291阅读
 除非你过去几年一直隐居,远离这个计算机的世界,否则你不可能没有听过Hadoop,全名Apache Hadoop,是一个在通用低成本的硬件上处理存储和大规模并行计算的一个开源框架,Hadoop本质的12点介绍,具体如下:1.hadoop是由多个产品组成的。人们在谈论Hadoop的时候,常常把它当做单一产品来看待,但事实上它由多个不同的产品共同组成。Russom说:“Hadoop是一系列开
# Hadoop设计:分布式大数据处理的基石 Hadoop是一个开源的分布式大数据处理框架,由Apache基金会开发。它基于谷歌的MapReduce和GFS(Google File System)设计,通过将数据分布在多个节点上并行处理,大大提高了数据处理的效率和可靠性。 ## Hadoop架构 Hadoop主要由两个组件组成:HDFS(Hadoop Distributed File Sys
原创 2024-07-30 09:28:33
15阅读
本文我们学习MapReduce的全排序、二次排序以及区内排序1.MapReduce概述MapTask和ReduceTask均会对数据按照key进行排序。该操作属于hadoop的默认行为。任何应用程序中的数据均会被排序,而不管逻辑上是否需要默认排序是按照字典顺序排序,通过快速排序实现对于MapTask,它会将处理结果暂时放到环形缓冲区中,当环形缓冲区使用率达到一定阈值后(默认80%),对缓冲区中的数
  最近在学习kafka,参考官网上的文档,概括kafka的主要设计点,希望能帮助大家对kafka的设计有一个大概的了解,没说清楚的地方,或者不对的地方希望大家指出,相互帮助学习,4.        kafka设计简介1     2   &
范式化与反范式化范式化是将数据分散到多个不同的集合,不同集合之前可以相互引用数据。如果要修改某一块数据,只需要修改保存这一块数据的那一个文档就行了反范式化是将每个文档所需的数据都嵌入在文档内部。如果数据发生变化,所有相关文档都需要进行更新。但是在执行查询时,只需要查询一次就可以得到所有数据如果数据更新频繁,那么反范式化更好内嵌数据与引用数据的比较:更适合内嵌
转载 2024-09-05 10:26:20
13阅读
  • 1
  • 2
  • 3
  • 4
  • 5