来自:http://www.cnblogs.com/wayne1017/archive/2007/03/18/668768.html 这里先大致介绍一下Hadoop.     本文大部分内容都是从官网Hadoop上来的。其中有一篇介绍HDFS的pdf文档,里面对Hadoop介绍的比较全面了。我的这一个系列的Hadoop学习笔记也是从这里一步一步进行下来的,同时又参
转载 2011-09-08 14:46:47
456阅读
hadoop学习笔记
原创 2022-10-05 08:49:55
193阅读
参考资料:《Hadoop 权威指南》 1 map处理完后,hadoop框架会
原创 2022-06-01 05:11:00
156阅读
========================Apr.13th, 2012======================== 1. Why do we use Hadoop? 1)Stripped to its core, the tools of that Hadoop provides for building distributed systems - for data stora
原创 2012-04-14 00:01:24
754阅读
Hadoop hadoop-1.2.1.tar.gz jdk-6u32-linux-x64.binUseradd  -u 900 hadoopMv jdk1.6.0_32  /home/hadoopMv hadoop-1.2.1.tar.gz/home/hadoopChown hadoop.hadoop /home/hadoop -RSu -hadoopLn -s j
原创 2016-09-18 19:12:33
543阅读
新学期开始了,在学校的日子开始倒计时~~~有点矫情了。寒假在广州呆了一个月,没做什么,出去转了一圈,依然不知道找工作的事水有多深。期间看了一篇博文,感触良多。此前虽然钻研过不少技术,但是说白了就是CURD,没意思,没技术含量。早就打算坐下来看看Hadoop,但是一直没有找到合适的资料,昨天终于搜集到一份比较完整的,就此开始Hadoop学习~~共勉!!学习视频下载地址 http://pan.bai
原创 2015-03-05 19:44:24
870阅读
概论Hadoop是Apache下的开源项目  数据存储:HDFS 分布式文件系统,负责存储数据,数据分散存储NameNode管理节点,存储元数据(文件对应的数据块位置、文件大小、文件权限等信息)同时负责读写调度和存储分配DataNode数据存储节点,每个数据块会根据设置的副本数进行分级复制,保证同一个文件的每个数据块副本都在不同机器上   数据分析:MapReduce计算引擎离线计算(非实时计算)
转载 2021-02-08 19:34:30
228阅读
2评论
Writable接口1、对java中的int型进行封装那么就是hadoop中的IntWritable类,在写程序的时候可以把IntWritable可以看着是int类型,
原创 2023-05-16 00:58:03
17阅读
1.HDFS架构: NameNode保存元数据信息,包含文件的owner,permission。block存储信息等。存储在内存。 2.HDFS设计思想 文件以块的形式存贮,即block,大小为64M。大于64的文件分块,小于64则为1块。文件在上传的时候会产生副本,副本与原文件在不同的节点上,这样
转载 2017-08-01 08:51:00
85阅读
2评论
http://www.csdn.net/article/2015-06-08/2824889hive:是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供简单的sql查询功能,可以将sql语句转换为MapReduce任务进行运行。 其优点是学习成本低,可以通过类SQ...
转载 2015-09-11 09:37:00
168阅读
2评论
HaDoop 0.23.0 学习笔记0.23 介绍Hadoop MapReduceV2(Yarn) 框架简介原 Hadoop MapReduce 框架的问题对于业界的大数据存储及分布式处理系统来说,Hadoop 是耳熟能详的卓越开源分布式文件存储及处理框架,对于 Hadoop 框架的介绍在
原创 2014-04-17 14:12:41
673阅读
Hadoop 0.23.11安装以及遇到的问题解决方案
原创 2014-08-04 11:06:30
1487阅读
hadoop hbase学习笔记    当一个表中记录的数据越来越大的时候,hbase自动把表切分为不同的region,每个region包含所有行的子集,有[startkey,endkey]表示,有第一行及最后一行,加一个随机生成的区域标识符组成。不同的region会被hbase的master分配到相应的regionserver。由于原始table中的记录按照row key排序
转载 精选 2014-10-15 08:48:43
1055阅读
   从事软件开发将近四年,一直热衷于各种技术语言,但是感觉自己始终都不知道自己到底喜欢从事哪个方面的开发,毕业的前两年一直在大连做对日软件外包,做了两年后觉得真的没有什么意思,软件的设计都不是自己做的,只是需要按照需求进行程序的书写,所以和几个同事一直离职后来了北京,其实来到北京想的和现实还是不一样,最后我还是干了类似外包的项目,写这篇日记我心里一直很不确定自己喜欢什么样的技
原创 2015-10-26 14:56:34
602阅读
                            学习笔记(Hadoop分布式文件系统)Hadoop是以流式数据访问模式存储超大文件。一次写入,多次读取。每个文件,目录,数据块的存储信息需要存放在内存中,大小根据经验约为150字节。所以对于硬件内存还是有
原创 2015-10-27 18:27:05
387阅读
                            Hadoop中的作业(Job)Hadoop中的作业起始操作,JobClient.runJob(conf)方式进行作业开始,JVM里新建一个进程进行作业处理,作业里面包含任务,调用tasktracker进行
原创 2015-11-11 17:14:42
319阅读
Hadoop学习笔记—Yarn @(Hadoop)[hadoop, yarn] [TOC] 上一份工作主要负责大数据平台的建设,在这个过程中积累了一些Hadoop生态组件的搭建和使用笔记,由于时间关系,不打算去修改其中的错别...
转载 2021-04-12 21:42:25
302阅读
2评论
1.查看hdfs文件的block信息 不正常的文件 hdfs fsck /logs/xxx/xxxx.gz.gz -files -blocks -locations Connecting to namenode via http://xxx-01:50070/fsck?ugi=xxx&files=1
转载 2019-07-15 11:51:00
103阅读
2评论
hadoop能解决哪些问题?1、海量数据需要及时分析和处理2、海量数据需要深入分析和挖掘3、数据需要长期保存问题:1、磁盘IO成
原创 2023-05-16 00:22:46
61阅读
 1、2008年后期经典Hadoop服务器选型 CPU:2 X Xeon 2.0 GHz (四核) 内存:8GB 磁盘:4 X 1TB 网卡:千兆以太网卡 2、Hadoop数据节点     从Hadoop权威指南一书中可以看到作者建议在Hadoop的数据节点上不要组件raid,其中的理由是:无论raid 1、raid 5还是raid 0+1这样做的主要目的
原创 2013-04-23 16:58:31
1369阅读
  • 1
  • 2
  • 3
  • 4
  • 5