之前听说了百度用arm服务器搭建了webserver和网盘之类的东西,然后又看到有人用android电视棒里面装ubuntu,于是就有了用arm尝试做hadoop服务器的想法。但是目前arm 64位的cpu还没有出货,所以这只是个前奏性质的尝试。 从淘宝上面买了一个arm的单片机,上面有一颗基于ARMv7架构的单核cpu,1G内存,4G存储。但是最主要的,是上面有网卡接口,虽然是100M的,但这
记录一下,可能算是个比较典型的故障,磁盘满导致的task tracker无法启动。 故障是一台tasktracker挂了,怎么也起不来,报错信息如下。 2013-03-26 17:34:57,620 ERROR org.apache.hadoop.mapred.TaskTracker: Can not start&nb
启用lzo压缩对于小规模集群还是很有用的,压缩比率大概能达到原始日志大小的1/3。同时解压缩速度也比较快,Hadoop原生是支持gzip和bzip2压缩的,这两种压缩虽然压缩比率比lzo更大,但是在做map reduce解压缩的时候,慢的不能忍,所以通常不会用gzip或者bzip2。相同数据量,gzip的mr速度大概是lzo的1.5-2倍,而bzip2是lzo的3-4倍。 不过lzo不比gzip
基本都是在群里讨论的时候,别人问的入门问题,以后想到新的问题再补充进来。但是其实入门问题也很重要,对原理的理解决定了学习能够深入的程度。本篇不讨论Hadoop,只介绍周边软件。Hive:这个是我被人问的最多的软件,可见它在hadoop周边生态里的利用率也是最高的。Hive到底是什么?如何来严格的定义Hive确实不是太容易,通常我们为了非Hadoop专业人士容易理解,往往称它为数据仓库。但是,从技术
Hadoop和大数据是这两年最火的词儿们之一,越来越多的公司对这个东西感兴趣,但是我接触到的大多数公司里的人,无论是技术人员还是老板。都不知道怎么能把这些东西用于改善自己公司的业务。在解答的过程中,提炼出几个要点,记录一下。 大数据和云是不是一回事? 这是最容易混淆的概念之一,我个人认为这是两回事,云服务,无论是云主机还是云存储还是云的其他应用,都是向用户提供一个接口,但这个接
Copyright © 2005-2023 51CTO.COM 版权所有 京ICP证060544号