背景在虚拟化的云环境中,Hadoop可以有更好的“弹性”,这是云计算的一个重要优势,例如亚马逊的EMR(ElasticMapReduce)服务, 用户可以迅速的在云中根据需求部署一个Hadoop集群,运行计算任务,并且用户可以向集群动态的添加或删除计算节点。这里存在着一个潜在问题,Haodop的数据节点并非天生的“有弹性”,删除一个数据节点意味着需要重新复制存储在这个节点的数据,这是一个缓慢的过程
推荐 原创 2013-11-06 16:38:35
8008阅读
1点赞
1评论
文件存储分行存储和列存储,每个存储格式里面又分不同的类型,在实际的应用中如何去使用?怎样去使用?快来围观吧!文件存储格式,我们在什么时候去指定呢?比如在Hve和Ipala中去创建表的时候,我们除了指定列和分隔符,在它的命令行结尾有STORED AS参数,这个参数默认是文本格式,但是文本不适合所有的场景,那么在这里我们就可以改变文本的信息。那么到底我们应该选择哪些格式呢?每种格式都有什么样的特点呢?