hive上可以使用多种格式,比如纯文本,lzo、orc等,为了搞清楚它们之间的关系,特意做个测试。一、建立样例表hive> create table tbl( id int, name string ) row format delimited fields terminated by '|' stored as textfile;OKTime taken: 0.338 secondshiv
FileSystem fs = FiileSystem.get(new URI("hdfs://hadoop1:9000"),new Configuration() );以这种方式可以创建fs对象,但缺点时,使用了空白的Configuration对象,实际上只授予了fs.default.name这个属性,当访问的HDFS使用了HA(需要多个参数配合,同时指定),或者需要指定其它设置的时候,就会有问
一、日志分类 1、进程日志 进程日志即为hadoop各个守护进程的日志,例如ResourceManager、NodeManager、NameNode、DataNode等守护进程。集群启动或者运行期间出现异常,首先应该查看进程日志,它是系统排障的重要工具。默认位置为${HADOOP_HOME}/logs。可以在mapred-env.sh和yarn-env.sh中分别指定HAD
因为工作需要,要搭建一个虚拟机,做一个伪分布式的开发环境。搭建很顺利,测试环境不用考虑太多,启动hdfs,搞定!启动yarn,搞定。运行一个examples看看,结果作业一直卡在accepted状态,一直没有真正运行,而且从日志上看,也没有任何的报错信息。这个问题困惑了两天,搜索了很多国内外的网页,都没有明确的解决办法。后来参考了一下内存配置,将内存分配改大了,该问题得到了解决。该问题应该只出现在
昨天因为datanode出现大规模离线的情况,初步判断是dfs.datanode.max.transfer.threads参数设置过小。于是将所有datanode节点的hdfs-site.xml配置文件都作了调整。重启集群后,为了验证,试着运行一个作业,在jobhistory中查看该作业的configuration,令人意外的是,显示的居然还是旧的值,也就是说,作业还是用旧的值运行的,明明所有da
因为需要部署spark环境,特意重新安装了一个测试的hadoop集群,现将相关步骤记录如下:硬件环境:四台虚拟机,hadoop1~hadoop4,3G内存,60G硬盘,2核CPU软件环境:CentOS6.5,hadoop-2.6.0-cdh5.8.2,JDK1.7部署规划:hadoop1(192.168.0.3):namenode(active)、resourcemanagerhadoop2(19
resource manager HA是hadoop自从2.4之后推出的功能,以Active/Standby的方式提供冗余,目的是为了消除单点失败的风险。1、总体架构:2、故障切换:有自动和手动两种形式。手动:如果以手动形式切换,使用yarn haadmin命令首先将Active节点转为standby,再将standby节点转为active。自动:RM有基于zookeeper的节点选举机制决定哪一
Copyright © 2005-2024 51CTO.COM 版权所有 京ICP证060544号