Logo

  • 李振良OK

    发布于:2015-06-26 13:52:59

    1

    基于Hadoop数据仓库Hive1.2部署及使用
    以下基于上篇Hadoop2.6集群部署:http://lizhenliang.blog.51cto.com/7876557/1661354接下来安装Hadoop数据仓库Hive,上节了解HBase简单使用,听起来HBase与Hive有些类似,概念也有点模糊,那我们先了解下他们之间有什么区别:  HBase是一种分布式、面向列的NoSQL数据库,基于HDFS存储,以表的形式存储数据,表由行
    精选文章 2579人阅读 评论(0) 收藏(0)
  • 菜菜光

    发布于:2015-02-07 11:36:46

    1

    hive2solr问题小结
      搞了一段时间,hive2solr的job终于可以稳定的跑了,实现使用hive向solr插数据,主要是实现RecordWriter接口,重写write方法和close方法。下面对遇到的问题一一列出:1.数据覆盖问题,使用原子更新参考:http://caiguangguang.blog.51cto.com/1652935/15991372.重复构建solrserver和solrtable
    精选文章 718人阅读 评论(2) 收藏(0)
  • 菜菜光

    发布于:2015-01-14 22:43:38

    0

    hive on tez踩坑记2-hive0.14 on tez
    在测试hive0.14.0 on tez时遇到的问题比较多:1.在使用cdh5.2.0+hive0.14.0+tez-0.5.0测试时,首先遇到下面的问题java.lang.NoSuchMethodError: org.apache.tez.dag.api.client.Progress.getFailedTaskAttemptCount()I    &nb
    精选文章 4660人阅读 评论(0) 收藏(0)
  • hsbxxl

    发布于:2014-12-19 12:36:50

    0

    RAC Archive log写入错误的节点
      由于多个客户几次问到,RAC环境中,node2的归档日志,写入到node1的archive路径中。 这个问题导致一些客户在使用OGG的情况下,有时无法正确读取日志的问题。   那是什么原因导致的这个问题呢?  
    精选文章 193人阅读 评论(0) 收藏(0)
  • 菜菜光

    发布于:2014-12-18 23:07:45

    0

    实现hive proxy5-数据目录权限问题解决
    hive创建目录时相关的几个hdfs中的类:org.apache.hadoop.hdfs.DistributedFileSystem,FileSystem 的具体实现类 org.apache.hadoop.hdfs.DFSClient,client操作hdfs文件系统的类 org.apache.hadoop.fs.permission.FsPermission 文件权限相关类,
    精选文章 273人阅读 评论(0) 收藏(1)
  • 菜菜光

    发布于:2014-12-14 21:42:23

    0

    实现hive proxy2-hive操作hadoop时使用用户的地方
      hive权限有两层,hive本身的验证和hadoop的验证。自定义hive的proxy功能时,hive层面的相关验证更改在http://caiguangguang.blog.51cto.com/1652935/1587251 中已经提过,这里说下hive和hadoop以及本地文件系统相关的几个出现用户的地方:1.job的log文件session初始化时会初始化日志文件,主要在Sess
    精选文章 409人阅读 评论(0) 收藏(0)
  • 菜菜光

    发布于:2014-11-04 23:59:35

    0

    hive执行流程(3)-Driver类分析1Driver类整体流程
      Driver类是对org.apache.hadoop.hive.ql.processors.CommandProcessor.java接口的实现,重写了run方法,定义了常见sql的执行方式.public class Driver implements CommandProcessor具体的方法调用顺序:run--->runInterna
    精选文章 564人阅读 评论(0) 收藏(0)
  • xiaoli110

    发布于:2014-10-27 08:29:27

    3

    KVM镜像管理利器-guestfish使用详解
    虚拟化,KVM,guestfish
    精选文章 5938人阅读 评论(3) 收藏(1)
  • 菜菜光

    发布于:2014-10-15 23:45:35

    0

    hive的shims相关类分析
      在hive的源码中经常可以看到shims相关的类,shims相关类是用来兼容不同的hadoop和hive版本的,以HadoopShims为例org.apache.hadoop.hive.shims.HadoopShims是一个接口,具体的实现类为org.apache.hadoop.hive.shims.Hadoop20Shims org.apache.hadoop.hive.shim
    精选文章 1176人阅读 评论(0) 收藏(0)
  • 菜菜光

    发布于:2014-10-15 00:04:36

    0

    hive启动debug问题
      最近在debug hive的一个bug,之前都是使用打印日志来跟踪源码,这种方式效率比较低(每次更改了源码都要重新编译并替换线上的jar包),java的应用可以支持remote debug的,hive也不例外,主要是通过hive --debug来实现.在运行hive --debug时遇到如下问题:ERROR: Cannot load this 
    精选文章 384人阅读 评论(0) 收藏(0)
  • powertoolsteam

    发布于:2014-08-26 14:08:25

    0

    报表,是件容易的事吗?
    ActiveReports的成长史,也见证了中国研发创新的历程:从远观,到参与,到主导。
    精选文章 299人阅读 评论(0) 收藏(0)
  • 菜菜光

    发布于:2014-08-22 21:11:10

    0

    hive超级用户drop partition无权限问题bug
      今天有个etl开发在drop partition的时候遇到了问题,因为是使用了自己的账号,而hdfs中对应partition的文件属主是hdfs的,在删除时会因为权限问题报错,切换用户为hdfs,做drop partition的错误,还是报错,看来没这么简单。查看表的hdfs属性,目录的属主不是hdfs且目录对 hdfs没有写权限:[hdfs@nfzm ~]$&n
    精选文章 427人阅读 评论(0) 收藏(0)
  • 菜菜光

    发布于:2014-08-18 22:38:20

    1

    hive中打印日志的几种方式实现
    在debug hive的问题时,我们经常需要在源码里面增加必要的日志信息,来跟踪变量的变化或者是方法执行的情况,性能等。。hive里面有下面几个日志的实现方式。1种是常用的通过org.apache.commons.logging.Log和org.apache.commons.logging.LogFactory类实现的。比如要打印类的info信息时,只需要下面这样就可以。static f
    精选文章 966人阅读 评论(0) 收藏(0)
  • powertoolsteam

    发布于:2014-08-05 19:02:32

    0

    微软正式发布Visual Studio 2013 Update 3 (2013.3) RTM
    昨天微软的Visual Studio 2013 Update 3(Visual Studio 2013.3)正式发布(RTM)了,做为微软认证金牌合作的葡萄城控件,我们组织力量第一时间进行翻译、分享给大家:下载 Visual Studio 2013 Update 3此更新程序是最新的一个累加了新功能和错误修复的Visual Studio2013,您可以从以下链接获得Visual Studio201
    精选文章 239人阅读 评论(0) 收藏(0)
  • 菜菜光

    发布于:2014-07-30 22:03:39

    1

    关于hive RegexSerDe的源码分析
      最近有个业务建表使用了 RegexSerDe,之前虽然也它来解析nginx日志,但是没有做深入的了解。这次看了下其实现方式。建表语句:CREATE external TABLE ods_cart_log ( time_local STRING, request_json  STRING, trace_id_num 
    精选文章 437人阅读 评论(1) 收藏(0)
  • 菜菜光

    发布于:2014-07-24 00:17:40

    0

    hive0.13 rows loaded为空问题源码分析及fix
    升级hive0.13之后发现job运行完成后Rows loaded的信息没有了。rows loaded的信息在hive0.11中由HiveHistory类的printRowCount输出。HiveHistory类的主要用途是记录job运行的信息,包括task的counter等。默认的目录在/tmp/$user中。 hive0.11在SessionState 的start方法中会
    精选文章 176人阅读 评论(0) 收藏(0)
  • 菜菜光

    发布于:2014-07-19 09:41:42

    0

    hive0.13用户自建表无权限bug fix
    最近线上的hive升级到了0.13,遇到不少问题。权限上面,设置了hive.security.authorization.createtable.owner.grants 在hive0.13中,用户自己创建的表也没有权限。通过对源码的分析和debug找到了rc并fix,下面记录下。1.首先在hive0.11中和hive0.13中分别做建表测试,通过查看数据库中的元数据,发现在hive0.11中如果
    精选文章 298人阅读 评论(0) 收藏(0)
  • wangxucumt

    发布于:2014-07-04 09:18:24

    0

    hive任务提交的相关权限认证详析
        最近在研究Hue,遇到一个问题,在Hive Editor写一个HQL,提交后会报权限错误,类似这样的Authorization failed:No privilege 'Select' found for inputs {database:xxx, table:xxx,&
    精选文章 792人阅读 评论(0) 收藏(0)
  • 菜菜光

    发布于:2014-06-05 19:09:54

    0

    hive2solr时count的一个bug
    最近在测试hive导入solr,github上有个相关的代码https://github.com/chimpler/hive-solr其原理就是实现inputformat和outputformat,通过mapred来做数据的读写操作。测试的表结构:show create table table_in_solr1; CREATE EXTERNAL T
    精选文章 499人阅读 评论(0) 收藏(0)
  • 菜菜光

    发布于:2014-05-20 13:15:07

    0

    hive小文件合并思路
    对于hdfs来说,系统的压力主要集中在namenode  如果在整个hadoop集群中存在大量的小文件,会消耗namenode的大量内存(大概146B一个元数据)另一方面,如果小文件过多,有没有开启combine inputformat,在进行split分片的时候,会产生大量的map,严重影响到mapred的利用率。定期对小文件进行清理就会变得很必要,比如我会每天有报表来获取hive中表
    精选文章 2229人阅读 评论(0) 收藏(0)
写博文