Logo

  • Slaytanic

    发布于:2017-11-02 19:25:32

    4

    Hadoop运维记录系列(二十一)
    Zeppelin启用https过程和Hack内核以满足客户需求的记录。原因是这客户很有意思,该客户中国分公司的人为了验证内网安全性,从国外找了一个渗透测试小组对Zeppelin和其他产品进行黑客测试,结果发现Zeppelin主要俩问题,一个是在内网没用https,一个是zeppelin里面可以执行shell命令和python语句。其实这不算大问题,zeppelin本来就是干这个用的。但是渗透小组不
    精选文章 4547人阅读 评论(1) 收藏(0)
  • bingyang87628

    发布于:2017-09-26 23:24:31

    3

    大数据实践总结--两个故障的处理及思路总结
        已经有一段时间没有更新实践内容了,不是因为没有在学习。而是工作上出现一个新的挑战,又在忙论文查重,论文也是大数据方向的,主要是ICT方向的一个技术(若有人感兴趣,我会另开一个帖子来详细谈这个内容)。    而且最近,把之前所有的实践环境换了一台电脑来重新搭建。按理说会很顺利,但没想到,还是出了许多问题。一些简单的问题就直接解决了,但仍是有两
    精选文章 1415人阅读 评论(0) 收藏(1)
  • Slaytanic

    发布于:2016-12-30 15:22:50

    3

    Apache Bigtop再论与卖书求生存
    快一年没写博客了,终于回来了,最近因公司业务需要,要基于cdh发行版打包自定义patch的rpm,于是又搞起了bigtop,就是那个hadoop编译打包rpm和deb的工具,由于国内基本没有相关的资料和文档,所以觉得有必要把阅读bigtop源码和修改的思路分享一下。我记得很早以前,bigtop在1.0.0以前版本吧,是用make进行打包的,其实这个0.9.0以前的版本,搁我觉得就不应该出现在apa
    精选文章 495人阅读 评论(3) 收藏(0)
  • yushaoqing

    发布于:2016-07-07 00:27:38

    3

    hadoop源码解析---INodeReference机制
    本文主要介绍了hadoop源码中hdfs的INodeReference机制。在hdfs2.6版本中,引入了许多新的功能,一些原有的源代码设计也有一定的改造。一个重要的更新就是引入了快照功能。但是当HDFS文件或者目录处于某个快照中,并且这个文件或者目录被重命名或者移动到其他路径时,该文件或者目录就会存在多条访问路径。INodeReference就是为了解决这个问题产生的。问题描述/a是hdfs中的
    精选文章 336人阅读 评论(0) 收藏(1)
  • 酱酱酱子啊

    发布于:2016-07-06 11:18:14

    3

    logstash将Kafka中的日志数据订阅到HDFS
    前言:通常情况下,我们将Kafka的日志数据通过logstash订阅输出到ES,然后用Kibana来做可视化分析,这就是我们通常用的ELK日志分析模式。但是基于ELK的日志分析,通常比较常用的是实时分析,日志存个十天半个月都会删掉。那么在一些情况下,我需要将日志数据也存一份到我HDFS,积累到比较久的时间做半年、一年甚至更长时间的大数据分析。下面就来说如何最简单的通过logstash将kafka中
    精选文章 3228人阅读 评论(2) 收藏(1)
  • gdutccd

    发布于:2016-02-05 11:38:09

    0

    hadoop+zookepper实现namenode的高可用
    Hadoop+zookeepker安装与配置: 在hadoop-env.sh中添加export JAVA的环境变量修改hostname文件的名称,/etc/hosts文件配置主机名和ip的映射关系,将mstaer,slave的主机名和ip地址都添加进来 配置ssh免密钥配置Ssh-keygen –t rsa在./.ssh文件中生成两个文件id_rsa(私钥),id_rsa.pu
    精选文章 566人阅读 评论(0) 收藏(1)
  • Slaytanic

    发布于:2015-11-13 19:00:35

    8

    Hadoop运维记录系列(十七)
    上个月通过email,帮朋友的朋友解决了一个Cloudera的Spark-SQL无法访问HBase做数据分析的问题,记录一下。
    精选文章 3423人阅读 评论(5) 收藏(1)
  • Slaytanic

    发布于:2015-07-13 14:50:53

    1

    使用flume替代原有的scribe服务
    以前很多业务都是用scribe做日志收集的支撑的,后来fb停止了对scribe的开发支持。而且scribe在机器上编译一次的代价太大了,各种坑,正好后来flume从1.3.0开始加入了对scribe的支持。就可以把原来scribe上面接入的数据转用flume收集了。虽然我很喜欢scribe,但是失去了官方支持毕竟还是很闹心的。agent.channels=c1 agent.channels.c1.
    精选文章 1896人阅读 评论(1) 收藏(0)
  • superpopb2b

    发布于:2015-01-10 23:45:27

    0

    去除Hadoop-Streaming行末多余的TAB
        单位有一组业务一直都是使用Streaming压缩文本日志,大体上就是设置作业输出为BZ2格式,怎么输入就怎么输出,没有任何处理功能在里面。但是每行结尾都多出来一个TAB。终于,有一个业务需要使用TAB前的最后一个字段,不去掉不行了。    虽然是个小问题,但是网上搜了一圈,也没有很好的解决。很多人都遇到了,但是单位的业务比较特殊,只有map没有red
    精选文章 755人阅读 评论(0) 收藏(0)
  • 菜菜光

    发布于:2014-12-22 21:57:20

    0

    hadoop jetty的应用
      在hadoop中很多地方都用到了servlet,并且使用jetty作为servlet的容器来提供http的服务,其主要是通过org.apache.hadoop.http.HttpServer类实现的,HttpServer类是对Jetty的简单封装,通过调用HttpServer类的addServlet方法增加可以实现增加servlet到jetty的功能:  publ
    精选文章 246人阅读 评论(0) 收藏(0)
  • 上官战

    发布于:2014-12-14 16:09:08

    1

    使用shell并发上传文件到hdfs
    从本地到hdfs的并发脚本相关说明及代码实现。
    精选文章 1495人阅读 评论(3) 收藏(0)
  • shine_forever

    发布于:2014-12-04 16:27:46

    0

    利用开源日志收集软件fluentd收集日志到HDFS文件系统中
    利用开源的日志收集系统fluentd,把日志写入到HDFS文件系统中!
    精选文章 5211人阅读 评论(0) 收藏(0)
  • wangxucumt

    发布于:2014-11-25 11:23:18

    1

    DataNode与NameNode交互机制相关代码分析
        HDFS Federation是为解决HDFS单点故障而提出的NameNode水平扩展方案,该方案允许HDFS创建多个Namespace以提高集群的扩展性和隔离性。在Federation中新增了block-pool的概念,block-pool就是属于单个Namespace的一组block,每个DataNode为所有的block-pool存储block
    精选文章 1325人阅读 评论(0) 收藏(0)
  • wangxucumt

    发布于:2014-11-12 10:36:04

    1

    DataNode文件系统源码分析
        在DataNode的本地存储空间上,与存储服务密切相关的,比如创建数据块,恢复数据块,数据块校验等相关的代码都在org.apache.hadoop.hdfs.server.datanode.fsdataset包下(代码版本CDH5.1)    首先说下org.apache.hadoop.hdfs.server.
    精选文章 2195人阅读 评论(0) 收藏(0)
  • shine_forever

    发布于:2014-11-03 09:55:03

    2

    利用pig分析cdn访问日志内指定时间段的url访问次数
    利用pig分析cdn访问日志,找到指定时间段内,各个url访问次数,并且按照从大到小的次序排列!
    精选文章 7632人阅读 评论(2) 收藏(0)
  • wangxucumt

    发布于:2014-10-24 14:27:40

    1

    MRv2内存监控强杀Container问题解决
            线上某个hive job运行失败,报错如下    Container [pid=28474,containerID=container_1411897705890_0181_01_000012] is running bey
    精选文章 640人阅读 评论(0) 收藏(0)
  • 菜菜光

    发布于:2014-10-22 23:53:02

    3

    sudo bug导致的zabbix断图问题
      线上使用zabbix的host update来监测监控值是否完整(关于host update的实现请参考:http://caiguangguang.blog.51cto.com/1652935/1345789)一直发现有机器过一段时间update值就会莫名其妙变低,之前一直没有找到rc,只是简单通过重启agent来进行修复,最近同事细心地发现可能是和sudo的bug有关系。回过头再来
    精选文章 1469人阅读 评论(4) 收藏(1)
  • shine_forever

    发布于:2014-10-22 16:41:47

    1

    hadoop插件sqoop使用案例
    sqoop是hadoop项目中一个插件,可以把分布式文件系统hdfs中内容导入到mysql指定表里面,也可以把mysql中内容导入到hdfs文件系统中进行后续操作。测试环境说明:hadoop版本:hadoop-0.20.2sqoop版本:sqoop-1.2.0-CDH3B4java版本:jdk1.7.0_67mysql版本:5.1.65特别说明:因为我安装的是hadoop-0.20.2版本,sqo
    精选文章 3478人阅读 评论(0) 收藏(0)
  • shine_forever

    发布于:2014-10-14 13:52:43

    2

    你用pig分析access_log日志中ip访问次数
    你用pig分析web访问日志demo
    精选文章 2238人阅读 评论(0) 收藏(0)
  • zengzhaozheng

    发布于:2014-10-09 11:06:28

    1

    Hadoop1.x和2.X的HDFS fsimage和edits文件运行机制对比
    一、概述    之前写过一篇非常详细的,利用QJM在HDFS2.0部署HA策略的文章,主要说了利用QJM进行HA部署以及其原理(http://zengzhaozheng.blog.51cto.com/8219051/1441170 )。但是,其中没有详细描述HADOOP2.x通过QJM部署HA完毕之后,ActiveNamenode和StandbyN
    精选文章 729人阅读 评论(1) 收藏(0)
写博文