51CTO博客开发
1、实验环境: centos6.4 jdk1.8.0 CDH-5.3.2-1 storm0.9.32、准备条件 yum install libtool yum install gcc-
实验环境1、下载jmxtrans下载地址:https://github.com/jmxtrans/jmxtrans/downloads2、安装jmxtrans#判断是否已安装此软件 #rpm -qa |grep jmx #卸载软件 #rpm -e jmxXXXXXX #安装jmxtrans rpm -ivh说明: &
1、安装ganglia参考之前的一篇博客(以下示例使用ganglia组播方式,单播方式大家自己尝试)http://chengyanbin.blog.51cto.com/3900113/15913732、安装jmxtranshttp://chengyanbin.blog.51cto.com/3900113/16547543、安装stormhttp://chengyanbin.blog.51cto.c
做个笔记,记录streaming任务执行的整个流程,下文使用的源码是master分支的代码,1.2.1版本已经发布,应该和1.2.1差别不大1、streaming程序是从StreamingContext.start()开始的,做一个必要的参数检查然后启动 jobschedulerStreamingContext.scaladef start(): Unit =&nbs
1、准备工作 三个节点 192.168.56.110 cdh1 192.168.56.111 cdh2 192.168.56.112 cdh3 关闭所有节点防火墙 service iptables stop chkconfig iptables off vi /etc/selinux/config SELINUX=disabled cdh1节点安装http服务并启动 yum inst
项目中需要扒一段hbase webUI页面的内容,hbase webUI页面访问地址10.x.x.x:60010/master-status,跟踪代码后发现,此web页面使用了一个jamon的模板语言,这个做个简单介绍。既然是模块语言,都不会太复杂,要不然谁用,切入正题一、Jamon简介 Jamon是一个Java文本模板引擎,用于生成动态HTML, X
一、简介 HBase是基于列存储、构建在HDFS上的分布式存储系统,其主要功能是存储海量结构化数据。 HBase构建在HDFS之上,因此HBase也是通过增加廉价的PC机提高系统运行和存储的能力。 HBase中存储的表有如下特点:1、大表:一个表可以有数十亿行,上百万列;2、无模式:每行都有一个可排序
1、值函数 将一个函数赋值给某个变量,此变量就是一个值函数 scala> import scala.math._ import scala.math._ scala> val fun = sqrt _&n
1、下载并编译spark源码 下载spark http://spark.apache.org/downloads.html 我下载的是1.2.0版本 解压并编译,在编译前,可以根据自己机器的环境修改相应的pom.xml配置,我的环境是hadoop2.4.1修改个小版本号即可,编译包括了对hive、yarn、gangl
1、实验环境 Centos6.42、安装rrdtool(注rrdtool-1.5.3不支持3.6.1)#安装ganglia相关包 yum -y install apr-devel apr-util check-devel cairo-devel pango-devel li
上一篇介绍了hadoop2.4.1的编译过程,以及hive和spark的编译,这次简单介绍hbase的编译过程。hbase0.98.8默认使用hadoop2.2.0进行编译,笔者的hadoop环境是2.4.1版本,为避免包不一致引发的各种错误,需要对hbase进行重新编译。1、生成编译使用的pom文件 修改$HBASE_HOME/pom.xml,<
-----------hadoop编译1、编译环境 CentOS6.5 64位 jdk1.7.0_71 maven-3.2.3 hadoop2.4.12、安装JDK,maven &n
1、启动journalnode时存在警告信息,sbin/hadoop-daemon.sh stop journalnodestarting journalnode, logging to /app/hadoop-2.2.0/logs/hadoop-root-journalnode-qasdba.outJava HotSpot(TM) 64-Bit Server VM warning: You ha
在我们的程序运行过程中,经常会因为各种原因出现OutOfMemoryError的错误,而如何定位是由哪个对象溢出,可通过以下方法进行查看1、查找JVM运行的任务号 ps aux |grep ${pid} 或 jps -m |grep ${pid}2、运行jmap命令,将java的内存镜像dump到heap.bin文件中 &nbs
javaHeap分为三个段:YongGeneration、OldGeneration、PermanentGenerationYoung(年轻代)年 轻代分三个区。一个Eden区,两个Survivor区。大部分对象在Eden区中生成。当Eden区满时,还存活的对象将被复制到Survivor区 (两个中的一个),当这个Survivor区满时,此区的存活对象将被复制到另外一个Survivor区,当这个S
Flume OGFlume OG主要由上图几个组件组成:Agent、Collector、Master、HDFSAgent: 主要用于采集数据,通常是由source和sink两部分组成。其中Source用于获取数据,Sink将Source获取的数据传输到Collector。Collector: 主要用于汇总多个Agent传输的结果数据,将汇总的数据
开发人员在进行程序编码的过程中,不可避免的需要对代码进行调试,其目的是能精确定位程序的运行状况。本文对spark源码进行调试,此调试方式可以调试任何JVM相关的程序,如:普通的命令行程序、web程序等。1、实验环境 IPhostnamemasterworker192.168.56.101master是否192.168.56.102node1否是192.
Map端参数调整参数名称类型默认值说明io.sort.mbint100Map阶段内存缓存区大小,默认100Mio.sort.record.percentfloat0.05io.sort.mb有5%保存记录边界,其他缓存用来保存数据io.sort.spill.percentfloat0.8当io.sort.mb超过80%时,进行Spill操作io.sort.factorint10map结束前做Mer
在完全分布式环境下,hbase启动时无法正常启动,logs日志中抛出异常信息org.apache.hadoop.hbase.ClockOutOfSyncException此问题是由于master和RegionServer节点的时间不一致导致,解决方案如下:方案1:修改所以节点时间并使之同步internet时间方案2:在hbase-site.xml文件中增加属性 <property
Secondarynamenode会按照配置的时间及大小定期合并namenode节点上的fsp_w_picpath和editlog,这样做的目的包含两方面:1、editlog中可能包含一些文件的创建及删除的操作,合并之后,删除的文件就不存在了只保存了存在的文件,删除的文件就不会合并到fsp_w_picpath中,这样会节省空间2、Namenode在每次重启时都会将fsp_w_picpath和edi
HDFS写操作:1、Client写文件时,先向namenode发起一个写文件的请求2、Namenode会在元数据中为此请求分配文件名和备份数,将分配置的Datanode列表返回给Client3、Client向第一个Datanode发起Write请求,并将Datanode列表发给第一个Datanode,Datanode接收Block中的小块信息后,通过管道的方式将接收的小块信息及Datanode去除
1、将原始输入的数据分成N份(每份默认为64M),交给N个Map节点任务2、Map收到分片的数据后调用用户自定义的Map函数,生成多个KeyValue数据对3、MapReduce提供了Partition接口,Partition会根据Reduce的个数来决定当前当前这个KeyValue数据对应该由哪个Reduce处理。(默认的Partition是采用Key的hash值取Reduce的模)4、输出的K
Copyright © 2005-2024 51CTO.COM 版权所有 京ICP证060544号