tjbklx33的博客_Java,云计算,Java,HDFS,MapReduce原创

我的友情链接

51CTO博客开发

原创 2017-11-22 23:10:48 419 阅读

storm安装

1、实验环境： centos6.4 jdk1.8.0 CDH-5.3.2-1 storm0.9.32、准备条件 yum install libtool yum install gcc-

安装

storm

原创 2015-05-24 20:00:57 870 阅读

jmxtrans安装使用

实验环境1、下载jmxtrans下载地址：https://github.com/jmxtrans/jmxtrans/downloads2、安装jmxtrans#判断是否已安装此软件 #rpm -qa |grep jmx #卸载软件 #rpm -e jmxXXXXXX #安装jmxtrans rpm -ivh说明： &

安装使用

jmxtrans

原创 2015-05-24 19:40:36 10000+阅读

ganglia3.6.1+jmxtrans+strom-0.9.4集成

1、安装ganglia参考之前的一篇博客（以下示例使用ganglia组播方式，单播方式大家自己尝试）http://chengyanbin.blog.51cto.com/3900113/15913732、安装jmxtranshttp://chengyanbin.blog.51cto.com/3900113/16547543、安装stormhttp://chengyanbin.blog.51cto.c

storm

集成

ganglia

原创 2015-05-21 17:31:10 5284 阅读

sparkstreaming源码分析

做个笔记，记录streaming任务执行的整个流程，下文使用的源码是master分支的代码，1.2.1版本已经发布，应该和1.2.1差别不大1、streaming程序是从StreamingContext.start()开始的，做一个必要的参数检查然后启动 jobschedulerStreamingContext.scaladef start(): Unit =&nbs

spark

streaming

源码分析

原创 2015-03-06 17:26:57 1204 阅读

centos6.4使用本地yum源安装cloudera manager 5.3.0和cdh5.3.0

1、准备工作三个节点 192.168.56.110 cdh1 192.168.56.111 cdh2 192.168.56.112 cdh3 关闭所有节点防火墙 service iptables stop chkconfig iptables off vi /etc/selinux/config SELINUX=disabled cdh1节点安装http服务并启动 yum inst

cloudermanager cdh 5

本地yum安装

原创 2015-02-06 13:38:17 2891 阅读

Jamon模板语言简介

项目中需要扒一段hbase webUI页面的内容，hbase webUI页面访问地址10.x.x.x:60010/master-status，跟踪代码后发现，此web页面使用了一个jamon的模板语言，这个做个简单介绍。既然是模块语言，都不会太复杂，要不然谁用，切入正题一、Jamon简介 Jamon是一个Java文本模板引擎，用于生成动态HTML, X

模板

jamon

原创 2015-01-27 10:14:10 1803 阅读

HBase简介

一、简介 HBase是基于列存储、构建在HDFS上的分布式存储系统，其主要功能是存储海量结构化数据。 HBase构建在HDFS之上，因此HBase也是通过增加廉价的PC机提高系统运行和存储的能力。 HBase中存储的表有如下特点：1、大表：一个表可以有数十亿行，上百万列；2、无模式：每行都有一个可排序

hbase

原创 2015-01-23 09:35:36 1861 阅读

scala高阶函数总结

1、值函数将一个函数赋值给某个变量，此变量就是一个值函数 scala> import scala.math._ import scala.math._ scala> val fun = sqrt _&n

scala

柯里化

原创 2015-01-20 11:57:05 1361 阅读

spark编译安装及部署

1、下载并编译spark源码下载spark http://spark.apache.org/downloads.html 我下载的是1.2.0版本解压并编译，在编译前，可以根据自己机器的环境修改相应的pom.xml配置，我的环境是hadoop2.4.1修改个小版本号即可，编译包括了对hive、yarn、gangl

spark

原创 2014-12-29 16:45:44 2945 阅读

ganglia3.6.1安装笔记

1、实验环境 Centos6.42、安装rrdtool(注rrdtool-1.5.3不支持3.6.1)#安装ganglia相关包 yum -y install apr-devel apr-util check-devel cairo-devel pango-devel li

centos

ganglia

原创 2014-12-18 15:08:53 1412 阅读

hbase0.98.8源码编译（基于hadoop2.4.1）

上一篇介绍了hadoop2.4.1的编译过程，以及hive和spark的编译，这次简单介绍hbase的编译过程。hbase0.98.8默认使用hadoop2.2.0进行编译，笔者的hadoop环境是2.4.1版本，为避免包不一致引发的各种错误，需要对hbase进行重新编译。1、生成编译使用的pom文件修改$HBASE_HOME/pom.xml,<

编译

hbase

原创 2014-12-11 15:35:48 1673 阅读

hadoop2.4.1源码编译步骤 hive0.13.1编译

-----------hadoop编译1、编译环境 CentOS6.5 64位 jdk1.7.0_71 maven-3.2.3 hadoop2.4.12、安装JDK,maven &n

hadoop

源码编译

hive

原创 2014-12-10 10:36:32 5839 阅读

hadoop问题汇总

1、启动journalnode时存在警告信息，sbin/hadoop-daemon.sh stop journalnodestarting journalnode, logging to /app/hadoop-2.2.0/logs/hadoop-root-journalnode-qasdba.outJava HotSpot(TM) 64-Bit Server VM warning: You ha

信息

export

library

warning

原创 2014-07-18 19:21:22 596 阅读

java.lang.OutOfMemoryError定位内存溢出的对象

在我们的程序运行过程中，经常会因为各种原因出现OutOfMemoryError的错误，而如何定位是由哪个对象溢出，可通过以下方法进行查看1、查找JVM运行的任务号 ps aux |grep ${pid} 或 jps -m |grep ${pid}2、运行jmap命令,将java的内存镜像dump到heap.bin文件中 &nbs

OutOfMemoryError

原创 2014-04-07 11:29:16 2190 阅读

javaHeap的组成及GC监控

javaHeap分为三个段：YongGeneration、OldGeneration、PermanentGenerationYoung（年轻代）年轻代分三个区。一个Eden区，两个Survivor区。大部分对象在Eden区中生成。当Eden区满时，还存活的对象将被复制到Survivor区（两个中的一个），当这个Survivor区满时，此区的存活对象将被复制到另外一个Survivor区，当这个S

GC jvm

原创 2014-04-07 10:12:41 943 阅读

flume

Flume OGFlume OG主要由上图几个组件组成：Agent、Collector、Master、HDFSAgent：主要用于采集数据，通常是由source和sink两部分组成。其中Source用于获取数据，Sink将Source获取的数据传输到Collector。Collector：主要用于汇总多个Agent传输的结果数据，将汇总的数据

Flume NG OG

原创 2014-04-06 22:12:19 1039 阅读

远程调试spark源码（基于java的调试工具）

开发人员在进行程序编码的过程中，不可避免的需要对代码进行调试，其目的是能精确定位程序的运行状况。本文对spark源码进行调试，此调试方式可以调试任何JVM相关的程序，如：普通的命令行程序、web程序等。1、实验环境 IPhostnamemasterworker192.168.56.101master是否192.168.56.102node1否是192.

jdb JDWP 调试

原创 2014-04-03 11:36:48 5800 阅读

MapReduce作业性能调优参数

Map端参数调整参数名称类型默认值说明io.sort.mbint100Map阶段内存缓存区大小，默认100Mio.sort.record.percentfloat0.05io.sort.mb有5%保存记录边界，其他缓存用来保存数据io.sort.spill.percentfloat0.8当io.sort.mb超过80%时，进行Spill操作io.sort.factorint10map结束前做Mer

MapReduce 调优

原创 2014-04-02 10:30:04 813 阅读

hbase无法正常启动问题

在完全分布式环境下，hbase启动时无法正常启动，logs日志中抛出异常信息org.apache.hadoop.hbase.ClockOutOfSyncException此问题是由于master和RegionServer节点的时间不一致导致，解决方案如下：方案1：修改所以节点时间并使之同步internet时间方案2：在hbase-site.xml文件中增加属性 <property

hbase无法正常启动问题 ClockO

原创 2014-04-01 21:50:23 1092 阅读

SecondaryNamenode的作用

Secondarynamenode会按照配置的时间及大小定期合并namenode节点上的fsp_w_picpath和editlog，这样做的目的包含两方面：1、editlog中可能包含一些文件的创建及删除的操作，合并之后，删除的文件就不存在了只保存了存在的文件，删除的文件就不会合并到fsp_w_picpath中，这样会节省空间2、Namenode在每次重启时都会将fsp_w_picpath和edi

SecondaryName Hadoop

原创 2014-04-01 21:48:40 1144 阅读

HDFS 的读写删操作详解

HDFS写操作：1、Client写文件时，先向namenode发起一个写文件的请求2、Namenode会在元数据中为此请求分配文件名和备份数，将分配置的Datanode列表返回给Client3、Client向第一个Datanode发起Write请求，并将Datanode列表发给第一个Datanode，Datanode接收Block中的小块信息后，通过管道的方式将接收的小块信息及Datanode去除

Hadoop HDFS

原创 2014-04-01 21:44:15 768 阅读

MapReduce工作原理

1、将原始输入的数据分成N份（每份默认为64M），交给N个Map节点任务2、Map收到分片的数据后调用用户自定义的Map函数，生成多个KeyValue数据对3、MapReduce提供了Partition接口，Partition会根据Reduce的个数来决定当前当前这个KeyValue数据对应该由哪个Reduce处理。（默认的Partition是采用Key的hash值取Reduce的模）4、输出的K

MapReduce 原理

原创 2014-04-01 21:41:53 747 阅读

官方博客	全部文章	热门标签	班级博客
了解我们	网站地图	意见反馈

鸿蒙开发者社区	51CTO学堂
51CTO	软考资讯

51CTO博客

滴水石穿