kylin和hive性能比对

转载

是大魔术师 2024-09-06 14:45:24

九、hadoop集群客户端节点

为什么要配置客户端连接集群？

1.这涉及两个操作HDFS集群的方式集群内操作和集群外操作
2.其中集群内操作就是在集群内某个节点上操作
3.集群外操作就是用集群之外的client与nameNode进行通信，完成操作

但是其群内操作会造成数据倾斜问题，严重时会导致节点的宕机。

集群内操作，选择一台DataNode节点作为操作的对象，每次上传文件的时候根据备份机制，上传的文件会本身会上传到自己上，备份到其他的节点。
久而久之，此节点的磁盘和网络IO负载超过其他的节点，导致它的性能远远低于其他的节点，此时会造成数据倾斜，严重点说，它的负载很大，也就容易宕机，此时集群内还要备份它原来存储的内容，这就造成额外的磁盘和网络IO
还有是因为计算时间的问题，当发生数据倾斜的时候，因为某节点存放的数据量很大，所有当分布计算任务时，数据量大的节点需要的计算时间就更多，当此节点计算完毕时，这个任务才会执行完毕，所有这样很占用时间。

（侵删！以上部分来自：）

export PATH=$PATH:$HADOOP_HOME/bin:$HADOOP_HOME/sbin
#Hadoop实际安装位置
export HADOOP_HOME=/usr/local/hadoop/hadoop-2.7.4

使之生效source /etc/profile

<!--指定namenode的地址-->
  	<property>
           	<name>fs.defaultFS</name>
           	<value>hdfs://192.168.88.129:9000</value>
  	</property>

#修改主机名
hostnamectl set-hostname client
#验证
hostname

192.168.88.129 node
192.168.88.130 node1
192.168.88.131 node2
192.168.88.132 cilent  #实际client的IP

本文章为转载内容，我们尊重原作者对文章享有的著作权。如有内容错误或侵权问题，欢迎原作者联系我们进行内容更正或删除文章。

提问和评论都可以，用心的回复会被更多人看到评论

发布评论

相关文章

官方博客	全部文章	热门标签	班级博客
了解我们	网站地图	意见反馈

鸿蒙开发者社区	51CTO学堂
51CTO	软考资讯