hadoop4v hadoop4v特性

转载

mob64ca13f34c58 2023-12-13 07:01:41

文章标签 hadoop4v hadoop 数据 xml 文章分类 Hadoop 大数据

一、大数据的4V特征：

1.大数据量：数据的存储量大，增量大
2.速度快：数据的增长速度快，对处理数据的响应速度有更严格的要求，数据的处理几乎无延迟，时效性高
3.多样性：1）数据的来源多样性，除了传统的交易数据外，还有社交网站等多种来源的数据
		 2）数据的种类多样性，具体可分为结构化数据，如财务系统数据等，半结构化数据，如网页等和非结构化数据，如视频，图片等
4.价值密度低：大数据真正的价值体现在从大量不相关的各种类型的数据中，挖掘出对未来发展有价值的数据，进行深度分析并运用于各个行

二、Hadoop（apache开发开源分布式系统基础架构）三大核心：

1.分布式文件系统HDFS，有高容错性，可以部署在价格低廉的服务器上，主要包含namenode和datanode
2.分布式计算框架MapReduce，是一种离线计算框架，适合离线批处理，缺点启动开销大，任务多使用磁盘效率低
3.分布式资源管理系统YARN，主要包含ResourceManagerh和NodeManager

三、hodoop安装（CDH版）伪分布式

1、下载源文件（hadoop-2.6.0-cdh5.14.2）
2、解压文件

tar -zxf hadoop-2.6.0-cdh5.14.2.tar.gz

3.移动文件夹到soft目录下

mv hadoop-2.6.0-cdh5.14.2 soft/hadoop260

4、进入文件夹目录下

cd soft/hadoop260/etc/hadoop

5、打印文件路径

echo $JAVA_HOME

6、进入文件

vi hadoop-env.sh

7、修改配置

export JAVA_HOME=/opt/soft/jdk180

8、进入文件

vi core-site.xml

9、在configuration下加

<property>
            	<name>fs.defaultFS</name>
                <value>hdfs://192.168.56.138:9000</value>          //默认地址
        </property>
        <property>
                <name>hadoop.tmp.dir</name>
                <value>/opt/soft/hadoop260/tmp</value>           //临时存储路径
		</property>
        <property>
                <name>hadoop.proxyuser.root.hosts</name>   //任意用户
                <value>*</value>
        </property>
        <property>
                <name>hadoop.proxyuser.root.groups</name>
                <value>*</value>                           //任意组
        </property>

10、进入文件

vi hdfs-site.xml

11.配置文件

<property>
                <name>dfs.replication</name>
                <value>1</value>             //1副本
        </property>

12、复制文件

cp mapred-site.xml.template mapred-site.xml

13、进入文件

vi mapred-site.xml

14、加配置

<property>
                <name>mapreduce.framework.name</name>
                <value>yarn</value>
        </property>

15、进入文件

vi yarn-site.xml

16、配置

<property>
                <name>yarn.resourcemanager.localhost</name>
                <value>localhost</value>
        </property>
        <property>
                <name>yarn.nodemanager.aux-services</name>
                <value>mapreduce_shuffle</value>
        </property>

17、进入文件

vi /etc/profile

18、配置文件

加
export HADOOP_HOME=/opt/soft/hadoop260    //文件路径
export HADOOP_MAPRED_HOME=$HADOOP_HOME
export HADOOP_COMMON_HOME=$HADOOP_HOME
export HADOOP_HDFS_HOME=$HADOOP_HOME
export YARN_HOME=$HADOOP_HOME
export HADOOP_COMMON_LIB_NATIVE_DIR=$HADOOP_HOME/lib/native
export PATH=$PATH:$HADOOP_HOME/sbin:$HADOOP_HOME/bin
export HADOOP_INSTALL=$HADOOP_HOME

20、source /etc/profile
21、hadoop namenode -format //全选yes
22、start-all.sh
23、jps
24、stop-all.sh
25、网页输入地址 192.168.56.138.50070 （你的ip）到Summary页面