一、大数据的4V特征:

1.大数据量:数据的存储量大,增量大
2.速度快:数据的增长速度快,对处理数据的响应速度有更严格的要求,数据的处理几乎无延迟,时效性高
3.多样性:1)数据的来源多样性,除了传统的交易数据外,还有社交网站等多种来源的数据
		 2)数据的种类多样性,具体可分为结构化数据,如财务系统数据等,半结构化数据,如网页等和非结构化数据,如视频,图片等
4.价值密度低:大数据真正的价值体现在从大量不相关的各种类型的数据中,挖掘出对未来发展有价值的数据,进行深度分析并运用于各个行

二、Hadoop(apache开发开源分布式系统基础架构)三大核心:

1.分布式文件系统HDFS,有高容错性,可以部署在价格低廉的服务器上,主要包含namenode和datanode
2.分布式计算框架MapReduce,是一种离线计算框架,适合离线批处理,缺点启动开销大,任务多使用磁盘效率低
3.分布式资源管理系统YARN,主要包含ResourceManagerh和NodeManager

三、hodoop安装 (CDH版)伪分布式

1、下载源文件(hadoop-2.6.0-cdh5.14.2)
2、解压文件

tar -zxf hadoop-2.6.0-cdh5.14.2.tar.gz

3.移动文件夹到soft目录下

mv hadoop-2.6.0-cdh5.14.2 soft/hadoop260

4、进入文件夹目录下

cd soft/hadoop260/etc/hadoop

5、 打印文件路径

echo $JAVA_HOME

6、进入文件

vi hadoop-env.sh

7、修改配置

export JAVA_HOME=/opt/soft/jdk180

8、进入文件

vi core-site.xml

9、在configuration下加

<property>
            	<name>fs.defaultFS</name>
                <value>hdfs://192.168.56.138:9000</value>          //默认地址
        </property>
        <property>
                <name>hadoop.tmp.dir</name>
                <value>/opt/soft/hadoop260/tmp</value>           //临时存储路径
		</property>
        <property>
                <name>hadoop.proxyuser.root.hosts</name>   //任意用户
                <value>*</value>
        </property>
        <property>
                <name>hadoop.proxyuser.root.groups</name>
                <value>*</value>                           //任意组
        </property>

10、进入文件

vi hdfs-site.xml

11.配置文件

<property>
                <name>dfs.replication</name>
                <value>1</value>             //1副本
        </property>

12、复制文件

cp mapred-site.xml.template mapred-site.xml

13、进入文件

vi mapred-site.xml

14、加配置

<property>
                <name>mapreduce.framework.name</name>
                <value>yarn</value>
        </property>

15、进入文件

vi yarn-site.xml

16、配置

<property>
                <name>yarn.resourcemanager.localhost</name>
                <value>localhost</value>
        </property>
        <property>
                <name>yarn.nodemanager.aux-services</name>
                <value>mapreduce_shuffle</value>
        </property>

17、进入文件

vi /etc/profile

18、配置文件

加
export HADOOP_HOME=/opt/soft/hadoop260    //文件路径
export HADOOP_MAPRED_HOME=$HADOOP_HOME
export HADOOP_COMMON_HOME=$HADOOP_HOME
export HADOOP_HDFS_HOME=$HADOOP_HOME
export YARN_HOME=$HADOOP_HOME
export HADOOP_COMMON_LIB_NATIVE_DIR=$HADOOP_HOME/lib/native
export PATH=$PATH:$HADOOP_HOME/sbin:$HADOOP_HOME/bin
export HADOOP_INSTALL=$HADOOP_HOME

20、source /etc/profile
21、hadoop namenode -format //全选yes
22、start-all.sh
23、jps
24、stop-all.sh
25、网页输入地址 192.168.56.138.50070 (你的ip)到Summary页面

四、HDFS特点

优点:支持处理超大文件、可运行在廉价机器上、高容错性、流式文件写入
缺点:不适合低延时数据访问场景、不适合小文件存取场景、不适合并发写入,文件随机修改场景

开启hadoop
命令在cd /opt/soft/hadoop260/sbin下
logs下查找文件有哪个没安装好
share/hadoop/mapreduce下查找工具包和文件
cd tmp/dfs/data/current下查看版本号