一. 基本操作
1. Ubuntu从桌面模式切换到文本模式
快捷键:Ctrl+Alt+F6
2. Ubuntu从文本模式切换到桌面模式
快捷键:Ctrl+Alt+F7
二. 基本概念
1. 大数据的容量单位换算(单位byte)
2. 大数据不支持OLAP。OLAP必须借助集群的数据仓库。
3. 大数据的4V特征
- Volume: 体量大,TB级
- Velocity: 速度快
- Variaty: 多样式
- Value: 价值密度低
4. Hadoop的四个模块
- Hadoop common
- Hadoop Distributed File System(HDFS)
- Hadoop Mapreduce
- Hadoop YARN
Hadoop是前端,前端将任务分发给后端的HDFS,Mapreduce及YARN模块进行处理。
三. Hadoop的安装
1. 安装JDK
- 配置环境变量JAVA_HOME
- 配置环境变量PATH
2. tar解压hadoop安装包
- 配置环境变量HADOOP_HOME
- 配置环境变量PATH
3. 配置Hadoop
3.1 Standalone | local
没有守护进程,所有程序运行在同一JVM中,有利于test和debug。
使用本地真机的文件系统。不启动相关进程。
3.2 Pseudo distributed Mode
配置文件:
注:可以把${HADOOP_HOME}/etc/hadoop/做成符号链接,指向不同模式的配置目录。或者通过hdfs --config configdir来指定配置目录。
可以看到的文件有
core-site.xml
hdfs-site.xml
mapred-site.xml(可参考)mapred-site.xml.template
yarn-site.xml
基本概念HDFS = NameNode + SecondaryNameNode + DataNodeYARN = ResourceManager + NodeManager一共需要启动5个进程。ResourceManager一般在NameNode上运行。NodeManager则一般放在DataNode上运行。
需要配置SSH密钥登陆。
NameNode所在主机需要SSH免密登陆到DataNode主机上。
在Ubuntu上查询并安装SSH
- 查询
- 安装(含服务端和客户端)
- 生成密钥对
注意伪分布式是只在本地Hi。
- 格式化文件系统
- 启动进程
- 启动的进程
- 停止进程
- 配置目录的指定方式
~ 默认方式(指定目录)
~ 在命令行参数中给出
~ 设置环境变量
- 测试一下
注:文件/目录信息都存储在/tmp/hadoop-$USER/dfs/下。
目录信息在namenode中,文件内容在datanode中。
- 查看log
通过日志文件查看日志
通过web方式查看日志
注:目录没有副本(Replication),但文件有副本。hadoop默认的Block size为128M。
3.3 Full distributed Mode
3.3.1 安装java
3.3.2 创建用户
3.3.3 安装hadoop
有用的命令scp
3.3.4 配置免密登陆的ssh
3.3.5 格式化
3.3.6 启动进程
完全分布式比为分布式就多了个slaves配置。
slaves是个纯文本的配置文件。在伪分布配置时就一行“localhost”。每个主机一行。
start-dfs.sh只需在NameNode上启动即可。