大数据课程介绍

  1. 什么是大数据:海量数据的处理
  2. 大数据用在哪:用在需要对海量数据进行处理的任何场合
  3. 大数据学什么:
    (1)学分布式系统的思想
    (2)学框架

基础课程内容介绍

Linux & Shell编程基础
Hadoop
Mapreduce

数据的处理流程:
收集数据—>web服务器,打日志–flume,sqoop–>hadoop(hdfs)----->数据的清理----->数据统计----->mapreduce(spark)------>存储(hdfs,hive,hbase)---->应用了。

Linux基础

安装三台虚拟机,并进行连接
ssh远程连接linux服务器
首先,准备一款ssh的客户端软件secureCRT (xshell,putty, secureterm,…)
启动secureCRT
点击 闪电 图标,新建连接
填入目标服务器的主机名(域名或者IP),选择22端口,填入登录用户名
然后点击 connect
缓存(accept & save )服务器发送过来的指纹信息
然后会提示输入密码,填入点ok即可

Linux常用命令

linux的文件系统:

  1. 整个文件系统有一个顶层目录: /
  2. bin:存放一些可执行的程序(命令)
  3. boot::存放系统启动所需要的一些文件
  4. dev:系统中的设备(硬件在linux中通过“文件”来标识)
  5. etc:存放配置文件的地方
  6. home:用户目录的总目录,比如用户hadoop的主目录: /home/hadoop
  7. lib lib64: 系统库目录
  8. mnt:用于挂载外部存储设备的文件
  9. root:是root用户的主目录
  10. sbin:存储一些系统级的可执行命令,只有拥有root权限的用户才能执行
  11. tmp:系统自带的一个临时目录
  12. usr:unix shared resources,共享资源目录
  13. 查看当前所在的工作目录的全路径 pwd
  14. 关机/重启
    shutdown -h now ## 立刻关机
    shutdown -h +10 ## 10分钟以后关机
    shutdown -h 12:00:00 ##12点整的时候关机
  15. echo相当于java中System.out.println(userName)

目录操作

1. 查看目录信息

  • ls / ## 查看根目录下的子节点(文件夹和文件)信息
  • ls -al ## -a是显示隐藏文件 -l是以更详细的列表形式显示
  • ls -l 有一个别名: ll 可以直接使用ll <是两个L>

2.切换工作目录

  • cd /home/hadoop ## 切换到用户主目录
  • cd ~ ## 切换到用户主目录
  • cd 什么路径都不带,则回到用户的主目录
  • cd - ## 回退到上次所在的目录

3.创建文件夹

  • mkdir aaa ## 这是相对路径的写法
  • mkdir /data ## 这是绝对路径的写法
  • mkdir -p aaa/bbb/ccc ## 级联创建目录

4. 删除文件夹

  • rmdir aaa ## 可以删除空目录
  • rm -r aaa ## 可以把aaa整个文件夹及其中的所有子节点全部删除
  • rm -rf aaa ## 强制删除aaa

5.修改文件夹名称

  • mv本质上是移动
  • mv install.log aaa/ 将当前目录下的install.log 移动到aaa文件夹中去
  • rename 可以用来批量更改文件名

文件操作

1 .创建文件

ouch somefile.1 ## 创建一个空文件
echo “i miss you,my baby” > somefile.2
利用重定向“>”的功能,将一条指令的输出结果写入到一个文件中,会覆盖原文件内容,如果指定的文件不存在,则会创建出来

echo “huangxiaoming ,gun dan” >> somefile.2
将一条指令的输出结果追加到一个文件中,不会覆盖原文件内容

补充:
1/在linux的命令行界面中,如何将一个程序“最小化”(挂起):ctrl+z
2/如何将一个已挂起的程序恢复到前台
可以先用jobs查看挂起程序列表
再用 fg 1 把编号为1的程序恢复到前台

2.vi文本编辑器

1、最基本用法
(1) 首先会进入“一般模式”,此模式只接受各种命令快捷键,不能编辑文件内容
(2) 按i键,就会从一般模式进入编辑模式,此模式下,敲入的都是文件内容
(3)编辑完成之后,按Esc键退出编辑模式,回到一般模式;
(4)再按:,进入“底行命令模式”,输入wq命令,回车即可保存退出

2、常用快捷键
a 在光标后一位开始插入
A 在该行的最后插入
I 在该行的最前面插入
gg 直接跳到文件的首行
G 直接跳到文件的末行
dd 删除一行
3dd 删除3行
yy 复制一行
3yy 复制3行
p 粘贴
u undo 撤销
ctrl + r redo向前撤回
v 进入字符选择模式,选择完成后,按y复制,按p粘贴
ctrl+v 进入块选择模式,选择完成后,按y复制,按p粘贴
shift+v 进入行选择模式,选择完成后,按y复制,按p粘贴
3、查找并替换
(在底行命令模式中输入)
(1)显示行号
:set nu
(2)隐藏行号
(3):set nonu
查找关键字
/you ## 效果:查找文件中出现的you,并定位到第一个找到的地方,按n可以定位到下一个匹配位置(按N定位到上一个)

3. 拷贝/删除/移动

cp somefile.1 /home/hadoop/
cp目录
cp -R 目录1 目录2
rm /home/hadoop/somefile.1
rm -rf /home/hadoop/somefile.1
mv /home/hadoop/somefile.1 …/

4 .查看文件内容

cat somefile 一次性将文件内容全部输出(控制台)

5.打包压缩

解包并解压缩(重要的事情说三遍!!!)
tar -zxvf a.tar.gz