大数据课程python 大数据课程有哪些

转载

智能创新梦想家 2023-08-10 22:13:29

文章标签 大数据课程python hadoop 主目录大数据 文章分类 Python 后端开发

大数据课程介绍

什么是大数据：海量数据的处理
大数据用在哪：用在需要对海量数据进行处理的任何场合
大数据学什么：
（1）学分布式系统的思想
（2）学框架

基础课程内容介绍

Linux & Shell编程基础
Hadoop
Mapreduce

数据的处理流程：
收集数据—>web服务器，打日志–flume，sqoop–>hadoop(hdfs)----->数据的清理----->数据统计----->mapreduce（spark）------>存储(hdfs,hive,hbase)---->应用了。

Linux基础

安装三台虚拟机，并进行连接
ssh远程连接linux服务器
首先，准备一款ssh的客户端软件secureCRT (xshell,putty, secureterm,…)
启动secureCRT
点击闪电图标，新建连接
填入目标服务器的主机名（域名或者IP），选择22端口，填入登录用户名
然后点击 connect
缓存（accept & save )服务器发送过来的指纹信息
然后会提示输入密码，填入点ok即可

Linux常用命令

linux的文件系统：

整个文件系统有一个顶层目录： /
bin：存放一些可执行的程序（命令）
boot:：存放系统启动所需要的一些文件
dev：系统中的设备（硬件在linux中通过“文件”来标识）
etc：存放配置文件的地方
home：用户目录的总目录，比如用户hadoop的主目录： /home/hadoop
lib lib64: 系统库目录
mnt：用于挂载外部存储设备的文件
root：是root用户的主目录
sbin：存储一些系统级的可执行命令，只有拥有root权限的用户才能执行
tmp：系统自带的一个临时目录
usr：unix shared resources，共享资源目录
查看当前所在的工作目录的全路径 pwd
关机/重启
shutdown -h now ## 立刻关机
shutdown -h +10 ## 10分钟以后关机
shutdown -h 12:00:00 ##12点整的时候关机
echo相当于java中System.out.println(userName)

目录操作

1. 查看目录信息

ls / ## 查看根目录下的子节点（文件夹和文件）信息
ls -al ## -a是显示隐藏文件 -l是以更详细的列表形式显示
ls -l 有一个别名： ll 可以直接使用ll <是两个L>

2.切换工作目录

cd /home/hadoop ## 切换到用户主目录
cd ~ ## 切换到用户主目录
cd 什么路径都不带，则回到用户的主目录
cd - ## 回退到上次所在的目录

3.创建文件夹

mkdir aaa ## 这是相对路径的写法
mkdir /data ## 这是绝对路径的写法
mkdir -p aaa/bbb/ccc ## 级联创建目录

4. 删除文件夹

rmdir aaa ## 可以删除空目录
rm -r aaa ## 可以把aaa整个文件夹及其中的所有子节点全部删除
rm -rf aaa ## 强制删除aaa

5.修改文件夹名称

mv本质上是移动
mv install.log aaa/ 将当前目录下的install.log 移动到aaa文件夹中去
rename 可以用来批量更改文件名

文件操作

1 .创建文件

ouch somefile.1 ## 创建一个空文件
echo “i miss you,my baby” > somefile.2
利用重定向“>”的功能，将一条指令的输出结果写入到一个文件中，会覆盖原文件内容，如果指定的文件不存在，则会创建出来

echo “huangxiaoming ,gun dan” >> somefile.2
将一条指令的输出结果追加到一个文件中，不会覆盖原文件内容

补充：
1/在linux的命令行界面中，如何将一个程序“最小化”（挂起）：ctrl+z
2/如何将一个已挂起的程序恢复到前台
可以先用jobs查看挂起程序列表
再用 fg 1 把编号为1的程序恢复到前台

2.vi文本编辑器

1、最基本用法
（1）首先会进入“一般模式”，此模式只接受各种命令快捷键，不能编辑文件内容
（2）按i键，就会从一般模式进入编辑模式，此模式下，敲入的都是文件内容
（3）编辑完成之后，按Esc键退出编辑模式，回到一般模式；
（4）再按：，进入“底行命令模式”，输入wq命令，回车即可保存退出

2、常用快捷键
a 在光标后一位开始插入
A 在该行的最后插入
I 在该行的最前面插入
gg 直接跳到文件的首行
G 直接跳到文件的末行
dd 删除一行
3dd 删除3行
yy 复制一行
3yy 复制3行
p 粘贴
u undo 撤销
ctrl + r redo向前撤回
v 进入字符选择模式，选择完成后，按y复制，按p粘贴
ctrl+v 进入块选择模式，选择完成后，按y复制，按p粘贴
shift+v 进入行选择模式，选择完成后，按y复制，按p粘贴
3、查找并替换
（在底行命令模式中输入）
（1）显示行号
:set nu
（2）隐藏行号
（3）:set nonu
查找关键字
/you ## 效果：查找文件中出现的you，并定位到第一个找到的地方，按n可以定位到下一个匹配位置（按N定位到上一个）

3. 拷贝/删除/移动

cp somefile.1 /home/hadoop/
cp目录
cp -R 目录1 目录2
rm /home/hadoop/somefile.1
rm -rf /home/hadoop/somefile.1
mv /home/hadoop/somefile.1 …/

4 .查看文件内容

cat somefile 一次性将文件内容全部输出（控制台）

5.打包压缩

解包并解压缩(重要的事情说三遍!!!)
tar -zxvf a.tar.gz

本文章为转载内容，我们尊重原作者对文章享有的著作权。如有内容错误或侵权问题，欢迎原作者联系我们进行内容更正或删除文章。

上一篇：for ch in word在python中 python中for c in s

下一篇：R语言实验报告生物数据 r语言上机实验报告七

提问和评论都可以，用心的回复会被更多人看到评论

发布评论

相关文章

官方博客	全部文章	热门标签	班级博客
了解我们	网站地图	意见反馈

鸿蒙开发者社区	51CTO学堂
51CTO	软考资讯