最近在做一个小任务,将一个CDH平台中Hive的部分数据同步到另一个平台中。毕竟我也刚开始工作,在正式开始做之前,首先进行了一段时间的练习,下面的内容就是练习时写的文档中的内容。如果哪里有错误或者疏漏,希望各位网友能够指出。


 

1. 操作指令

 

  该操作的主要步骤是从一个平台的HDFS中拉取数据,然后上传到另一平台的HDFS中。

  Hadoop下HDFS的操作指令包括:

    1)上传文件:

hadoop fs -copyFromLocal /File
hadoop fs -put File /File(Folder)

前者只能上传文件,后者可以上传文件夹。

    2)创建目录:hadoop fs -mkdir /Index

    3)删除目录:hadoop fs -rmdir /Index

    4)删除文件:hadoop fs /File

    5)递归删除:hadoop fs -rmr /FileIndex

    6)下载文件:hadoop fs -get /File /SavePath

    7)查看文件:hadoop fs -ls /File

8)递归查看:hadoop fs -lsr /FileIndex

9)查看内容:hadoop fs -cat /File

10)查看最后1000字节:hadoop fs -tail /File

11)移动文件:hadoop fs -mv /File

12)重命名文件:hadoop fs -mv /FileName /NewFileName

13)创建空文件:hadoop fs -touchz /FileName

14)合并下载:hadoop fs -getmerge /

 

2. 上传文件测试

 

  在正式转移数据之前,我们首先进行一些数据转移的练习。

  1)首先,在Linux系统下建立一个Test文件夹(/home/Test),在其中新建三个文本文件:

[root@DataCenter2 Test]# ll
        总用量 12
     -rw-r--r-- 1 root root 34 3月  14 15:25 1.txt
     -rw-r--r-- 1 root root 16 3月  14 15:25 2.txt
     -rw-r--r-- 1 root root 17 3月  14 15:25 3.txt

   

  2)查看HDFS的文件系统,我们选择文件夹/user/admin/hdfsTest,首先查看其信息:

drwxr-xr-x   - hdfs  admin   0 2018-08-27 15:47 /user/admin/hdfsTest

    查看该目录中的数据,该目录下包含两个文件:

[root@DataCenter2 Test]# hadoop fs -ls /user/admin/hdfsTest
      Found 2 items
      -rw-r--r-- 3   hdfs   admin      1004054 2018-08-27 15:47  /user/admin/hdfsTest/img102.jpg
      -rw-r--r-- 3   hdfs   admin       29 2018-08-27 15:39   /user/admin/hdfsTest/testHDFS.txt

  3)尝试从Test目录下上传一个文本到目录 HDFS:/user/admin/hdfsTest 下,结果如下:

[root@DataCenter2 Test]# hadoop fs -put 1.txt /user/admin/hdfsTest
      put: Permission denied: user=root, access=WRITE,inode="/user/admin/hdfsTest":hdfs:admin:drwxr-xr-x

结果显示,当前账户权限不足,不能向HDFS中写入数据。但是当前登录的账户是root,怎么会权限不足呢?

经过查询,大致发现问题所在,在CDH平台中,文件的所有者并不是所谓的“root”,而是为“hdfs”所有(drwxr-xr-x / 755权限,这里将hdfs理解为一个属于supergroup的用户)。

  事实上,回头看/user目录的权限,会发现该目录的权限组的确是supergroup:

drwxrwxrwx   - hdfs  supergroup          0  2018-12-04 16:53 /user

 

  4)如何解决权限不足的问题?

可以想到的有两种方案:一是关闭系统的权限验证,而是提升当前账户的权限。一般来说不会使用第一种方案,那么就需要提升当前账户的权限。

那么如何提升权限?这里需要用到指令:sudo

    关于该指令的介绍如下:

sudo是linux系统管理指令,是允许系统管理员让普通用户执行一些或者全部的root命令的一个工具,如halt,reboot,su等等。这样不仅减少了root用户的登录 和管理时间,同样也提高了安全性。sudo不是对shell的一个代替,它是面向每个命令的。

    sudo的特性

sudo能够限制用户只在某台主机上运行某些命令。
    sudo提供了丰富的日志,详细地记录了每个用户干了什么。它能够将日志传到中心主机或者日志服务器。
    sudo使用时间戳文件来执行类似的“检票”系统。当用户调用sudo并且输入它的密码时,用户获得了一张存活期为5分钟的票(这个值可以在编译的时候改变)。
    sudo的配置文件是sudoers文件,它允许系统管理员集中的管理用户的使用权限和使用的主机。它所存放的位置默认是在/etc/sudoers,属性必须为0440。

    sudo的原理

在sudo于1980年前后被写出之前,一般用户管理系统的方式是利用su切换为超级用户。但是使用su的缺点之一在于必须要先告知超级用户的密码。
    sudo使一般用户不需要知道超级用户的密码即可获得权限。首先超级用户将普通用户的名字、可以执行的特定命令、按照哪种用户或用户组的身份执行等信息,登记在特殊的文件中(通常是/etc/sudoers),即完成对该用户的授权(此时该用户称为“sudoer”);在一般用户需要取得特殊权限时,其可在命令前加上“sudo”,此时sudo将会询问该用户自己的密码(以确认终端机前的是该用户本人),回答后系统即会将该命令的进程以超级用户的权限运行。之后的一段时间内(默认为5分钟,可在/etc/sudoers自定义),使用sudo不需要再次输入密码。
    由于不需要超级用户的密码,部分Unix系统甚至利用sudo使一般用户取代超级用户作为管理帐号,例如Ubuntu、Mac OS X等。

    sudo的语法

sudo [-bhHpV][-s ][-u <用户>][指令]
    或
    sudo [-klv]
    参数
      -b  在后台执行指令。
      -h  显示帮助。
      -H  将HOME环境变量设为新身份的HOME环境变量。
      -k  结束密码的有效期限,也就是下次再执行sudo时便需要输入密码。
      -l  列出目前用户可执行与无法执行的指令。
      -p  改变询问密码的提示符号。
      -s  执行指定的shell。
      -u  <用户>  以指定的用户作为新的身份。若不加上此参数,则预设以root作为新的身份。
      -v  延长密码有效期限5分钟。
      -V  显示版本信息。
      -S  从标准输入流替代终端来获取密码

 

   5)尝试使用sudo进行上传文件:    

   

[root@DataCenter2 Test]# sudo -u hdfs hadoop fs -put 1.txt  /user/admin/hdfsTest
      [root@DataCenter2 Test]# hadoop fs -ls /user/admin/hdfsTest
      -rw-r--r-- 3 hdfs admin 34 2019-03-14 16:24   /user/admin/hdfsTest/1.txt

会发现,使用sudo指令后的操作成功执行了。

 

3. 下载文件测试

  上传文件成功后,让我们在尝试进行下载文件。

  1)仍然是 /user/admin/hdfsTest 目录,这次我们尝试下载文件img102.jpg。

  

[root@DataCenter2 Test]# hadoop fs -ls /user/admin/hdfsTest
    Found 2 items
    -rw-r--r-- 3 hdfs admin 1004054 2018-08-27 15:47  /user/admin/hdfsTest/img102.jpg
    -rw-r--r-- 3 hdfs admin 29 2018-08-27 15:39  /user/admin/hdfsTest/testHDFS.txt

  2)执行命令,下载文件:

  

[root@DataCenter2 Test]# hadoop fs -get  /user/admin/hdfsTest/img102.jpg ./
    [root@DataCenter2 Test]# ls
    1.txt 2.txt 3.txt img102.jpg

发现成功下载文件。

 

4. 上传及下载文件成功后,还需要进行Hive中数据的下载与导入。该测试我们放入下一个文档进行。