HDFS 之 本地客户端操作
3.1 Hadoop 客户端环境配置
(1) Windows配置Hadoop
a. 将Windows系统下的hadoop 拷贝到其他地方
选择hadoop-3.0.0 拷贝到其他盘下,路径不能有中文。 这里是因为我电脑的原因,如果是hadoop3.1.3 的版本会运行不了,看选择。
例如: 将 hadoop-3.0.0 文件夹拷贝到 E:\hadoop 下
b. 配置 HADOOP_HOME 环境变量
c. 配置 PATH 环境变量
配置完这一步,大部分的电脑都可以运行Hadoop了,但是为了以防万一还需要配置第四步。
d. 将hadoop 的 bin 目录下的 hadoop.dll 和 **winutils.exe ** 放到
C:/windows/system32目录下
(2) idea 创建工程
a. 创建Maven工程并添加相应的 依赖坐标 和 日志
<dependencies>
<dependency>
<groupId>junit</groupId>
<artifactId>junit</artifactId>
<version>4.12</version>
</dependency>
<dependency>
<groupId>org.apache.logging.log4j</groupId>
<artifactId>log4j-slf4j-impl</artifactId>
<version>2.12.0</version>
</dependency>
<dependency>
<groupId>org.apache.hadoop</groupId>
<artifactId>hadoop-client</artifactId>
<version>3.1.3</version>
</dependency>
</dependencies>
b. 在Maven工程下的 src/main/resources
目录下, 新建一个 File
,命名为 log4j2,xml
,添加以下内容
<?xml version="1.0" encoding="UTF-8"?>
<Configuration status="error" strict="true" name="XMLConfig">
<Appenders>
<!-- 类型名为Console,名称为必须属性 -->
<Appender type="Console" name="STDOUT">
<!-- 布局为PatternLayout的方式,
输出样式为[INFO] [2018-01-22 17:34:01][org.test.Console]I'm here -->
<Layout type="PatternLayout"
pattern="[%p] [%d{yyyy-MM-dd HH:mm:ss}][%c{10}]%m%n" />
</Appender>
</Appenders>
<Loggers>
<!-- 可加性为false -->
<Logger name="test" level="info" additivity="false">
<AppenderRef ref="STDOUT" />
</Logger>
<!-- root loggerConfig设置 -->
<Root level="info">
<AppenderRef ref="STDOUT" />
</Root>
</Loggers>
</Configuration>
c. 创建包名 : com.atguigu.hdfs
d. 创建 HdfsClient 类
public class HdfsClient{
@Test
public void testMkdirs() throws IOException, InterruptedException, URISyntaxException{
// 1 获取文件系统
Configuration configuration = new Configuration();
// 配置在集群上运行
// configuration.set("fs.defaultFS", "hdfs://hadoop102:9820");
// FileSystem fs = FileSystem.get(configuration);
FileSystem fs = FileSystem.get(new URI("hdfs://hadoop102:9820"), configuration, "atguigu");
// 2 创建目录
fs.mkdirs(new Path("/1108/daxian/banzhang"));
// 3 关闭资源
fs.close();
}
}
e. 运行时需配置 用户名称
和命令行参数的配置一样,只是位置不一样
如图所示
客户端去操作HDFS时,是有一个用户身份的(hadoop集群配置时有配置)。默认情况下,HDFS客户端API会从JVM中获取一个参数来作为自己的用户身份:-DHADOOP_USER_NAME=atguigu,atguigu为用户名称。
3.2 HDFS 的 API 操作
工程创建好之后就可以利用idea操作HDFS
package com.atguigu.hdfs;
import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.fs.*;
import org.junit.After;
import org.junit.Before;
import org.junit.Test;
import java.io.IOException;
import java.net.URI;
import java.net.URISyntaxException;
import java.util.Arrays;
/*
通过代码去操作HDFS
1.创建客户端对象
2.具体操作(上传,下载,删除.....)
3.关闭资源
*/
public class HDFSDemoTeacher {
private FileSystem fs;
/*
在单元测试方法执行前先执行
*/
@Before
public void before() throws URISyntaxException, IOException, InterruptedException {
//1.创建客户端(文件系统)对象
/*
get(final URI uri, final Configuration conf,final String user)
uri : NameNode的地址(HDFS的地址)
conf : 配置文件(通过该对象设置需要配置的参数)
user : 操作HDFS的用户名
*/
URI uri = new URI("hdfs://hadoop102:9820");
Configuration conf = new Configuration();
String user = "atguigu";
fs = FileSystem.get(uri, conf, user);
}
/*
在单元测试方法执行后执行
*/
@After
public void after(){
//3.关闭资源
try {
if (fs != null) {
fs.close();
}
} catch (IOException e) {
e.printStackTrace();
}
}
/*
//2.具体操作
//上传
*/
@Test
public void test() throws IOException {
/*
copyFromLocalFile(boolean delSrc, boolean overwrite,
Path src, Path dst)
delSrc : 是否删除源文件(本地文件)
overwrite : 如果HDFS上已经存在是否覆盖。
如果不覆盖,那么在已经存在的情况下会报错。
src : 源文件(本地)
dst : 目标路径(HDFS)
*/
fs.copyFromLocalFile(true,true,
new Path("D:\\io\\hdfs\\sanguo.txt"),
new Path("/"));
}
/*
下载
*/
@Test
public void test2() throws IOException {
/*
copyToLocalFile(boolean delSrc, Path src, Path dst,
boolean useRawLocalFileSystem)
delSrc : 是否删除源文件(HDFS)
src : 源文件(HDFS)
dst : 目标路径(本地)
useRawLocalFileSystem : 是否使用RawLocalFileSystem
true : 不会生成crc文件
false : 会生成crc文件
*/
fs.copyToLocalFile(false,new Path("/a.txt"),
new Path("D:\\io\\hdfs"),false);
}
/*
文件删除
*/
@Test
public void test3() throws IOException {
/*
delete(Path f, boolean recursive)
f : 文件或目录的路径
recursive : 如果是文件true和false都可以。如果是目录必须为true否则报错。
注意:如果是空目录true和false也都可能。
*/
fs.delete(new Path("/input3"),false);
}
/*
文件名更改或移动文件
*/
@Test
public void test4() throws IOException {
/*
rename(Path src, Path dst)
src : 源文件
dst : 目标文件或路径
*/
//更改名字
//fs.rename(new Path("/input/a.txt"),new Path("/input/longge.txt"));
//移动文件
fs.rename(new Path("/input/longge.txt"),new Path("/"));
}
/*
文件详情查看 : 查看文件名称、权限、长度、块信息
*/
@Test
public void test5() throws IOException {
/*
listFiles(final Path f, final boolean recursive)
f : 目标路径
recursive : 是否递归
*/
//RemoteIterator : 迭代器
RemoteIterator<LocatedFileStatus> listFiles = fs.listFiles(new Path("/"), true);
//遍历
while(listFiles.hasNext()){
LocatedFileStatus file = listFiles.next();
System.out.println("===========================文件名:" + file.getPath().getName() + "==================");
System.out.println("所属主:" + file.getOwner());
System.out.println("副本数:" + file.getReplication());
//获取文件的块信息
BlockLocation[] blockLocations = file.getBlockLocations();
System.out.println(Arrays.toString(blockLocations));
}
}
}