HDFS API
- 搭建集群客户端
- 原因
- 搭建步骤
- 配置开发环境(windows)
- JAVA操作HDFS
- FileSystem类的常用方法
- 示例代码
- 错误处理
搭建集群客户端
原因
集群内操作会产生由硬件导致的数据倾斜问题:
若每次上传都是选择某台DN作为客户端,根据默认备份机制,block会优先存储到本机DN,导致该节点磁盘IO大大超过其他节点;同时,block副本会由此节点向其他节点分发,导致网络IO负载过高,久而久之该节点性能会远远低于其他节点,导致数据将更少的往该节点存。
搭建步骤
- 准备一台新的服务器或虚拟机,必须能与集群通信
- 将配置好的安装包拷贝到该机上
- 配置环境变量
- 就能在该客户端正常操作HDFS
配置开发环境(windows)
- 在本地解压hadoop安装包
- 配置环境变量HADOOP_HOME
- 在eclipse->dropins->plugins中加入hadoop插件,便于在eclipse中操作HDFS
- 在项目中导入hadoop的jar包,在安装包的share/hadoop下的common、hdfs、tools内的jar包以及其lib的包
- 将hadoop的配置文件hdfs-site.xml和core-site.xml放入项目source文件夹中
JAVA操作HDFS
FileSystem类的常用方法
- 查看文件信息
FileStatus[] listStatus(Path path)
可以获取到的信息
- long getAccessTime() 获取访问时间
- long getBlockSize() 获取块大小
- String getGroup() 获取属组
- long getLen() 获取文件内容长度
- long getModificationTime() 获取修改时间
- String getOwner() 获取属主
- Path getPath() 获取路径
- FsPermission getPermission() 获取权限
- boolean isDirectory() 是否为文件夹
- boolean isFile() 是否为文件
- 创建文件夹
boolean mkdir(Path path)
- 上传
void copyFromLocalFile(boolean delSrc, boolean overwrite, Path src, Path dst)
- 下载
void copyToLocalFile(boolean delSrc, Path src, Path dst)
- 删除
boolean delete(Path path, boolean r)
- 重命名
boolean rename(Path src, Path dest)
- 内部移动、复制(非FileSystem的方法)
//内部移动
FileUtil.copy(srcPath.getFileSystem(conf), srcPath, destPath.getFileSystem(conf), destPath,true, conf);
//内部拷贝
FileUtil.copy(srcPath.getFileSystem(conf), srcPath, destPath.getFileSystem(conf), destPath,false, conf);
- 创建文件
boolean createNewFile(Path path)
- 向文件中追加内容
FSDataOutputStream append(Path path)
- 读文件
FSDataInputStream open(Path path)
- 获取文件存储位置(block的位置)
BlockLocation[] getFileBlockLocations(FileStatus, start, len)
示例代码
/**
* 1、查看文件
* 2、创建新文件夹
* 3、上传文件
* 4、下载文件
* 5、删除文件
* 6、内部移动
* 7、内部复制
* 8、重命名
* 9、创建新的文件
* 10、写文件
* 11、读文件内容
* @author eversec
*
*/
public class TestHDFS {
public static void main(String[] args) throws IOException {
//操作HDFS之前得先创建配置对象
Configuration conf = new Configuration(true);
//创建操作HDFS的对象
FileSystem fs = FileSystem.get(conf);
//查看文件系统的内容
List list = listFileSystem(fs,"/");
//创建文件夹
createDir(fs,"/test/abc");
//上传文件
uploadFileToHDFS(fs,"d:/wc","/test/abc/");
//下载文件
downLoadFileFromHDFS(fs,"/test/abc/wc","d:/");
//删除.....
//重命名
renameFile(fs,"/test/abc/wc","/test/abc/Angelababy");
//内部移动 内部复制
innerCopyAndMoveFile(fs,conf,"/test/abc/Angelababy","/");
//创建一个新文件
createNewFile(fs,"/test/abc/hanhong");
//写文件
writeToHDFSFile(fs,"/test/abc/hanhong","hello world");
//追加写
appendToHDFSFile(fs,"/test/abc/hanhong","\nhello world");
//读文件内容
readFromHDFSFile(fs,"/test/abc/hanhong");
//获取数据的位置
getFileLocation(fs,"/install.log");
}
private static void getFileLocation(FileSystem fs, String string) throws IOException {
FileStatus fileStatus = fs.getFileStatus(new Path(string));
long len = fileStatus.getLen();
BlockLocation[] fileBlockLocations = fs.getFileBlockLocations(fileStatus, 0, len);
String[] hosts = fileBlockLocations[0].getHosts();
for (String string2 : hosts) {
System.out.println(string2);
}
HdfsBlockLocation blockLocation = (HdfsBlockLocation)fileBlockLocations[0];
long blockId = blockLocation.getLocatedBlock().getBlock().getBlockId();
System.out.println(blockId);
}
private static void readFromHDFSFile(FileSystem fs, String string) throws IllegalArgumentException, IOException {
FSDataInputStream inputStream = fs.open(new Path(string));
FileStatus fileStatus = fs.getFileStatus(new Path(string));
long len = fileStatus.getLen();
byte[] b = new byte[(int)len];
int read = inputStream.read(b);
while(read != -1){
System.out.println(new String(b));
read = inputStream.read(b);
}
}
private static void appendToHDFSFile(FileSystem fs, String filePath, String content) throws IllegalArgumentException, IOException {
FSDataOutputStream append = fs.append(new Path(filePath));
append.write(content.getBytes("UTF-8"));
append.flush();
append.close();
}
private static void writeToHDFSFile(FileSystem fs, String filePath, String content) throws IllegalArgumentException, IOException {
FSDataOutputStream outputStream = fs.create(new Path(filePath));
outputStream.write(content.getBytes("UTF-8"));
outputStream.flush();
outputStream.close();
}
private static void createNewFile(FileSystem fs, String string) throws IllegalArgumentException, IOException {
fs.createNewFile(new Path(string));
}
private static void innerCopyAndMoveFile(FileSystem fs, Configuration conf,String src, String dest) throws IOException {
Path srcPath = new Path(src);
Path destPath = new Path(dest);
//内部拷贝
// FileUtil.copy(srcPath.getFileSystem(conf), srcPath, destPath.getFileSystem(conf), destPath,false, conf);
//内部移动
FileUtil.copy(srcPath.getFileSystem(conf), srcPath, destPath.getFileSystem(conf), destPath,true, conf);
}
private static void renameFile(FileSystem fs, String src, String dest) throws IOException {
Path srcPath = new Path(src);
Path destPath = new Path(dest);
fs.rename(srcPath, destPath);
}
private static void downLoadFileFromHDFS(FileSystem fs, String src, String dest) throws IOException {
Path srcPath = new Path(src);
Path destPath = new Path(dest);
//copyToLocal
// fs.copyToLocalFile(srcPath, destPath);
//moveToLocal
fs.copyToLocalFile(true,srcPath, destPath);
}
private static void uploadFileToHDFS(FileSystem fs, String src, String dest) throws IOException {
Path srcPath = new Path(src);
Path destPath = new Path(dest);
//copyFromLocal
// fs.copyFromLocalFile(srcPath, destPath);
//moveFromLocal
fs.copyFromLocalFile(true,srcPath, destPath);
}
private static void createDir(FileSystem fs, String string) throws IllegalArgumentException, IOException {
Path path = new Path(string);
if(fs.exists(path)){
fs.delete(path, true);
}
fs.mkdirs(path);
}
private static List listFileSystem(FileSystem fs, String path) throws FileNotFoundException, IOException {
Path ppath = new Path(path);
FileStatus[] listStatus = fs.listStatus(ppath);
for (FileStatus fileStatus : listStatus) {
System.out.println(fileStatus.getPath());
}
return null;
}
}
错误处理
- HADOOP_HOME未配置或hadoop版本不匹配
- 无权限–>添加HADOOP_USER_NAME=root
或修改根目录权限
hdfs dfs -chmod -R 777 /
3.上传文件无大小–>原因未明,替换正确hadoop版本后解决