CDH 集群 使用 JindoFS SDK 访问 OSS
CDH(Cloudera's Distribution, including Apache Hadoop)是众多Hadoop发行版本中的一种,本文以CDH 5.16.2为例介绍如何配置CDH支持使用JindoFS SDK访问OSS。
步骤
1. 安装 jar 包
下载最新的jar包 jindofs-sdk-x.x.x.jar (下载页面),
推荐
原创
2021-09-13 13:38:45
3596阅读
Fluid 是一个开源的 Kubernetes 原生的分布式数据集编排和加速引擎,主要服务于云原生场景下的数据密集型应用,例如大数据应用、AI 应用等。通过 Kubernetes 服务提供的数据层抽象,可以让数据像流体一样在诸如 HDFS、OSS、Ceph 等存储源和 Kubernetes 上层云原生应用计算之间灵活高效地移动、复制、驱逐、转换和管理。
转载
2021-02-18 17:36:00
0阅读
JindoFS背景 计算存储分离是云计算的一种发展趋势,传统的计算存储相互融合的的架构存在一定的问题, 比如在集群扩容的时候存在计算能力和存储能力相互不匹配的问题,用户在某些情况下只需要扩容计算能力或者存储能力,传统的融合架构不能单独的扩充计算或者存储能力, 而计算存储分离可以很好的解决这个问题,用
转载
2019-11-04 16:53:00
409阅读
2评论
简介: Apache Hadoop FileSystem (HDFS) 是被广为使用的大数据存储方案,其核心元数据服务 NameNode 将全部元数据存放在内存中,因此所能承载的元数据规模受限于内存,单个实例所能支撑的文件个数大约 4亿。JindoFS块模式是阿里云基于 OSS 海量存储自研的一个存储优化系统,提供了高效的数据读写加速能力和元数据优化能力。JindoFS 实际表现如何,我们在 10
转载
2021-02-08 10:40:00
217阅读
简介: Fluid 是一个开源的 Kubernetes 原生的分布式数据集编排和加速引擎,主要
转载
2021-02-05 09:55:00
92阅读
简介: Apache Hadoop FileSystem (HDFS) 是被广为使用的大数据存储方案,其核心元数据服务 NameNode 将全部元数据存放在内存中,因此所能承载的元数据规模受限于内存,单个实例所能支撑的文件个数大约 4亿。JindoFS块模式是阿里云基于 OSS 海量存储自研的一个存储优化系统,提供了高效的数据读写加速能力和元数据优化能力。JindoFS 实际表现如何,我们在 10
转载
2021-02-09 09:55:52
155阅读
2评论
作者| 王涛(扬礼)、车漾(必嘫) 来源|阿里巴巴云原生公众号 什么是 Fluid Fluid 是一个开源的 Kubernetes 原生的分布式数据集编排和加速引擎,主要服务于云原生场景下的数据密集型应用,例...
转载
2021-06-03 22:30:36
196阅读
2评论
简介: Fluid 是一个开源的 Kubernetes 原生的分布式数据集编排和加速引擎,主要服务于云原生场景下的数据密集型应用。在 Fluid 上使用和部署 JindoRuntime 实现数据集的可见性、弹性伸缩、数据迁移、计算加速等,并流程简单、兼容原生 k8s 环境、可以开箱即用。同时深度结合对象存储特性,使用navite框架优化性能,并支持免密、checksum校验等云上数据安全功能。1、
转载
2021-02-07 11:29:59
288阅读
2评论
Fluid 是一个开源的 Kubernetes 原生的分布式数据集编排和加速引擎,主要服务于云原生场景下的数据密集型应用,例如大数据应用、AI 应用等。通过 Kubernetes 服务提供的数据层抽象,可以让数据像流体一样在诸如 HDFS、OSS、Ceph 等存储源和 Kubernetes 上层云原生应用计算之间灵活高效地移动、复制、驱逐、转换和管理。
原创
精选
2021-02-19 14:20:29
1535阅读
CDH-5.14.2使用阿里的jindoFS文件系统访问OSS数据时报错
原创
2023-05-05 17:53:11
718阅读
原因:
原来使用的是aliyun-sdk-oss-2.8.3.jar,后来调查因为阿里的JindoFS SDK针对oss做了加速缓存,就替换成jindofs-sdk.jar,然后使用hadoop distcp复制数据到oss的时候报错如下:
hadoop distcp hdfs://换成自己环境的IP:9000/group/user/tools/meta/hive-temp-table/kstj
原创
2021-09-15 20:29:43
844阅读
深度学习平台在微博社交业务扮演着重要的角色。计算存储分离架构下,微博深度学习平台在数据访问与调度方面存在性能低效的问题。本文将介绍微博内部设计实现的一套全新的基于 Fluid(内含 JindoRuntime)的新架构方案,显著提升了海量小文件场景模型训练的性能和稳定性,多机多卡分布式训练场景可将模型训练的速度提升 18 倍。
转载
2021-06-05 18:25:00
0阅读
2评论
报错如下:意思是无权限Caused by: java.lang.ClassNotFoundException: Class com.aliyun.emr.fs.oss.JindoOssFileSystem not found解决方案:使用root用户进入到[root@dbos-bigdata-flink005 ~]# cd /opt/cloudera/parcels/CDH-6.3.0-1.cdh
原创
精选
2021-11-10 09:11:44
3231阅读
Jindo 是阿里云基于 Apache Spark / Apache Hadoop 在云上定制的分布式计算和存储引擎。 Jindo 原是阿里云 开源大数据团
原创
2022-07-28 17:40:48
643阅读
深度学习平台在微博社交业务扮演着重要的角色。计算存储分离架构下,微博深度学习平台在数据访问与调度方面存在性能低效的问题。本文将介绍微博内部设计实现的一套全新的基于 Fluid(内含 JindoRuntime)的新架构方案,显著提升了海量小文件场景模型训练的性能和稳定性,多机多卡分布式训练场景可将模型训练的速度提升 18 倍。
原创
2021-06-05 20:20:24
991阅读
作者:殳鑫鑫,花名辰石,阿里巴巴计算平台事业部EMR团队技术专家,目前从事大数据存储以及Spark相关方面的工作。JindoFS 概述JindoFS概述:云原生的大数据计算存储分离方案JindoFS - 分层存储背景JindoFS 分层主要解决客户冷热数据存储成本问题,对于大多数用户数据可以简单的分为冷数据和热数据热数据:业务需要访问的数据往往是业务数据集的一部分,这种经常被访问的数据我们通常称为
转载
2024-09-02 14:41:49
56阅读
本期导读 :【数据迁移】第一讲主题:高效迁移 HDFS 海量文件到 OSS讲师:扬礼,阿里巴巴计算平台事业部 EMR 开发工程师主要内容:DistCp 介绍Jindo DistCp 介绍性能优化功能演示直播回放链接:https://developer.aliyun.com/live/2467281背景介绍为了让更多开发者了解并使用 JindoFS+OSS,由阿里云JindoFS+OSS
在本文中,我们简单介绍了通过 ACK Fluid 和 JindoFS 团队的 JindoRuntime 可以支持的混合云场景分类,后续文章中,我们会对以上场景的具体实践和使用方式进行详细介绍。
原创
2023-10-09 00:37:22
3090阅读
凌云时刻 · 极鲜速递导读:如何基于阿里云 OSS 、JindoFS 和数据湖构建(Data Lake Formation,DLF)等基础服务,同时结合阿里云上丰富的计算引擎,打造一个全新云原生数据湖体系?作者 | 吴威前言“数据湖”正在被越来越多人提起,尽管定义并不统一,但企业们都已纷纷下水实践,无论是 AWS 还是阿里云、华为。我们认为:数据湖是大数据和 AI 时代融合存
转载
2023-08-06 22:49:53
84阅读
简介:
JindoFS提供了一个计算侧的分布式缓存系统,可以有效利用计算集群上的本地存储资源(磁盘或者内存)缓存OSS上的热数据,从而减少对OSS上数据的反复拉取,消耗网络带宽。背景介绍近些年,机器学习领域快速发展,广泛应用于各行各业。对于机器学习领域的从业人员来说,充满了大量的机遇和挑战。Tensorflow、PyTorch等深度学习框架的出现,使开发者能够轻松地构建和部署机器学习应
转载
2021-02-25 20:39:47
951阅读
2评论