JindoFS_51CTO博客

CDH 集群使用 JindoFS SDK 访问 OSS

CDH 集群使用 JindoFS SDK 访问 OSS CDH（Cloudera's Distribution, including Apache Hadoop）是众多Hadoop发行版本中的一种，本文以CDH 5.16.2为例介绍如何配置CDH支持使用JindoFS SDK访问OSS。步骤 1. 安装 jar 包下载最新的jar包 jindofs-sdk-x.x.x.jar (下载页面)，

hadoop

oss

推荐原创

江南独孤客

2021-09-13 13:38:45

3596阅读

拥抱云原生，Fluid 结合 JindoFS：阿里云 OSS 加速利器

Fluid 是一个开源的 Kubernetes 原生的分布式数据集编排和加速引擎，主要服务于云原生场景下的数据密集型应用，例如大数据应用、AI 应用等。通过 Kubernetes 服务提供的数据层抽象，可以让数据像流体一样在诸如 HDFS、OSS、Ceph 等存储源和 Kubernetes 上层云原生应用计算之间灵活高效地移动、复制、驱逐、转换和管理。

云原生

开源

阿里云

数据

hadoop

转载

mob604756f5460a

2021-02-18 17:36:00

0阅读

JindoFS解析 - 云上大数据高性能数据湖存储方案

JindoFS背景计算存储分离是云计算的一种发展趋势，传统的计算存储相互融合的的架构存在一定的问题，比如在集群扩容的时候存在计算能力和存储能力相互不匹配的问题，用户在某些情况下只需要扩容计算能力或者存储能力，传统的融合架构不能单独的扩充计算或者存储能力，而计算存储分离可以很好的解决这个问题，用

数据

元数据

spark

性能提升

客户端

转载

mob604756ef7d06

2019-11-04 16:53:00

409阅读

2评论

10亿+文件数压测，阿里云JindoFS轻松应对

简介： Apache Hadoop FileSystem (HDFS) 是被广为使用的大数据存储方案，其核心元数据服务 NameNode 将全部元数据存放在内存中，因此所能承载的元数据规模受限于内存，单个实例所能支撑的文件个数大约 4亿。JindoFS块模式是阿里云基于 OSS 海量存储自研的一个存储优化系统，提供了高效的数据读写加速能力和元数据优化能力。JindoFS 实际表现如何，我们在 10

元数据

hdfs

hadoop

数据

数据集

转载

mob60475707384d

2021-02-08 10:40:00

217阅读

拥抱云原生，Fluid结合JindoFS ：阿里云OSS加速利器

简介： Fluid 是一个开源的 Kubernetes 原生的分布式数据集编排和加速引擎，主要

数据

hadoop

数据集

缓存

spark

转载

mb5ff98083d7c62

2021-02-05 09:55:00

92阅读

10亿+文件数压测，阿里云JindoFS轻松应对

简介： Apache Hadoop FileSystem (HDFS) 是被广为使用的大数据存储方案，其核心元数据服务 NameNode 将全部元数据存放在内存中，因此所能承载的元数据规模受限于内存，单个实例所能支撑的文件个数大约 4亿。JindoFS块模式是阿里云基于 OSS 海量存储自研的一个存储优化系统，提供了高效的数据读写加速能力和元数据优化能力。JindoFS 实际表现如何，我们在 10

阿里云

JindoFS

转载

mb601a5ca21139e

2021-02-09 09:55:52

155阅读

2评论

拥抱云原生，Fluid 结合 JindoFS：阿里云 OSS 加速利器

作者| 王涛（扬礼）、车漾（必嘫）来源|阿里巴巴云原生公众号什么是 Fluid Fluid 是一个开源的 Kubernetes 原生的分布式数据集编排和加速引擎，主要服务于云原生场景下的数据密集型应用，例...

阿里云

转载

mb607022e25a607

2021-06-03 22:30:36

196阅读

2评论

拥抱云原生，Fluid结合JindoFS ：阿里云OSS加速利器

简介： Fluid 是一个开源的 Kubernetes 原生的分布式数据集编排和加速引擎，主要服务于云原生场景下的数据密集型应用。在 Fluid 上使用和部署 JindoRuntime 实现数据集的可见性、弹性伸缩、数据迁移、计算加速等，并流程简单、兼容原生 k8s 环境、可以开箱即用。同时深度结合对象存储特性，使用navite框架优化性能，并支持免密、checksum校验等云上数据安全功能。1、

Fluid

JindoFS

阿里云

OSS

转载

mb6018ead621887

2021-02-07 11:29:59

288阅读

2评论

拥抱云原生，Fluid 结合 JindoFS：阿里云 OSS 加速利器

Fluid 是一个开源的 Kubernetes 原生的分布式数据集编排和加速引擎，主要服务于云原生场景下的数据密集型应用，例如大数据应用、AI 应用等。通过 Kubernetes 服务提供的数据层抽象，可以让数据像流体一样在诸如 HDFS、OSS、Ceph 等存储源和 Kubernetes 上层云原生应用计算之间灵活高效地移动、复制、驱逐、转换和管理。

云原生

容器

分布式计算

k8s

调度

原创精选

阿里云云原生

2021-02-19 14:20:29

1535阅读

CDH-5.14.2使用阿里的jindoFS文件系统访问OSS数据时报错

CDH-5.14.2使用阿里的jindoFS文件系统访问OSS数据时报错

java

hadoop

apache

原创

大数据开发者前线

2023-05-05 17:53:11

718阅读

CDH6.3使用JindoFS SDK无法使用hadoop distcp的问题解决

原因：原来使用的是aliyun-sdk-oss-2.8.3.jar，后来调查因为阿里的JindoFS SDK针对oss做了加速缓存，就替换成jindofs-sdk.jar，然后使用hadoop distcp复制数据到oss的时候报错如下： hadoop distcp hdfs://换成自己环境的IP:9000/group/user/tools/meta/hive-temp-table/kstj

hadoop

原创

江南独孤客

2021-09-15 20:29:43

844阅读

【云原生AI】Fluid + JindoFS 助力微博海量小文件模型训练速度提升 18 倍

深度学习平台在微博社交业务扮演着重要的角色。计算存储分离架构下，微博深度学习平台在数据访问与调度方面存在性能低效的问题。本文将介绍微博内部设计实现的一套全新的基于 Fluid（内含 JindoRuntime）的新架构方案，显著提升了海量小文件场景模型训练的性能和稳定性，多机多卡分布式训练场景可将模型训练的速度提升 18 倍。

云原生

数据

缓存

深度学习

hdfs

转载

mob60475701daad

2021-06-05 18:25:00

0阅读

2评论

CDH6.3.0使用阿里的jindoFS文件系统访问OSS数据时报错

报错如下：意思是无权限Caused by: java.lang.ClassNotFoundException: Class com.aliyun.emr.fs.oss.JindoOssFileSystem not found解决方案：使用root用户进入到[root@dbos-bigdata-flink005 ~]# cd /opt/cloudera/parcels/CDH-6.3.0-1.cdh

flink

hive

hdfs

oss

jindoFS

原创精选

江南独孤客

2021-11-10 09:11:44

3231阅读

阿里云云原生数据湖体系全解读——数据湖加速JindoFS 计算节点数据缓存

Jindo 是阿里云基于 Apache Spark / Apache Hadoop 在云上定制的分布式计算和存储引擎。 Jindo 原是阿里云开源大数据团

阿里云

云原生

缓存

数据

元数据

原创

mb62de8abf75c00

2022-07-28 17:40:48

643阅读

【云原生AI】Fluid + JindoFS 助力微博海量小文件模型训练速度提升 18 倍

深度学习平台在微博社交业务扮演着重要的角色。计算存储分离架构下，微博深度学习平台在数据访问与调度方面存在性能低效的问题。本文将介绍微博内部设计实现的一套全新的基于 Fluid（内含 JindoRuntime）的新架构方案，显著提升了海量小文件场景模型训练的性能和稳定性，多机多卡分布式训练场景可将模型训练的速度提升 18 倍。

运维云原生

原创

阿里云云原生

2021-06-05 20:20:24

991阅读

冷热数据层的ES集群方案

作者：殳鑫鑫，花名辰石，阿里巴巴计算平台事业部EMR团队技术专家，目前从事大数据存储以及Spark相关方面的工作。JindoFS 概述JindoFS概述：云原生的大数据计算存储分离方案JindoFS - 分层存储背景JindoFS 分层主要解决客户冷热数据存储成本问题，对于大多数用户数据可以简单的分为冷数据和热数据热数据：业务需要访问的数据往往是业务数据集的一部分，这种经常被访问的数据我们通常称为

冷热数据层的ES集群方案

数据

存储类型

对象存储

转载

mob64ca14163a4f

2024-09-02 14:41:49

56阅读

hdfs copy到另一个目录

本期导读：【数据迁移】第一讲主题：高效迁移 HDFS 海量文件到 OSS讲师：扬礼，阿里巴巴计算平台事业部 EMR 开发工程师主要内容：DistCp 介绍Jindo DistCp 介绍性能优化功能演示直播回放链接：https://developer.aliyun.com/live/2467281背景介绍为了让更多开发者了解并使用 JindoFS+OSS，由阿里云JindoFS+OSS

hdfs copy到另一个目录

列表

大数据

hadoop

分布式

转载

mob64ca13fe9c58

10月前

28阅读

基于 ACK Fluid 的混合云优化数据访问（一）：场景与架构

在本文中，我们简单介绍了通过 ACK Fluid 和 JindoFS 团队的 JindoRuntime 可以支持的混合云场景分类，后续文章中，我们会对以上场景的具体实践和使用方式进行详细介绍。

数据

数据访问

混合云

原创

阿里云云原生

2023-10-09 00:37:22

3090阅读

云原生数据湖云原生数据湖分析

凌云时刻 · 极鲜速递导读：如何基于阿里云 OSS 、JindoFS 和数据湖构建（Data Lake Formation，DLF）等基础服务，同时结合阿里云上丰富的计算引擎，打造一个全新云原生数据湖体系？作者 | 吴威前言“数据湖”正在被越来越多人提起，尽管定义并不统一，但企业们都已纷纷下水实践，无论是 AWS 还是阿里云、华为。我们认为：数据湖是大数据和 AI 时代融合存

云原生数据湖

运维

大数据

hadoop

数据库

转载

mob64ca13feda16

2023-08-06 22:49:53

84阅读

【数据湖加速篇】 —— 如何利用缓存加速服务来提升数据湖上机器学习训练速度

简介： JindoFS提供了一个计算侧的分布式缓存系统，可以有效利用计算集群上的本地存储资源（磁盘或者内存）缓存OSS上的热数据，从而减少对OSS上数据的反复拉取，消耗网络带宽。背景介绍近些年，机器学习领域快速发展，广泛应用于各行各业。对于机器学习领域的从业人员来说，充满了大量的机遇和挑战。Tensorflow、PyTorch等深度学习框架的出现，使开发者能够轻松地构建和部署机器学习应

数据湖

转载

mb601ce87364988

2021-02-25 20:39:47

951阅读

2评论

官方博客	全部文章	热门标签	班级博客
了解我们	网站地图	意见反馈

鸿蒙开发者社区	51CTO学堂
51CTO	软考资讯

51CTO博客

JindoFS

CDH 集群使用 JindoFS SDK 访问 OSS

拥抱云原生，Fluid 结合 JindoFS：阿里云 OSS 加速利器

JindoFS解析 - 云上大数据高性能数据湖存储方案

10亿+文件数压测，阿里云JindoFS轻松应对

拥抱云原生，Fluid结合JindoFS ：阿里云OSS加速利器

10亿+文件数压测，阿里云JindoFS轻松应对

拥抱云原生，Fluid 结合 JindoFS：阿里云 OSS 加速利器

拥抱云原生，Fluid结合JindoFS ：阿里云OSS加速利器

拥抱云原生，Fluid 结合 JindoFS：阿里云 OSS 加速利器

CDH-5.14.2使用阿里的jindoFS文件系统访问OSS数据时报错

CDH6.3使用JindoFS SDK无法使用hadoop distcp的问题解决

【云原生AI】Fluid + JindoFS 助力微博海量小文件模型训练速度提升 18 倍

CDH6.3.0使用阿里的jindoFS文件系统访问OSS数据时报错

阿里云云原生数据湖体系全解读——数据湖加速JindoFS 计算节点数据缓存

【云原生AI】Fluid + JindoFS 助力微博海量小文件模型训练速度提升 18 倍

冷热数据层的ES集群方案

hdfs copy到另一个目录

基于 ACK Fluid 的混合云优化数据访问（一）：场景与架构

云原生数据湖云原生数据湖分析

【数据湖加速篇】 —— 如何利用缓存加速服务来提升数据湖上机器学习训练速度

学一点Ceph知识：初识Ceph

keepalived 解决脑裂问题 ceph 脑裂

hdfs和ceph hdfs和ceph性能

数据湖架构论文数据湖搭建

51CTO博客

JindoFS

CDH 集群 使用 JindoFS SDK 访问 OSS

拥抱云原生，Fluid 结合 JindoFS：阿里云 OSS 加速利器

JindoFS解析 - 云上大数据高性能数据湖存储方案

10亿+文件数压测，阿里云JindoFS轻松应对

拥抱云原生，Fluid结合JindoFS ：阿里云OSS加速利器

10亿+文件数压测，阿里云JindoFS轻松应对

拥抱云原生，Fluid 结合 JindoFS：阿里云 OSS 加速利器

拥抱云原生，Fluid结合JindoFS ：阿里云OSS加速利器

拥抱云原生，Fluid 结合 JindoFS：阿里云 OSS 加速利器

CDH-5.14.2使用阿里的jindoFS文件系统访问OSS数据时报错

CDH6.3使用JindoFS SDK无法使用hadoop distcp的问题解决

【云原生AI】Fluid + JindoFS 助力微博海量小文件模型训练速度提升 18 倍

CDH6.3.0使用阿里的jindoFS文件系统访问OSS数据时报错

阿里云云原生数据湖体系全解读——数据湖加速JindoFS 计算节点数据缓存

【云原生AI】Fluid + JindoFS 助力微博海量小文件模型训练速度提升 18 倍

冷热数据层的ES集群方案

hdfs copy到另一个目录

基于 ACK Fluid 的混合云优化数据访问（一）：场景与架构

云原生数据湖 云原生数据湖分析

【数据湖加速篇】 —— 如何利用缓存加速服务来提升数据湖上机器学习训练速度

学一点Ceph知识：初识Ceph

keepalived 解决脑裂问题 ceph 脑裂

hdfs和ceph hdfs和ceph性能

数据湖架构 论文 数据湖搭建

CDH 集群使用 JindoFS SDK 访问 OSS

云原生数据湖云原生数据湖分析

数据湖架构论文数据湖搭建