java 数据迁移千万 java数据迁移项目

关注 mob6454cc6ff2b9

文章目录

项目中的数据迁移（更）
需求
过程
整体过程
问题

java 数据迁移千万 java数据迁移项目

转载

mob6454cc6ff2b9 2024-04-02 06:35:50

文章标签 java 数据迁移千万 spark 大数据数据 hdfs 文章分类 Java 后端开发

项目中的数据迁移（更）

需求

数据服务的需求，除了公司集群现有的业务数仓表之外，还需要用户行为数据，因为主要是风控业务，所以大数据一直在做和规则机有关的数据处理和分析，由于定位问题，所以是有将行为数据回收自己开发的想法，为了完成这次关于用户行为的数据服务需求，并且未来方便起见，将所以行为有关的events迁移到自己的集群。
字段500+，数据周期：半年，数据量TB。

过程

整体过程

三方集群数据落地（脚本）到hive → 集群去三方拉取数据（hdfs底层数据） → 数据存储，结构，分析

问题

三方集群性能问题
提供API和JDBC两种方式，API方式会将impala拉取崩溃，JDBC方式繁琐并且impala性能不稳，最后使用JDBC方式。
每次不要处理的数据量过大，1000w左右就可以，毕竟中间是有障碍。
三方存储问题
想要一次性的将所有数据落地然后一次性迁移，但是三方存储不足，如果将全部数据重新落地，耗费太多的硬盘，所以是十天一个周期进行迁移，实际操作就是脚本操作，考虑到如果一次拉取全部数据我们集群的spark也会耗费大量资源。
所以在三方集群落地时候脚本就是一天一张表，我们拉取也是一张表进行拉取做date循环。
格式转换问题，由于落地到hdfs的原始数据，所以很多数据会出错，比如list会变成string，在拉取的过程中会和 \N 这种混在一起，就会出现对不齐的情况，最后数据就会出错。
所以在落地的时候提前进行数据探查，因为desc看不到具体类型，只有string，所以必须自己探查，最后将list处理为string就可以。

本文章为转载内容，我们尊重原作者对文章享有的著作权。如有内容错误或侵权问题，欢迎原作者联系我们进行内容更正或删除文章。

赞
收藏
评论
分享
举报

上一篇：cordova 原生返回键左滑返回 uinavigationcontroller滑动返回

下一篇：rabbitmq发送java代码 rabbitmq发送短信

提问和评论都可以，用心的回复会被更多人看到评论

发布评论

相关文章

举报文章

请选择举报类型

内容侵权涉嫌营销内容抄袭违法信息其他

具体原因

包含不真实信息涉及个人隐私

原文链接（必填）

补充说明

0/200

上传截图

格式支持JPEG/PNG/JPG，图片不超过1.9M

已经收到您得举报信息，我们会尽快审核

鸿蒙开发者社区

WOT技术大会

公众号矩阵

移动端

短视频免费课程课程排行直播课软考学堂

全部课程厂商认证 IT技术 24年11月软考 PMP项目管理免费题库

在线学习

文章资源问答课堂专栏直播

51CTO

鸿蒙开发者社区

51CTO技术栈

51CTO官微

51CTO学堂

51CTO博客

CTO训练营

鸿蒙开发者社区订阅号

51CTO软考

51CTO学堂APP

51CTO学堂企业版APP

鸿蒙开发者社区视频号

51CTO软考题库

51CTO博客

首页
关注
排行榜
精品课程
免费直播
软考题库

科目全、试题精、讲解专业，扫码免费刷

搜索历史清空

热门搜索

查看【】的结果
写文章
创作中心
登录注册