hive 分号 hive分隔符\u0001

转载

mob6454cc6a01b7 2023-08-10 13:00:40

前言

由于需要设计一个每天多批次的定时作业，由于单端逻辑不能抽取出目标数据，其中涉及了跨库问题，因此需要从mysql、Oracle数据库中将数据同步至一个统一的环境中（hive），那么由于数据量大（百亿级），关联数据要从各个业务部门自有的数据库导入，kettle无疑成了最好的选择。

由于要推张业务支持表出去，因为在这里我根据四张业务表的前置表依赖关系做了个聚类，把四项业务的数据导入流程分在了四个方向上，方便日后有针对性的修改，效果如下：

$hive 分号 hive分隔符\u0001_etl$

设计完成后提交生产集群上跑，一切都很顺利：

$hive 分号 hive分隔符\u0001_数据_02$

查看了一下中间文件，问题来了：

$hive 分号 hive分隔符\u0001_etl_03$

‘\u0001’分隔符失效！

按照公司的规范，hive外部表的文件分隔符统一使用‘\u0001’，但是笔者在job中设置的变量失效了，很明显kettle不支持特殊字符的这种写法：

$hive 分号 hive分隔符\u0001_十六进制_04$

问题的关键在于，找到一种kettle支持的特殊字符的写法。

查阅网上的一些现有资料后，笔者找到了解决办法，根据ASCII码表，我们在kettle中采用$[十六进制值]方式来表示：

$hive 分号 hive分隔符\u0001_etl_05$

比如‘\u0001’的十六进制是01，就用$[01]来表示：

$hive 分号 hive分隔符\u0001_十六进制_06$

随后再执行，去hdfs上查看文件就看到可以正常分隔了：

$hive 分号 hive分隔符\u0001_分隔符_07$

根据自己的需要，需要什么样的分隔符，就在ASCII码表上找到对应的分隔符十六进制数，写入$[]即可。

本文章为转载内容，我们尊重原作者对文章享有的著作权。如有内容错误或侵权问题，欢迎原作者联系我们进行内容更正或删除文章。

提问和评论都可以，用心的回复会被更多人看到评论

发布评论

相关文章

官方博客	全部文章	热门标签	班级博客
了解我们	网站地图	意见反馈

鸿蒙开发者社区	51CTO学堂
51CTO	软考资讯