spark动态分区 spark动态分区写入特别慢

转载

mob6454cc659b12 2023-07-30 17:32:20

文章标签 spark动态分区 spark hive sql 文章分类 Spark 大数据

1. sparksql动态分区直接写入hive表速度慢

1 动态写入速度慢的sql

set hive.exec.dynamic.partition.mode=nonstrict;
 insert overwrite table ssjt_test partition(dt) select a,dt from ssjt.test2 where dt>='20200801';

2. 文件方式写入后, alter方式添加分区
1) 过滤出要删除的目录;
2) 删除要重新覆盖的目录;
3) 文件方式写入(append)

import org.apache.spark.sql._
 val out_path = "s3://transsion-bigdata-warehouse/test/shy/bak4"
 df.write.mode( "append" ).option( "compression", "snappy" ).partitionBy( "dt" ).parquet( out_path )

4) 添加分区, 如果以前添加过可以省略;

2 新的解决思路参考

本文章为转载内容，我们尊重原作者对文章享有的著作权。如有内容错误或侵权问题，欢迎原作者联系我们进行内容更正或删除文章。

上一篇：android 权限代码安卓获取权限代码

下一篇：架构师和分布式架构师分几种

提问和评论都可以，用心的回复会被更多人看到评论

发布评论

相关文章

官方博客	全部文章	热门标签	班级博客
了解我们	网站地图	意见反馈

鸿蒙开发者社区	51CTO学堂
51CTO	软考资讯

spark动态分区 spark动态分区写入特别慢

spark动态分区 spark动态分区写入特别慢

1. sparksql动态分区直接写入hive表速度慢

2 新的解决思路参考

51CTO博客