香飘叶子
  • 619W+

    人气

  • 280

    文章

  • 5

    关注

  • 1042

    粉丝

  • 推荐博客
私信
  • 原创 257
  • 翻译 0
  • 转载 23
  • 评论 959
  • 点赞 632

分享:

xpleaf 

分享到朋友圈

github.com/xpleaf

  • 关注技术:Java python Hadoop
  • 入住博客:2014-08-26 6.6年
最新评论
xpleaf:好久不见~
xpleaf:有问题可以留言一下哈
xpleaf:索引别名的问题,有人会问,一个别名对应多个索引有什么用?举个例子吧,我有一个数据分析系统,这个数据分析系统只需要分析最近3天的数据就可以了,那么其实,为了数据查询的高效性,我可以每隔3天就给数据做一次rollover,这样就相当于每隔3天的数据就创建了一个新的索引,这样的话,可以将查询分析的数据控制在一定的量上,效率会大大的提高。但是,有些时候我还是希望能够查询所有的数据来做特定的分析,以满足运营的需求,这时怎么办了?那就可以给每3天创建的索引都去添加同一个别名就可以了,这样的话,查询分析是没有问题的。但是需要注意的是,如果此时向该别名中去写入数据,那么肯定就有问题了,因为一个别名对应多个索引,es并不知道你要写入哪个索引。
wx5d19ecae122d8:八成是资源的问题,我折腾了一晚上,后来重启系统解决。
xpleaf:1.数据源级别的ETL,解决key分布不均匀问题 2.过滤少数导致数据倾斜的key(抽样倾斜key+filter该key) 3.提高shuffle的并行度(reduceByKey的第二个参数,设置了这个shuffle算子执行时shuffle read task的数量) 4.两阶段聚合(抽样倾斜key和加随机前缀 局部聚合+全局聚合) 5.将reduce map转化为map join(大表.join(小表)的方式,小表使用广播变量) 6.采样倾斜key并分拆join操作(RDD1.join(RDD2),两个都不是小表,RDD1->RDD1-sk RDD1-com,RDD2->RDD2-sk-n RDD2-com) 7.使用随机前缀和扩容RDD进行join(RDD1.join(RDD2),RDD1->RDD1-sk RDD2->RDD2-sk-n)
写文章