【总结】Spark任务的core,executor,memory资源配置方法

Spark应该怎么配置资源,如何通过资源和数据量的角度,评估spark application中executors,cores,memory的配置

置顶 翻译 点赞0 阅读10000+ 收藏1 评论0 2019-03-18

【Flume】HDFSSink源码理解

主要分析了HDFSSink中HDFSEventSink和BucketWriter中关键几个方法

置顶 原创 点赞0 阅读10000+ 收藏0 评论0 2017-12-21

【Flume】TailDirSource源码理解

从源码上研究了TailDirSource, ReliableTaildirEventReader,TailFile三个类,在TaildirSource组件中的作用

置顶 原创 点赞1 阅读8404 收藏0 评论0 2017-12-14

【Hive】Spark引擎Group By带分区字段,执行计划reduce个数计算异常

GROUP BY算子,带有分区字段dt,导致执行计划中有一个reduce task 0: jdbc:hive2://172.0.0.1:10015/> SET hive.execution.engine=spark;No rows affected (0.011 seconds)0: jdbc:hive2://172.0.0.1:10015/>  explain     SELECT

原创 点赞0 阅读89 收藏0 评论0 4 小时前

【Hive】从执行计划DAG中执行慢的Task,找到对应SQL逻辑片段

一个稍微复杂的Hive SQL,在执行过程中发现某个Task非常慢,怎么去定位这个Task是属于哪段SQL逻辑呢

原创 点赞0 阅读114 收藏0 评论0 23 天前

【Hive】CDH hive 1.1.0版本下的map join配置

hive设置的hive变量是否影响explain的结果? 通过修改hive配置项,通过explain查看hive执行计划,执行的是map join还是reduce join

原创 点赞0 阅读76 收藏0 评论0 27 天前

【Hive】你以为你以为的Map Join就是你以为的么

hive设置的hive变量是否影响explain的结果? 通过修改hive配置项,通过explain查看hive执行计划,执行的是map join还是reduce join

原创 点赞0 阅读61 收藏0 评论0 27 天前

【总结】解决Container Killed by Yarn For Exceeding Memor

记录解决Container Killed by Yarn For Exceeding Memory的方法和步骤

原创 点赞0 阅读221 收藏0 评论0 2021-04-19

【总结】遇到return code 2 from …….mr.MapRedTask. 怎么办

遇到return code 2 from org.apache.hadoop.hive.ql.exec.mr.MapRedTask时,问题排查过程

原创 点赞0 阅读525 收藏0 评论0 2021-01-22

【问题】Spark Streaming批次处理耗时问题排查

Spark Streaming处理流程中,遇到某些批次耗时长的问题,排查思路

原创 点赞0 阅读575 收藏0 评论3 2020-11-12

【HQL】HQL每天购课总额前三的用户

rank窗口函数,聚合数据分组排序

原创 点赞0 阅读439 收藏0 评论0 2020-07-22

【HQL】HQL实现用户访问记录表,即访问A又访问B的用户数

用户访问表(visit_table)user_id(用户ID)Url(访问地址)1A1B2C2A1ASQL查询,访问过A并且访问过B的用户数量实现1:with user_visit as(    select 1 as user_id, 'A' as url union all    select 1 as user_id, 'A' as url union all    select 1 as

原创 点赞0 阅读519 收藏0 评论0 2020-03-28

【HQL】HQL实现每日订单量和未填地址订单量以及未填地址订单量N日后的变化

HQL实现每日订单量和未填地址订单量以及未填地址订单量N日后的变化

原创 点赞0 阅读568 收藏0 评论0 2020-03-26

【总结】广告流量中的反作弊判断

广告流量中反作弊特征和手段,可以从离线和实时两方面基于不同角度进行判断

原创 点赞0 阅读600 收藏0 评论0 2020-03-18

【Supervisor】配置

Supervisor监控tomcat,grafana,influxdb等进程

原创 点赞0 阅读660 收藏0 评论0 2020-01-10

【增长】用户增长模型、指标

我不是产品经理,总结

原创 点赞0 阅读554 收藏0 评论0 2019-12-07

【Kafka】常用命令

记录Kafka常用命令

原创 点赞0 阅读1019 收藏0 评论0 2019-09-10

【Druid】Druid读取Kafka数据的简单配置过程

Druid读取Kafka数据的简单配置过程

原创 点赞0 阅读3159 收藏0 评论0 2019-08-16

【Druid】单机版Druid安装过程

记录druid单机版安装过程

原创 点赞0 阅读2943 收藏0 评论0 2019-08-15

如何校验SQL查询结果是否准确

总结平常工作中几种校验数据的思路

原创 点赞0 阅读1820 收藏0 评论0 2019-07-18

【Spark】Spark什么时候进行Shuffle数据抓取

一本书中遇到两个矛盾的说法。说的是一个事情么

原创 点赞0 阅读1040 收藏0 评论0 2019-01-09

Maven、Jenkins实现自动化部署

介绍如何利用maven实现多环境多配置的project打包 1、利用maven实现package过程,不同环境生成不同配置文件 2、利用maven-assembly插件,实现项目内容分发,自动生成bin,conf,lib目录的项目部署结构 3、在1、2两个阶段基础上,利用Jenkins实现项目自动部署服务器

原创 点赞0 阅读4548 收藏1 评论0 2018-10-19

【SQL】spark sql 不等值 join

一个简单例子,说明spark中不等值连接的应用。同时用实际证明spark中支持不等值连接

原创 点赞0 阅读6164 收藏0 评论0 2018-09-06

【总结】log4j on sentry实践

本文实现了java工程,利用logback将日志输出到logstore,并能够将特定级别的日志发送到Sentry 组件中,实现利用Sentry告警即使发现程序异常

原创 点赞0 阅读4761 收藏0 评论0 2018-07-25

【翻译】关于Apache Flume FileChannel

基于WAL实现Flume FileChannel。

翻译 点赞1 阅读7076 收藏0 评论0 2018-07-07

【总结】filebeat进程写满磁盘的情况处理

采用filebeat收集日志,日志文件频繁rotate,造成filebeat占用文件不释放,只要filebeat保持着被删除文件Open状态,操作系统就不释放磁盘空间,导致可用磁盘空间逐渐减小。使用lsof命令查看filebeat保持着的文件资源,可以发现许多被filebeat占用空间的失效文件(deleted)文件。deleted状态的文件没有释放,始终占据磁盘空间解决办法:查看filebeat

原创 点赞0 阅读8634 收藏1 评论0 2018-06-26

【总结】各种数据格式的Hive建表语句

不同格式,Hive建表语句

原创 点赞0 阅读10000+ 收藏0 评论0 2018-05-22

【总结】使用Scala实现Json与Case Class相互转换

使用Scala实现Json与Case Class相互转换

原创 点赞1 阅读8798 收藏0 评论0 2018-05-07

【Flume】HDFSSink配置参数说明

在分析HDFSSink源码的过程中对每个参数理解进行解释说明

翻译 点赞1 阅读10000+ 收藏0 评论0 2017-12-21

国内酒店业务数据平台架构图

国内酒店业务数据平台架构图

原创 点赞0 阅读3973 收藏0 评论0 2017-11-24
  • 1
  • 2
  • 3
写文章