前言

呵呵 周末爆发的一波问题

然后 没办法 让周末解决, 先保存一个 堆栈信息, 和 堆dump信息 

然后 重启, 没问题了 

 

这个主要是最近碰到的一个问题

再 xxl-job 上面, 某任务 107, 手动执行 或者 自动执行 有触发日志, 但是没有 执行日志

通篇的效果类似于如下, 这个时间点 之后的所有任务 都是这个状态

从结果上来看 就是接下来之后的任务进入了 队列, 但是 因为是序列执行, 14:00 的时候这一次任务 一直再执行, 并且 一直未执行完成, 然后 导致 14:00 之后的任务 一直存在于 任务队列, 并未执行

111 记录一次 xxl-job 任务直接卡死两天_任务队列

 

 

问题的排查

首先要看的是 队列的任务的信息, 和 定时任务日志中记录的任务的信息

可以看到的是 170 的任务队列有 180 条数据, 其中 14:00 这一条正在执行, 其他的均在 任务队列

111 记录一次 xxl-job 任务直接卡死两天_linux_02

 

堆 dump 中查看 TriggerParam 可以看到 180 个, 对应的就是 这一条正在执行的任务 和 179 个队列中的对象

111 记录一次 xxl-job 任务直接卡死两天_linux_03

 

看一下 线程的执行情况, 可以看到的是 线程当前是在 发送请求, 并且 解析响应头的地方

这部分代码 是再工具代码中, 不过 可以稍微看一下

111 记录一次 xxl-job 任务直接卡死两天_java_04

 

这部分的请求发送代码 大致如下, 执行中的任务是再 195 行

111 记录一次 xxl-job 任务直接卡死两天_任务队列_05

查看一下任务执行日志, 可以看到 14:00 的任务执行日志是存在的, 并且 有一句任务进入的输出

然后 14:15 的日志是没有的, 结合上面堆栈信息, 可以分析出 任务执行是再 14:00 执行, 并且 阻塞到现在

111 记录一次 xxl-job 任务直接卡死两天_linux_06

 

我们还可以探查一下 查询参数, 这个可以通过 HttpURLConnection 的输出流进行解析

通过 HttpURLConnection 找到输出流, 找到对应的输出缓冲区, 采集这部分输出的字节, 然后进行 解析, 可以得到参数如下 {"areaCode":"61","startTime":"2023-07-13","endTime":"2023-07-13"} 

111 记录一次 xxl-job 任务直接卡死两天_任务队列_07

 

看一下 HttpResponse 的状态

只设置了 url, method, 阻塞在设置 headers 的地方

111 记录一次 xxl-job 任务直接卡死两天_任务队列_08

 

看一下 jstack, jmap 的 dump 时间

111 记录一次 xxl-job 任务直接卡死两天_java_09

111 记录一次 xxl-job 任务直接卡死两天_java_10

 

 

网络数据读取这边的处理

根据 HttpURLConnection 找到对应的 HttpClient, 然后找到 对应的 BufferedInputStream

可以看到 从 SocketInputStream 获取数据就一直阻塞在 SocketInputStream.socketRead

111 记录一次 xxl-job 任务直接卡死两天_任务队列_11

 

然后 传入的 timeout, 查询给定的 SocketInputStream 的 SocksSocketImpl 的信息, 可以看到 timeout 为 0, 表示 无限期等待

111 记录一次 xxl-job 任务直接卡死两天_http_12

 

然后 这一系列现象 是可以证实 最上面的推导

呵呵 这也是一个 很奇葩的现象, 相当于这个请求从 13号14:00开始发送, 然后到 15号09点, 还阻塞在这里, 并且看样子 会一直阻塞

使用 jdk 的 java.net.URLConnection.getHeaderFields 阻塞住了, 不清楚是 对方服务存在问题, 还是什么 其他现象

但是 按正常情况来考虑, 应该会 抛出异常, 或者 超时才对

这种情况下, 客户端这边 手动设置一下 超时, 让其 超时抛出异常即可

 

 

完