问题背景
各行各业都在大谈“整合”,每一个“整合”概念背后又是海量数据的支撑。ElasticSearch、Solr等搜索引擎更是在这个风口大显神通。
最近在应用ElasticSearch改造会员系统时遇到了这样一个问题:某一用户在长时间无动作后,再向ES发送请求,先是长时间Loading,而后出现报错“远程主机强迫关闭了一个现有连接”。而在报错后再次发送请求一切又正常了。
从现象上推测,很可能是由于连接超时导致的错误(其实并不完全是)。
大胆猜想,小心求证(此部分并非正解,着急的同学可跳过)
这里梳理下求证过程:
我在springboot项目中采用RestHighLevelClient对ElasticSearch进行操作,直接上代码:
/**
* ES开发环境配置类
*/
@Configuration
@Conditional(MsgMqDevCondition.class)
public class ElasticSearchDevConfig {
@Value("${es.url}")
private String esPath;
@Value("${es.port}")
private String esPort;
@Bean
public RestHighLevelClient restHighLevelClient(){
RestHighLevelClient client = new RestHighLevelClient(
RestClient.builder(
new HttpHost(esPath,Integer.parseInt(esPort),"http")
).setRequestConfigCallback(new RestClientBuilder.RequestConfigCallback() {
@Override
public RequestConfig.Builder customizeRequestConfig(RequestConfig.Builder requestConfigBuilder) {
return requestConfigBuilder.setConnectTimeout(90000000)//25hours
.setSocketTimeout(90000000);
}
})
);
return client;
}
}
起初我以为只要按论坛上很多文章的说法,将连接时长拉宽就可以解决问题,实则大谬,官方API也只是声称这种配置是为client设置超时时间。
如果仅仅是因为连接超时导致了这个问题,我写个定时任务,高频的维持请求是不是可以解决问题呢?
/**
* 定时唤醒ElasticSearch客户端
*/
@Component
@Slf4j
public class ElasticClientAwakeTask {
@Autowired
private RestHighLevelClient restHighLevelClient;
@Scheduled(cron = "0 0/2 * * * ?")
public void keepESAlive() {
try {
MainResponse info = restHighLevelClient.info(RequestOptions.DEFAULT);
log.info("ES定时唤醒正常,节点名称:"+info.getNodeName());
} catch (IOException ignored) {
log.error("ES定时唤醒异常:"+ignored.getMessage());
}
}
}
经过验证,问题并没有得到解决。
问题正解
两次鲁莽的尝试并没有解决问题,这个时候就需要坐坐冷板凳了,通过查源码终于发现了问题的关键。
其实每个client都持有一个http连接,并且开启了http的keep-alive策略复用连接。而这个对连接100%信任的复用恰恰引发了问题。
ES highLevelClient 对长连接的实现是把超时时间设置为-1,也就是说客户端永远不超时,服务端设备为了资源的利用率会检测与此设备的连接是否在使用,如果一个连接长时间没有使用,服务端会主动把这个连接回收,而此时客户端并未获得通知,由于ES服务端对客户端连接不负责任的单向清理,导致当有请求触发使用了该连接就会发现与服务端连接不上,产生timeout,客户端此时才会断开此连接。而再次请求时,由于创建了新的连接,客户端与服务端通信又正常了。因此问题的根源在于客户端没有及时发现连接的不可用并断开,需要设置让客户端主动对tcp连接进行探测保活。
通过查阅官方API,我发现其实可以通过HttpClientConfigCallback来控制线程相关的操作。这里需要注意,Java High Level REST Client 是基于 Java Low Level REST client开发的,所以低级API对连接、线程的处理与高级API并不冲突。
解决方案:
/**
* ES开发环境配置类
*/
@Configuration
@Conditional(MsgMqDevCondition.class)
public class ElasticSearchDevConfig {
@Value("${es.url}")
private String esPath;
@Value("${es.port}")
private String esPort;
@Bean
public RestHighLevelClient restHighLevelClient(){
RestHighLevelClient client = new RestHighLevelClient(
RestClient.builder(
new HttpHost(esPath,Integer.parseInt(esPort),"http")
).setRequestConfigCallback(new RestClientBuilder.RequestConfigCallback() {
@Override
public RequestConfig.Builder customizeRequestConfig(RequestConfig.Builder requestConfigBuilder) {
return requestConfigBuilder.setConnectTimeout(90000000)//25hours
.setSocketTimeout(90000000);
}
}).setHttpClientConfigCallback((httpAsyncClientBuilder -> {
httpAsyncClientBuilder.disableAuthCaching();//禁用身份验证缓存
//显式设置keepAliveStrategy
httpAsyncClientBuilder.setKeepAliveStrategy((httpResponse,httpContext) -> TimeUnit.MINUTES.toMillis(3));
//显式开启tcp keepalive
httpAsyncClientBuilder.setDefaultIOReactorConfig(IOReactorConfig.custom().setSoKeepAlive(true).build());
return httpAsyncClientBuilder;
}))
);
return client;
}
}