问题背景

 

各行各业都在大谈“整合”,每一个“整合”概念背后又是海量数据的支撑。ElasticSearch、Solr等搜索引擎更是在这个风口大显神通。

最近在应用ElasticSearch改造会员系统时遇到了这样一个问题:某一用户在长时间无动作后,再向ES发送请求,先是长时间Loading,而后出现报错“远程主机强迫关闭了一个现有连接”。而在报错后再次发送请求一切又正常了。

es 服务器修改默认超时时间 es连接超时设置_客户端

es 服务器修改默认超时时间 es连接超时设置_es 服务器修改默认超时时间_02

 从现象上推测,很可能是由于连接超时导致的错误(其实并不完全是)。

大胆猜想,小心求证(此部分并非正解,着急的同学可跳过)

这里梳理下求证过程:

我在springboot项目中采用RestHighLevelClient对ElasticSearch进行操作,直接上代码:

/**
 * ES开发环境配置类
 */
@Configuration
@Conditional(MsgMqDevCondition.class)
public class ElasticSearchDevConfig {

    @Value("${es.url}")
    private String esPath;

    @Value("${es.port}")
    private String esPort;

    @Bean
    public RestHighLevelClient restHighLevelClient(){
        RestHighLevelClient client = new RestHighLevelClient(
                RestClient.builder(
                        new HttpHost(esPath,Integer.parseInt(esPort),"http")
                ).setRequestConfigCallback(new RestClientBuilder.RequestConfigCallback() {
                    @Override
                    public RequestConfig.Builder customizeRequestConfig(RequestConfig.Builder requestConfigBuilder) {
                        return requestConfigBuilder.setConnectTimeout(90000000)//25hours
                                .setSocketTimeout(90000000);
                    }
                })
        );
        return client;
    }

}

起初我以为只要按论坛上很多文章的说法,将连接时长拉宽就可以解决问题,实则大谬,官方API也只是声称这种配置是为client设置超时时间。

es 服务器修改默认超时时间 es连接超时设置_es 服务器修改默认超时时间_03

如果仅仅是因为连接超时导致了这个问题,我写个定时任务,高频的维持请求是不是可以解决问题呢?

/**
 * 定时唤醒ElasticSearch客户端
 */
@Component
@Slf4j
public class ElasticClientAwakeTask {

    @Autowired
    private RestHighLevelClient restHighLevelClient;

    @Scheduled(cron = "0 0/2 * * * ?")
    public void keepESAlive() {
        try {
            MainResponse info = restHighLevelClient.info(RequestOptions.DEFAULT);
            log.info("ES定时唤醒正常,节点名称:"+info.getNodeName());
        } catch (IOException ignored) {
            log.error("ES定时唤醒异常:"+ignored.getMessage());
        }
    }

}

经过验证,问题并没有得到解决。

问题正解

两次鲁莽的尝试并没有解决问题,这个时候就需要坐坐冷板凳了,通过查源码终于发现了问题的关键。

其实每个client都持有一个http连接,并且开启了http的keep-alive策略复用连接。而这个对连接100%信任的复用恰恰引发了问题。

es 服务器修改默认超时时间 es连接超时设置_客户端_04

 ES highLevelClient 对长连接的实现是把超时时间设置为-1,也就是说客户端永远不超时,服务端设备为了资源的利用率会检测与此设备的连接是否在使用,如果一个连接长时间没有使用,服务端会主动把这个连接回收,而此时客户端并未获得通知,由于ES服务端对客户端连接不负责任的单向清理,导致当有请求触发使用了该连接就会发现与服务端连接不上,产生timeout,客户端此时才会断开此连接。而再次请求时,由于创建了新的连接,客户端与服务端通信又正常了。因此问题的根源在于客户端没有及时发现连接的不可用并断开,需要设置让客户端主动对tcp连接进行探测保活。

es 服务器修改默认超时时间 es连接超时设置_es 服务器修改默认超时时间_05

通过查阅官方API,我发现其实可以通过HttpClientConfigCallback来控制线程相关的操作。这里需要注意,Java High Level REST Client 是基于  Java Low Level REST client开发的,所以低级API对连接、线程的处理与高级API并不冲突。

es 服务器修改默认超时时间 es连接超时设置_服务端_06

解决方案:

/**
 * ES开发环境配置类
 */
@Configuration
@Conditional(MsgMqDevCondition.class)
public class ElasticSearchDevConfig {

    @Value("${es.url}")
    private String esPath;

    @Value("${es.port}")
    private String esPort;

    @Bean
    public RestHighLevelClient restHighLevelClient(){
        RestHighLevelClient client = new RestHighLevelClient(
                RestClient.builder(
                        new HttpHost(esPath,Integer.parseInt(esPort),"http")
                ).setRequestConfigCallback(new RestClientBuilder.RequestConfigCallback() {
                    @Override
                    public RequestConfig.Builder customizeRequestConfig(RequestConfig.Builder requestConfigBuilder) {
                        return requestConfigBuilder.setConnectTimeout(90000000)//25hours
                                .setSocketTimeout(90000000);
                    }
                }).setHttpClientConfigCallback((httpAsyncClientBuilder -> {
                    httpAsyncClientBuilder.disableAuthCaching();//禁用身份验证缓存
                    //显式设置keepAliveStrategy
                    httpAsyncClientBuilder.setKeepAliveStrategy((httpResponse,httpContext) -> TimeUnit.MINUTES.toMillis(3));
                    //显式开启tcp keepalive
                    httpAsyncClientBuilder.setDefaultIOReactorConfig(IOReactorConfig.custom().setSoKeepAlive(true).build());
                    return httpAsyncClientBuilder;
                }))
        );
        return client;
    }

}