es.nodes.wan.only (default false)
此模式下(=true ),连接器将禁用发现,并且仅在所有操作(包括读取和写入)期间通过声明的es.nodes进行连接。在此模式下,性能会受到很大影响
es.index.read.missing.as.empty(default no)
yes:允许读取不存在的索引(并返回空数据集);no:不允许,读到时抛出异常
es.batch.size.bytes
(default 1mb)
使用bulk API批量写入的大小(字节),此设置是针对每个任务实例的,运行时乘以正在运行的Hadoop任务的总数
es.batch.size.entries
(default 1000)
使用bulk API进行批写的大小(以条目数计)(0表示禁用),此设置是针对每个任务实例的,运行时乘以正在运行的Hadoop任务的总数
es.batch.write.refresh
(default true)
是否在大容量更新完成后调用索引刷新。只有在执行了整个写操作(意味着执行了多个大容量更新)之后才会调用此函数。
es.batch.write.retry.count
(default 3)
ES过载且数据被拒绝的情况下,给定批的重试次数(负值代表无限次,可能产生副作用)
es.batch.write.retry.wait
(default 10s)
批量拒绝导致的批写入重试之间的等待时间。
es.ser.reader.value.class(默认值取决于使用的库)
用于将JSON转换为对象的ValueReader实现的名称。这是由框架根据使用的库(Map/Reduce、Hive、Pig等)设置的。
es.ser.writer.value.class(默认值取决于使用的库)
用于将对象转换为JSON的ValueWriter实现的名称。这是由框架根据使用的库(Map/Reduce、Hive、Pig等)设置的。
es.http.timeout(默认1m)
Elasticsearch的HTTP/REST连接超时。
es.http.retries(默认3)
建立(断开的)http连接的重试次数。每次与Elasticsearch节点的对话都会应用重试。一旦重试次数用完,连接将自动重新分配到下一个可用的Elasticsearch节点(基于es.nodes的声明,然后是发现的节点(如果启用)。
es.scroll.keepalive(默认10m)
查询请求之间滚动结果的最长持续时间。
es.scroll.size(默认值50)
每个请求返回的结果/项目数。
es.scroll.limit(默认值-1)
每个滚动条返回的结果/项目总数。负值表示应返回所有匹配的文档。请注意,这适用于通常绑定到某个作业任务的每个滚动。因此,返回的文档总数是LIMIT*number_of_SCROLLS(或TASKS)
es.action.heart.beat.lead(默认15秒)
在Elasticsearch-hadoop通知Hadoop任务仍在运行,防止任务重新启动之前,任务超时的引导时间。
es.index.auto.create
(default yes)
将数据写入Elasticsearch或失败时,elasticsearch-hadoop是否应创建索引(如果缺少索引)。
es.index.read.missing.as.empty (default no)
elasticsearch-hadoop是否允许读取不存在的索引(并返回空数据集)或不允许(并引发异常)
es.field.read.empty.as.null (default yes)
elasticsearch-hadoop是否将空字段视为null。 通常不需要此设置(因为elasticsearch-hadoop已经处理了null情况),但是可以启用此设置,以便更轻松地处理尚未清除的文本字段。
es.field.read.validate.presence (default warn)
为了帮助找出从Hadoop查询数据时可能出现的错误(这会导致返回错误的数据),elasticsearch-hadoop可以执行验证以发现缺失的字段和潜在的错别字。 可能的值为:
ignore:没有执行验证
warn:如果验证失败,则会记录一条警告消息
strict:如果缺少字段,则会引发异常,从而停止工作