python获取ES索引

原创

mob64ca12eb3858 2023-11-30 05:15:53 ©著作权

文章标签 python Elastic Python 文章分类 Python 后端开发

©著作权归作者所有：来自51CTO博客作者mob64ca12eb3858的原创作品，请联系作者获取转载授权，否则将追究法律责任

Python获取ES索引

介绍

Elasticsearch（简称ES）是一个开源的分布式搜索引擎，它提供了快速、强大的全文搜索功能。在很多应用中，需要从ES中获取索引数据进行分析和处理。本文将介绍如何使用Python获取ES索引的数据，并提供相应的代码示例。

准备工作

首先，我们需要安装和配置Python的ES库。可以使用pip命令安装elasticsearch库：

pip install elasticsearch

安装完成后，我们可以使用import语句导入所需的库：

from elasticsearch import Elasticsearch

接下来，我们需要连接到ES实例。假设我们的ES实例运行在本地主机上，默认端口为9200：

es = Elasticsearch([{'host': 'localhost', 'port': 9200}])

获取索引列表

要获取ES中的索引列表，我们可以使用cat indices命令。在Python中，我们可以使用ES库的cat.indices()方法：

response = es.cat.indices()

这个方法返回一个字符串，其中包含ES中所有索引的信息。我们可以使用splitlines()方法将其分割成多行，并使用split()方法进一步分割每一行的内容。然后，我们可以将这些内容存储在一个二维列表中：

index_list = [line.split() for line in response.splitlines()]

最后，我们可以使用pandas库将这个二维列表转换为一个数据框，以便更方便地处理和分析索引数据：

import pandas as pd

df = pd.DataFrame(index_list, columns=['health', 'status', 'index'])

获取索引文档

要获取特定索引中的文档，我们可以使用ES库的search()方法。首先，我们需要指定要搜索的索引名：

index_name = 'my_index'

然后，我们可以使用search()方法获取索引中的文档。以下是一个简单的示例，获取索引中的所有文档：

response = es.search(index=index_name, body={'query': {'match_all': {}}})

这个方法返回一个字典，其中包含有关搜索结果的信息。我们可以从中提取所需的数据：

hits = response['hits']['hits']

然后，我们可以使用pandas库将这个字典转换为一个数据框：

df = pd.DataFrame([hit['_source'] for hit in hits])

示例代码

下面是一个完整的示例代码，演示如何获取ES索引的列表和文档：

from elasticsearch import Elasticsearch
import pandas as pd

# 连接到ES实例
es = Elasticsearch([{'host': 'localhost', 'port': 9200}])

# 获取索引列表
response = es.cat.indices()
index_list = [line.split() for line in response.splitlines()]
df = pd.DataFrame(index_list, columns=['health', 'status', 'index'])
print(df)

# 获取索引文档
index_name = 'my_index'
response = es.search(index=index_name, body={'query': {'match_all': {}}})
hits = response['hits']['hits']
df = pd.DataFrame([hit['_source'] for hit in hits])
print(df)