jina的Embedding Reranker

原创

keyboard_sun 2024-09-14 15:47:37 ©著作权

文章标签 jina embedding 搜索重排序相似度 文章分类 Html/CSS 前端开发

©著作权归作者所有：来自51CTO博客作者keyboard_sun的原创作品，请联系作者获取转载授权，否则将追究法律责任

插入向量库是否需要使用 Jina 的 Embedding 和 Reranker 取决于你希望如何处理和优化语义搜索的质量。以下是使用 Jina Embedding 和 Reranker 的原因，以及它们如何作用于插入向量库的流程。

1. Jina 的 Embedding 作用

Jina 是一个流行的开源框架，用于构建多模态搜索系统。Jina 的 Embedding 模型可以将文本或其他数据转换成向量表示，方便存储在向量数据库（如 Milvus）中，支持更高效的相似度检索。

如果你希望在 Milvus 中进行基于语义的搜索（而不仅仅是基于关键词匹配），则可以使用 Jina 提供的 Embedding 模型来将术语和相关数据转换为向量，并将这些向量存储在 Milvus 中。

Embedding 的步骤：

获取文本或术语：如 “收入”、“净利润” 等术语。
使用 Jina 的 Embedding 模型：将这些术语转换为语义向量（即高维度向量表示）。
将向量插入到 Milvus：通过向量表示进行高效的相似度搜索。

什么时候需要 Embedding？

当你需要语义匹配时，比如用户可能输入的是同义词或类似的概念。Embedding 会捕捉到词语之间的语义关系，而不仅仅是字符串匹配。
提高查询改写的准确性，Embedding 向量化后的术语可以更好地进行相似度计算，找到最相关的术语进行改写。

2. Reranker 的作用

Reranker 是一个重排序模型，通常在搜索结果返回之后，用于根据更复杂的规则或模型对结果进行二次排序。Reranker 在以下情况下是有用的：

多阶段检索：在初步检索后，可以使用 Reranker 对返回的结果根据更多上下文或更细粒度的语义关系进行重排序，确保最相关的结果排在前面。
提高搜索精度：Reranker 可以基于上下文和用户查询更好地优化结果排序。

3. 如何结合 Jina Embedding 和 Reranker？

Embedding：负责将术语和用户查询转化为语义向量。这一步是插入向量库之前的必要步骤，以便向量库可以高效处理语义搜索。
Reranker：在你从 Milvus 中检索到最相关的术语后，使用 Reranker 对结果进行重排序。这一步确保返回的结果更加符合用户的意图。

4. 如何将它们结合到你的现有代码中？

更新 `MilvusClient`，使用 Jina 的 Embedding 模型

首先，确保你已经安装了 Jina 的必要依赖：

pip install jina

然后你可以使用 Jina 的预训练 Embedding 模型来将术语转化为向量。

from jina import Flow
from jina.types.document.generators import from_dict
from pymilvus import Collection, connections

class MilvusClient:
    def __init__(self):
        # 连接 Milvus 服务器
        connections.connect(alias="default", host="localhost", port="19530")
        
        # 定义 Collection Schema
        self.collection_name = "industry_terms"
        self.collection = Collection(name=self.collection_name)

        # Jina 流，用于 Embedding
        self.flow = Flow().add(uses='jinahub://TransformerTorchEncoder')
    
    def embed_and_insert_terms(self, term_data_list):
        """
        1. 使用 Jina 进行 Embedding
        2. 插入向量数据到 Milvus 知识库
        """
        # 准备插入数据
        field_names = [data['field_name'] for data in term_data_list]
        terms = [data['term'] for data in term_data_list]
        source_tables = [data['source_table'] for data in term_data_list]
        descriptions = [data['description'] for data in term_data_list]
        data_types = [data['data_type'] for data in term_data_list]
        related_fields = [data['related_fields'] for data in term_data_list]
        explanations = [data['term_explanation'] for data in term_data_list]

        # 通过 Jina 的 Embedding 将术语转换为向量
        docs = from_dict([{"text": term} for term in terms])
        with self.flow:
            embedding_docs = self.flow.post(on='/index', inputs=docs)

        # 从嵌入结果中提取向量
        embeddings = [doc.embedding for doc in embedding_docs]

        # 插入向量和原始数据到 Milvus 中
        self.collection.insert([field_names, terms, source_tables, descriptions, data_types, related_fields, explanations, embeddings])
        print(f"成功插入了 {len(term_data_list)} 条数据到 Milvus 知识库")

更新 `search_terms`，进行语义搜索并使用 Reranker

class MilvusClient:
    # 初始化和插入方法如上

    def search_terms(self, query: str):
        """
        1. 使用 Jina 进行查询的 Embedding。
        2. 在 Milvus 中进行相似度搜索。
        3. 使用 Reranker 对搜索结果进行重排序。
        """
        # Step 1: 使用 Jina 进行 Embedding
        docs = from_dict([{"text": query}])
        with self.flow:
            query_docs = self.flow.post(on='/search', inputs=docs)

        query_embedding = query_docs[0].embedding

        # Step 2: 在 Milvus 中进行向量搜索
        search_results = self.collection.search(
            data=[query_embedding],  
            anns_field="embedding",  # 搜索字段为 embedding
            param={"metric_type": "L2", "params": {"nprobe": 10}},
            limit=10  
        )

        # Step 3: 使用 Reranker 对结果进行重排序（此处是简单的排序示例）
        sorted_results = sorted(search_results, key=lambda x: x.distance)
        
        if len(sorted_results) > 0:
            return sorted_results[0].entities[0]["term"]  # 返回最相关的术语
        else:
            return None  # 如果没有找到匹配项，返回 None