Google DeepMind 推出了 EmbeddingGemma,这是一款拥有 3.08 亿参数的开源嵌入模型,专为本地高效运行而设计。它可以让检索增强生成(RAG)、语义搜索、文本分类等应用在无需服务器或联网的情况下顺利实现。
该模型采用了 Matryoshka 表征学习,支持将嵌入向量裁剪为更小的维度,并结合了 量化感知训练,在保持精度的同时提升效率。据 Google 称,在 EdgeTPU 硬件上,短文本推理时间可低于 15 毫秒。
尽管体积紧凑,EmbeddingGemma 在 Massive Text Embedding Benchmark (MTEB) 上仍是 5 亿参数以下性能最强的开源多语言嵌入模型。它支持 100 多种语言,量化后仅需不到 200MB 内存即可运行。开发者还可以根据需求调整输出维度(768 到 128),在速度与存储之间做平衡,同时保持较高质量。

EmbeddingGemma 特别适合离线和对隐私要求高的场景,例如本地搜索个人文件、在移动端结合 Gemma 3n 运行 RAG 流程,或构建行业专属的聊天机器人。开发者也可以对模型进行微调,以适配特定任务。目前,它已经集成到 transformers.js、llama.cpp、MLX、Ollama、LiteRT 和 LMStudio 等工具中。
在 Reddit 上,有用户提出疑问:
嵌入模型到底有什么实际用处?我知道应用方向,但它们具体是怎么帮上忙的?
用户 igorwarzocha 回应:
除了常见的搜索引擎,你还可以把它放在大模型和数据库之间,作为辅助模型。有些编程工具就内置了这个功能,但我不确定它是帮忙还是让 LLM 更困惑。 我试过用它作为“匹配器”,把描述和关键词对比,来从通用素材库里自动匹配图片,而不是手动查找。效果还算可以,但最后我还是选择了自己生成图片。
除了搜索之外,Google 还建议在离线助手、本地文件搜索或注重隐私的行业聊天机器人中使用 EmbeddingGemma。由于模型在本地运行,像电子邮件、商务文档等敏感信息无需上传到服务器。开发者也可以针对特定领域或语言进行微调。
通过这次发布,Google 将 EmbeddingGemma 定位为其大型服务端模型 Gemini Embedding 的补充。开发者既可以选择轻量、高效的本地嵌入方案,也可以通过 Gemini API 调用大规模、高性能的嵌入服务,满足不同应用场景的需求。
















