Google DeepMind 发布 EmbeddingGemma：一款支持本地运行的开源嵌入模型

原创

公众号JavaEdge 2025-09-12 17:19:02 ©著作权

文章标签 开发者 Google 搜索 文章分类 深度学习人工智能 yyds干货盘点

©著作权归作者所有：来自51CTO博客作者公众号JavaEdge的原创作品，请联系作者获取转载授权，否则将追究法律责任

Google DeepMind 推出了 EmbeddingGemma，这是一款拥有 3.08 亿参数的开源嵌入模型，专为本地高效运行而设计。它可以让检索增强生成（RAG）、语义搜索、文本分类等应用在无需服务器或联网的情况下顺利实现。

该模型采用了 Matryoshka 表征学习，支持将嵌入向量裁剪为更小的维度，并结合了量化感知训练，在保持精度的同时提升效率。据 Google 称，在 EdgeTPU 硬件上，短文本推理时间可低于 15 毫秒。

尽管体积紧凑，EmbeddingGemma 在 Massive Text Embedding Benchmark (MTEB) 上仍是 5 亿参数以下性能最强的开源多语言嵌入模型。它支持 100 多种语言，量化后仅需不到 200MB 内存即可运行。开发者还可以根据需求调整输出维度（768 到 128），在速度与存储之间做平衡，同时保持较高质量。

Google DeepMind 发布 EmbeddingGemma：一款支持本地运行的开源嵌入模型_开发者

EmbeddingGemma 特别适合离线和对隐私要求高的场景，例如本地搜索个人文件、在移动端结合 Gemma 3n 运行 RAG 流程，或构建行业专属的聊天机器人。开发者也可以对模型进行微调，以适配特定任务。目前，它已经集成到 transformers.js、llama.cpp、MLX、Ollama、LiteRT 和 LMStudio 等工具中。

在 Reddit 上，有用户提出疑问：

嵌入模型到底有什么实际用处？我知道应用方向，但它们具体是怎么帮上忙的？

用户 igorwarzocha 回应：

除了常见的搜索引擎，你还可以把它放在大模型和数据库之间，作为辅助模型。有些编程工具就内置了这个功能，但我不确定它是帮忙还是让 LLM 更困惑。我试过用它作为“匹配器”，把描述和关键词对比，来从通用素材库里自动匹配图片，而不是手动查找。效果还算可以，但最后我还是选择了自己生成图片。

除了搜索之外，Google 还建议在离线助手、本地文件搜索或注重隐私的行业聊天机器人中使用 EmbeddingGemma。由于模型在本地运行，像电子邮件、商务文档等敏感信息无需上传到服务器。开发者也可以针对特定领域或语言进行微调。

通过这次发布，Google 将 EmbeddingGemma 定位为其大型服务端模型 Gemini Embedding 的补充。开发者既可以选择轻量、高效的本地嵌入方案，也可以通过 Gemini API 调用大规模、高性能的嵌入服务，满足不同应用场景的需求。

上一篇：System Initiative 推出“AI 原生”平台，简化基础设施自动化

下一篇：一个接口调用所有AI模型？Vercel AI Gateway 让你的应用永不宕机

提问和评论都可以，用心的回复会被更多人看到评论

发布评论

相关文章

官方博客	全部文章	热门标签	班级博客
了解我们	网站地图	意见反馈

鸿蒙开发者社区	51CTO学堂
51CTO	软考资讯