【金猿技术展】高性能NLP序列推理实践——Lightseq

原创

数据猿DataYuan 2024-04-22 09:49:44 ©著作权

文章标签 数据大数据深度学习 文章分类 文心一言 AIGC

©著作权归作者所有：来自51CTO博客作者数据猿DataYuan的原创作品，请联系作者获取转载授权，否则将追究法律责任

【金猿技术展】高性能NLP序列推理实践——Lightseq_数据

火山引擎技术

该技术由火山引擎申报并参与“数据猿年度金猿策划活动——2020大数据产业创新技术突破榜榜单及奖项”评选。

大数据产业创新服务媒体

——聚焦数据 · 改变商业

自2017年Google提出Transformer模型，以其为基础的特征提取方法，推动了众多自然语言处理任务能力水平的提升，与此同时，模型的参数量和推理延迟也呈现近乎指数增长。以机器翻译为例，目前WMT比赛中SOTA模型已经达到了50层以上。

目前主流深度学习框架，主要面临两大问题：一是翻译时间太长，时长直接影响用户体验；二是单卡QPS（每秒查询率）太低，导致客户服务成本过高。

LightSeq 团队对以Transformer为基础的序列特征提取器（Encoder）和自回归的序列解码器（Decoder）做了深度优化。成为业界第一款完整支持Transformer、GPT等多种模型高速推理的开源引擎。

目前火山翻译平均每日，处理请求超过2亿，服务用户超过2亿，覆盖100个国家和地区。LightSeq 帮助火山翻译将服务延迟降低十倍以上，平均响应时间控制在百毫秒内，大幅提升了用户体验及云服务成本。同时，LightSeq还可以应用于自动问答、智能写作、对话回复生成等众多场景，大大提高线上模型推理速度，改善用户的使用体验，降低企业的运营服务成本。

【金猿技术展】高性能NLP序列推理实践——Lightseq_深度学习_02

技术说明

1. 性能非常高。LightSeq是业界最早开源的序列生成推理引擎，推理速度非常快。例如在翻译任务上，LightSeq相比于Tensorflow实现最多可以达到14倍的加速。同时领先目前其他开源序列推理引擎，例如最多可比Faster Transformer快1.4倍。

【金猿技术展】高性能NLP序列推理实践——Lightseq_数据_03

2. 支持模型功能多。LightSeq支持BERT、GPT、Transformer、VAE 等众多模型，同时支持beam search、diverse beam search、sampling等多种解码方式。

【金猿技术展】高性能NLP序列推理实践——Lightseq_大数据_04

3. 简单易用。无缝衔接Tensorflow、PyTorch等深度学习框架。LightSeq通过定义模型协议，支持各种深度学习框架训练好的模型灵活导入。同时包含了开箱即用的端到端模型服务，即在不需要写一行代码的情况下部署高速模型推理，同时也灵活支持多层次复用。

开发团队

●带队负责人：王晓晖

2017年硕士毕业于上海交通大学计算机系，目前就职于字节跳动AI-LAB，担任NLP算法工程师。主要关注领域包括：机器翻译，高性能计算，模型压缩，模型编译优化等。

●其他重要成员：

熊鹰，字节跳动AI Lab，算法工程师

韦阳，字节跳动AI Lab，实习算法工程师

●隶属机构：火山引擎

火山引擎是字节跳动旗下的数字服务与智能科技品牌，基于公司服务数亿用户的大数据、人工智能和基础服务等技术能力，为企业提供系统化的全链路解决方案，助力企业务实地创新，给企业带来持续、快速增长。

官方博客	全部文章	热门标签	班级博客
了解我们	网站地图	意见反馈

鸿蒙开发者社区	51CTO学堂
51CTO	软考资讯