把模型部署到多个gpu 模型部署方式

转载

mob64ca1405664d 2024-03-16 00:50:17

从模型训练到部署：training data→train→convert→infer→outputdata

convert：模型转换、量化、网络层合并、剪枝、优化等过程得到推理模型

infer：一般用专门推理引擎进行推理

原因：1.模型已简化；2.convert转化后的格式，对部署平台硬件计算更友好

把模型部署到多个gpu 模型部署方式_深度学习

2.1 在线服务器端部署，精度优先

一般大模型/分布式复杂模型前端部署不了，eg千亿级参数模型GPT-3

对延迟不敏感，如百度识图这种以图搜图应用

2.2 离线嵌入式端部署，兼顾精度与速度，资源消耗

模型，如目标检测；

对延迟，资源敏感；

3.1 几种常见方式：原始训练框架部署；训练框架部署引擎；手动模型重构；专用推理引擎
原始训练框架部署：如caffe训练的模型用caffe部署，TensorFlow用TensorFlow

训练框架部署引擎：有些框架提供对应部署引擎，如TensorFlow有TensorLite,PyTorch有PyTorch-Mobile(手机移动端)

手动模型重构：模型本质上二进制文件，自己写代码解析

专用推理引擎：一些巨头或者硬件平台开发好的

3.2 特点

原始训练框架部署，如用完整的TensorFlow/PyTorch/Caffe等，可用来训练，也可用来推理，一般验证模型时拿来推理，一般不真正用来生产中(手机/嵌入式端)部署，原因如下：

把模型部署到多个gpu 模型部署方式_Mobile_02

训练框架自带的部署引擎，如TensorLite(TF-Lite),PyTorch-Mobile

手动模型重构

专用推理引擎，高性能，移动/嵌入式端推理框架，如NCNN、MNN、Tengin

把模型部署到多个gpu 模型部署方式_Mobile_03

本文章为转载内容，我们尊重原作者对文章享有的著作权。如有内容错误或侵权问题，欢迎原作者联系我们进行内容更正或删除文章。

提问和评论都可以，用心的回复会被更多人看到评论

发布评论

相关文章

官方博客	全部文章	热门标签	班级博客
了解我们	网站地图	意见反馈

鸿蒙开发者社区	51CTO学堂
51CTO	软考资讯

51CTO博客