最近,有很多小伙伴问我,如果他们想自己基于MindIE镜像中的文件适配新模型,可以怎么做? 为了实现这个目标,首先需要了解MindIE-LLM模型在推理过程中的代码调用流程,然后根据新模型的算法进行适配。 背景知识 MindIE-LLM组件采用ATB算子构建模型。ATB全称Ascend transformer boost,是一款高效、可靠的加速库,基于华为Ascend AI处理器,专门为Trans
AI
原创 3月前
70阅读
MindIE LLMMindIE解决方案下的大语言模型推理组件,基于昇腾硬件提供业界通用大模型推理能力,同时提供多并发请求的调度功能,支持Continuous Batching、PageAttention、FlashDecoding等加速特性,使能用户高性能推理需求。 MindIE LLM主要提供大模型推理Python API和大模型调度C++ API。 1 MindIE LLM架构 Mind
原创 10月前
155阅读
MindIE是昇腾自研推理框架,本实验手册可指导小白用户快速掌握MindIELLM(large language model)场景的基本功能,包括:大模型推理功能测试、大模型性能测试、大模型精度测试、服务化推理部署、benchmark测试等。 1 实验准备 1.1 软硬件环境 本实验使用的设备是800I A2服务器,已经参考官网文档(安装驱动和固件-MindIE安装指南-环境准备-MindIE1
AI
原创 5月前
154阅读
1 BenchMark工具服务化MindIE Benchmark工具是通过部署昇腾服务化配套包后,以调用终端命令的方式测试大语言模型在不同配置参数下的推理性能和精度,并通过表格的形式展示模型在各个阶段的推理耗时(例如FirstTokenTime、DecodeTime等),以及对应时延的平均值、最小值、最大值、75分位(P75)、90分位(P90、SLO_P90)和99分位(P99)概率统计值,最后
原创 7月前
141阅读
MindIE Torch整体介绍整体架构推理迁移工作流关键特性特性1:配合torch_npu实现子图+单算子混合执行特性2:支持C++和Python编程c++伪代码(适用于TorchScript路线):// load TorchScript module torch::jit::script::Module module = torch::jit::load("xxx.pth"); // st
原创 精选 5月前
178阅读
最近MindIE开始支持DeepSeek MTP(multi token prediction)特性了,用于推理加速。但是有些开发者打开MTP开关后,没有发现明显的性能提升。这篇文章提供一种定位策略。 原理很简单,就是看一下每次MTP推理后,模型是输出1个token还是多个token。由于MTP的token处理算法是用python实现的,所以可以在镜像的python代码中添加日志,可以在2个地方加
AI
原创 3月前
76阅读
组件介绍CANNCANN是什么异构计算架构CANN(Compute Architecture for Neural Networks)是昇腾针对AI场景推出的异构计算架构,向上支持多种AI框架,包括MindSpore、PyTorch、TensorFlow等,向下服务AI处理器与编程,发挥承上启下的关键作用,是提升昇腾AI处理器计算效率的关键平台。同时针对多样化应用场景,提供多层次编程接口,支持用户
原创 8月前
375阅读
MindIE 是华为昇腾生态下的 “全场景推理中枢”,通过架构创新与硬件深度优化,在国产 AI 算力平台上实现了推理性能与生态兼容的平衡,为大模型落地提供了自主可控的技术选项。
PD分离是一种近年来兴起的推理加速部署方案,kimi、deepseek都进行了工程落地。昇腾MindIE组件也支持了PD分离部署能力,参考链接为 https://www.hiascend.com/document/detail/zh/mindie/20RC1/mindieservice/servicedev/mindie_service0140.html 。部署过程中会出现一些问题,在这里记录分享
AI
原创 4月前
96阅读
vLLM适配昇腾方案参考官方文档:linkvLLM框架在昇腾环境适配的整体方案为上层运行vLLM框架原生的逻辑,包括请求调度、Batch组建、Ray分布式拉起多卡服务等;下层模型推理与后处理通过MindIE LLM提供的GeneratorTorch统一接口接入MindIE模型仓统一进行管理,实现加速库整图模式的模型推理加速。vLLM框架下层模型推理对接Text Generator接口的基本方式为实
原创 8月前
459阅读
文章目录key words:介绍**MMU****物理地址**线性地址虚拟内存逻辑地址内存管理内存及寻址地址变换地址变换分段机制分页机制启用分页机制实现线性地址到物理地址转换的过程分页机制和分段机制的不同页表结构两级页表结构不存在的页表页表项格式虚拟存储任务之间的保护 和 特权级保护 key words:物理地址: 内存单元所看到的地址,机器内主存的地址,包括RAM和ROM逻辑地址: cpu生成
MindIE(Mind Inference Engine,昇腾推理引擎)是华为昇腾面向 AI 全场景的推理加速套件,通过分层开放 + 硬件深度优化,构建从端侧到数据中心的全场景推理能力覆盖。以下结合架构图与行业竞品,详细解析其工艺设计与生态定位。一、MindIE 架构与模块深度解析MindIE 采用 **“服务化层 + 模型应用层 + 框架插件层 + 推理运行时”** 的分层架构,底层依托华为 C
背景 使用MindIE提供的PD分离特性部署qwen2-7B模型,使用k8s拉起容器,参考这个文档进行部署:https://www.hiascend.com/document/detail/zh/mindie/100/mindieservice/servicedev/mindie_service0060.html,1个Prefill,1个Decode。 最后一步测试推理请求的时候,出现报错:mod
AI
原创 4月前
209阅读
进入容器,修改配置文件。不修改启动模型会报错。
hccl在创建通信域时,相应的卡需要分配大约300M的device内存,因此每张卡所在的通信域的数量越多,则额外需要的内存越多
1、概述 大型语言模型(LLM)的输出行为可以通过多种配置参数进行精细控制。这些参数共同决定了模型生成文本的质量、风格和多样性。理解这些配置选项及其相互作用对于有效使用LLM至关重要。 2、输出长度 (Output length) 一个重要的配置设置是响应中要生成的令牌数量。生成更多令牌需要 LLM
LLM2LLM 是一种创新的迭代数据增强技术,通过教师模型生成合成数据,显著提升大语言模型在数据稀缺任务中的性能。
LLM2LLM 是一种创新的迭代数据增强技术,通过教师模型生成合成数据,显著提升大语言模型在数据稀缺任务中的性能。
课程学习本节课主要对于大白AI课程:https://mp.weixin.qq.com/s/STbdSoI7xLeHrNyLlw9GOg《Pytorch模型推理及多任务通用范式》课程中的第五节课进行学习。作业题目包含以下必做题和思考题1、必做题:1.1 自己找 2 张其他图,用 Yolox_s 进行目标检测,并注明输入尺寸和两个阈值。2、思考题:2.1 Yolox_s:用 time 模块和 for
RNN和LSTM学习笔记RNNRNN简介BRNNDRNNLSTMBi-LSTMLSTM代码分析RNNRNN简介参考知乎 循环神经网络 对于处理连续文本,我们需要联系句子上下文的内容,例如“我 吃 水果”。 我们需要将三个词一次输入我们的输入层中,三个词分不同的时刻输入。因此,每个时刻的权值W都是继承上个权值S,而新的S又由输入X和W共同决定,更为详细的图: 我们将每次的输出更新,会得到下面这样的公
  • 1
  • 2
  • 3
  • 4
  • 5