vllm-ascend_51CTO博客

vLLM-Ascend 部署大模型

本文介绍了在华为 Ascend 910B（Atlas A2/A3）上运行Qwen3-Next模型的两种方法：Docker快速路线（推荐）和裸机/pip安装路

#大模型部署

ci

linux

Docker

原创

MonkeyKing_sun

6天前

157阅读

1 模型下载可按照此处方法下载预热后的模型，速度较快（推荐artget方式）https://mirrors.tools.huawei.com/mirrorDetail/67b75986118b030fb5934fc7?mirrorName=huggingface&catalog=llms或者从hugging face官方下载。2 vllm-ascend安装2.1 使用vllm+vllm-a

vllm

vllm-ascend

原创

zjun3021

5月前

205阅读

Ascend Docker Runtime

Ascend Docker Runtime 是华为 Ascend 处理器生态系统中的一种运行时环境，它实现了深度学习模型的开发和部署。最近，我在使用 Ascend Docker Runtime 的过程中遇到了一些挑战，因此我决定记录解决这些问题的过程，希望能够为需要类似帮助的开发者提供借鉴。 ## 版本对比在开始之前，了解不同版本之间的差异是非常重要的。以下是 Ascend Docker R

Docker

新版本

深度学习

原创

mob64ca12f10f72

1月前

358阅读

【vLLM 学习】欢迎来到 vLLM!

vLLM 是一款专为大语言模型推理加速而设计的框架，实现了 KV 缓存内存几乎零浪费，解决了内存管理瓶颈问题。更多 vLLM 中文文档及教程可访问 →https://vllm.hyper.ai/ vLLM 是一个快速且易于使用的库，专为大型语言模型 (LLM) 的推理和部署而设计。 vLLM 的核心特性包括：最先进的服务吞吐量使用 PagedAttention 高效管理注意力键和值的内存

vLLM

LLM

计算机技术

人工智能

机器学习

原创

HyperAI超神经

8月前

72阅读

解决Ascend上vllm运行时出现urllib3.exceptions.SSLError: [SSL: CERTIFICATE_VERIFY_FAILED]

vllm运行过程中遇到的ssl问题

python

插入图片

下载文件

原创

zjun3021

8月前

134阅读

Ascend上的PageAttention

1 PageAttention引入的原因 PageAttention的引入主要是为了解决大型语言模型（LLM）在服务过程中遇到的内存管理低效问题，具体原因如下：内存碎片化：传统的KV cache（Key-Value cache）管理方式在处理不同长度的请求时，预分配连续的块内存给每个请求，导致内存碎片化和冗余复制，造成内存浪费。内存利用率低：在实际使用中，KV cache的利用率只有20.4

PageAttention

Ascend

原创

zjun3021

10月前

72阅读

vllm 监控

zabbix监控添加JMX实现对tomcat的监控一、配置server21.安装jdk和tomcat首先，下载安装软件jdk-8u121-linux-x64.rpm和apache-tomcat-8.5.24.tar.gz；[root@server2 4.4]# rpm -ivh jdk-8u121-linux-x64.rpm [root@server2 4.4]# tar zxf apache-t

vllm 监控

java

tomcat

Cloud

转载

mob64ca1412b28c

1月前

379阅读

源码编译ascend pytorch

目录一、前提：二、构建源码包以及打包过程1、创建工作目录2、初始化目录（创建debian文件）3、修改control文件 4、增加changelog文件配置文件5、在debian同级目录下创建目录，并在hello.sh可执行文件中输入打印的语句 6、新建hello.install文件（文件在debian目录下）7、生成.dsc与源码包（debian同级目录）8、构建deb包（d

源码编译ascend pytorch

debian

deb编包

源码包

vim

转载

mob64ca140caeb2

10月前

44阅读

docker部署vllm使用VLLM_USE_MODELSCOPE

【代码】docker部署vllm使用VLLM_USE_MODELSCOPE。

#docker

#容器

#运维

html

docker

原创

a772304419

1月前

123阅读

Ascend C的编程模型

1 并发执行 Ascend C和cudnn相似，都是一种多核心编程的范式。想要了解Ascend C，必须得先掌握这种“多核”是怎么实现得。多核执行，说白了就是使用CPU/GPU/Ascend的物理多核并发去执行一段流程，一般情况下，可以通过以下几种方式实现：多线程并行处理：使用多线程可以将循环中的任务分配给多个线程同时执行，提高代码的执行效率。可以使用线程池来管理线程的创建和销毁，避免频繁创

并行计算

并行化

AscendC

昇腾

原创

zjun3021

10月前

55阅读

Ascend推理组件MindIE LLM

MindIE LLM是MindIE解决方案下的大语言模型推理组件，基于昇腾硬件提供业界通用大模型推理能力，同时提供多并发请求的调度功能，支持Continuous Batching、PageAttention、FlashDecoding等加速特性，使能用户高性能推理需求。 MindIE LLM主要提供大模型推理Python API和大模型调度C++ API。 1 MindIE LLM架构 Mind

大模型推理

MIndIE

LLM

MindIE-LLM

原创

zjun3021

10月前

155阅读

Ascend上的FlashAttention实现

1 FlashAttention FlashAttention是一种优化Transformer模型计算效率和内存使用的技术。它通过减少存储访问开销（Memory Access Cost，MAC），而非降低FLOPS（浮点运算次数），来提升性能。 2 前述知识点涉及到内存访问，肯定与计算的硬件架构有关系。从GPU架构进行解析，参考如下博客：大模型推理加速技术的学习路线是什么首先，我们将探讨G

FalshAttention

Ascend

原创

zjun3021

10月前

232阅读

vllm serve deepseek

1、"std::ios_base::Init::~Init()", referenced from出现这样的编译问题，是需要再加进libstdc++.dylib和libstdc++.6.dylib(为6.1使用，xcode5以后默认complier也可以编译通过)2、apple Mach-o Linker error通常是因为compile source中有相同的.m文件3、如果在真机中进行测试时

vllm serve deepseek

ci

编译器

数据

转载

风华绝代的java

1月前

415阅读

【vLLM 学习】Eagle

vLLM 是一款专为大语言模型推理加速而设计的框架，实现了 KV 缓存内存几乎零浪费，解决了内存管理瓶颈问题。

github

Apache

在线教程

vLLM

人工智能

原创

HyperAI超神经

2月前

48阅读

docker vllm 推理

一、前言K8S这么高端我们是还没有玩过的，Docker倒是实践过一把，这个系列会简单介绍一下实战的过程，具体背景是因为我们有时需要给门店提供一个相对稳定的培训环境，但他们又不需要长期使用，没有必要长期占用机器，需要的时候临时再购买机器就好，然后用Docker快速部署应用，这一篇我们先来了解一下Docker一些基本概念。二、概念1、Docker是什么Docker是一个开源的容器引擎，用来管理软件部署

docker vllm 推理

docker

java

容器

Docker

转载

coolfengsy

2024-10-25 10:56:08

146阅读

vllm vs ollama

在当今快速发展的人工智能技术领域，VLLM（Variable-length Language Models）和Ollama（系列模型）这两种技术正在不断涌现并被广泛应用于各种场景中。为了帮助人们选择合适的技术解决方案，本文将通过对VLLM与Ollama的比较与分析，从各个维度深度解析其特性与应用。 ## 背景定位随着自然语言处理（NLP）技术的飞速发展，针对不同场景的模型需求日益增加。VLL

API

Code

项目开发

原创

mob649e816ab022

3月前

306阅读

【vLLM 学习】安装

vLLM 是一款专为大语言模型推理加速而设计的框架，实现了 KV 缓存内存几乎零浪费，解决了内存管理瓶颈问题。更多 vLLM 中文文档及教程可访问 →https://vllm.hyper.ai/ vLLM 是一个 Python 库，包含预编译的 C++ 和 CUDA (12.1) 二进制文件。依赖环境操作系统：Linux Python：3.8 - 3.12 GPU：计算能力 7.0 或更高

人工智能

python

Linux

编程

GPU

原创

HyperAI超神经

8月前

217阅读

【vLLM 学习】Distributed

vLLM 是一款专为大语言模型推理加速而设计的框架，实现了 KV 缓存内存几乎零浪费，解决了内存管理瓶颈问题。

vLLM

机器学习

推理加速

在线教程

开源项目

原创

HyperAI超神经

2月前

75阅读

【vLLM 学习】Mlpspeculator

vLLM 是一款专为大语言模型推理加速而设计的框架，实现了 KV 缓存内存几乎零浪费，解决了内存管理瓶颈问题。更多 vLLM 中文文档及教程可访问 →https://vllm.hyper.ai/

github

Apache

内存管理

vLLM

KV 缓存

原创

HyperAI超神经

1月前

88阅读

vllm ollama 对比

在当今自然语言处理领域，VLLM（Variable-Length Language Model）和Ollama（一个高效的本地模型运行时）作为两种前沿的技术方案，各自在特定场景中展现出独特的优势和应用潜力。为了全面探索这两者的对比，本文将从多个维度对其进行深入剖析，助于选择适合的技术方案。 ## 背景定位 VLLM 和 Ollama 主要应用于需要高效自然语言处理的场景，如智能客服、内容生成和

自然语言处理

HTTP

官网

原创

mob64ca12df9869

28天前

238阅读

官方博客	全部文章	热门标签	班级博客
了解我们	网站地图	意见反馈

鸿蒙开发者社区	51CTO学堂
51CTO	软考资讯

51CTO博客

vllm-ascend

vLLM-Ascend 部署大模型

vllm+vllm-ascend本地部署QwQ-32B

Ascend Docker Runtime

【vLLM 学习】欢迎来到 vLLM!

解决Ascend上vllm运行时出现urllib3.exceptions.SSLError: [SSL: CERTIFICATE_VERIFY_FAILED]

Ascend上的PageAttention

vllm 监控

源码编译ascend pytorch

docker部署vllm使用VLLM_USE_MODELSCOPE

Ascend C的编程模型

Ascend推理组件MindIE LLM

Ascend上的FlashAttention实现

vllm serve deepseek

【vLLM 学习】Eagle

docker vllm 推理

vllm vs ollama

【vLLM 学习】安装

【vLLM 学习】Distributed

【vLLM 学习】Mlpspeculator

vllm ollama 对比

什么是VLLM

安装vllm dockerfile

vllm设置 temperture

Linux 安装 vLLM

新出Ascend 310B

ascend910docker安装

使用原有docker镜像安装其他依赖并进行打包

Ascend Extension for PyTorch是个what？

Ascend Extension for PyTorch的源码解析

SelfAttention在Ascend上的实现