IntelGPU ARC a750本地运行TinyLlama（LLM大语言模型）

原创

mb66dbbb2c96b84 2024-09-07 10:36:37 ©著作权

文章标签 python github 插入图片 ARC a750 Intel 文章分类 llama AIGC

©著作权归作者所有：来自51CTO博客作者mb66dbbb2c96b84的原创作品，请联系作者获取转载授权，否则将追究法律责任

(IntelGPU ARC a750本地运行TinyLlama（LLM大语言模型）)

IntelGPU也可以本地运行大语言模型啦

最近发现ARC a750也可以本地运行LLM大语言模型了，赶快试了下。模型选的TinyLlama-1.1B，因为文件小，下载方便

一、先下载模型

打开Hugging Face镜像网站：https://hf-mirror.com/ 搜索TinyLlama-1.1B-Chat-v1.0

点这里

这些都下载

二、安装Python3.10或anaconda3

1、Python3.10 Python3.10下载地址： 64 位：https://www.python.org/ftp/python/3.10.11/python-3.10.11-amd64.exe 32 位：https://www.python.org/ftp/python/3.10.11/python-3.10.11.exe 这里有Python下载教程https://blog.csdn.net/2401_84564025/article/details/138384938

安装：先勾选Add Python 3.10 to PATH（一定要勾选），再点install now（虽然装在c盘，但非常省心） 2、anaconda3 略

三、下载官方示例

github镜像：https://kkgithub.com/openvino-dev-samples/chatglm3.openvino 点Download ZIP，下载到D:\AI，或者其他文件夹，路径不要有中文就行解压到当前文件夹在这里插入图片描述点击红框中空白区域，输入cmd，回车，在当前文件夹打开cmd

在这里插入图片描述先修改默认镜像源 pip config set global.index-url https://pypi.tuna.tsinghua.edu.cn/simple

然后依次运行下面命令（这里官方示例有问题，用下面代码运行） python -m venv openvino_env 创建openvino_env环境 .\openvino_env\Scripts\activate 进入刚创建的openvino_env环境在这里插入图片描述 python -m pip install --upgrade pip 升级pip pip install wheel setuptools pip install -r requirements.txt 安装依赖包这里下载依赖可能会出错，因为requirements.txt里面有指定github下载的依赖，出错的话就等会再下载，或者安装这个SwitchHosts https://kkgithub.com/oldj/SwitchHosts

耐心等待下载完

四、Convert model

把第一步下载的模型放入D:\AI\chatglm3.openvino-main\TinyLlama-1.1B TinyLlama-1.1B是自己创建的文件夹不要关cmd。如果关了，在D:\AI\chatglm3.openvino-main\重新打开cmd 运行.\openvino_env\Scripts\activate进入环境

接着在cmd中运行 python convert.py --model_id D:\AI\chatglm3.openvino-main\TinyLlama-1.1B --precision int4 --output D:\AI\chatglm3.openvino-main\TinyLlama-1.1B-ov 里面的文件路径要结合自己情况更改具体参数看官方示范例https://kkgithub.com/openvino-devsamples/chatglm3.openvino

五、运行聊天

在cmd中运行 python D:\AI\chatglm3.openvino-main\chat.py --model_path D:\AI\chatglm3.openvino-main\TinyLlama-1.1B-ov --max_sequence_length 4096 --device GPU GPU也可以改成CPU，里面的文件路径要结合自己情况更改

运行前后GPU变化请添加图片描述

写教程的时候，系统的Python3.10环境被我弄坏了，哈哈，用anaconda运行吧 GPU内存占用已经起来了，运行速度很快，但是模型int4量化后比较小，GPU不咋动，CPU动的厉害，官方说法：CPU和GPU结合调用，不只是调用GPU，速度更快。如果换大模型，GPU应该就能跑起来了。关了后再运行：在D:\AI\chatglm3.openvino-main\打开cmd 运行.\openvino_env\Scripts\activate进入环境，输入第五步的命令。码字不易，都看到这了点个赞吧。