(IntelGPU ARC a750本地运行TinyLlama(LLM大语言模型))
IntelGPU也可以本地运行大语言模型啦
最近发现ARC a750也可以本地运行LLM大语言模型了,赶快试了下。 模型选的TinyLlama-1.1B,因为文件小,下载方便
一、先下载模型
打开Hugging Face镜像网站:https://hf-mirror.com/ 搜索TinyLlama-1.1B-Chat-v1.0
点这里
这些都下载
二、安装Python3.10或anaconda3
1、Python3.10 Python3.10下载地址: 64 位:https://www.python.org/ftp/python/3.10.11/python-3.10.11-amd64.exe 32 位:https://www.python.org/ftp/python/3.10.11/python-3.10.11.exe 这里有Python下载教程https://blog.csdn.net/2401_84564025/article/details/138384938
安装: 先勾选Add Python 3.10 to PATH(一定要勾选),再点install now(虽然装在c盘,但非常省心) 2、anaconda3 略
三、下载官方示例
github镜像:https://kkgithub.com/openvino-dev-samples/chatglm3.openvino 点Download ZIP,下载到D:\AI,或者其他文件夹,路径不要有中文就行 解压到当前文件夹 点击红框中空白区域,输入cmd,回车,在当前文件夹打开cmd
先修改默认镜像源 pip config set global.index-url https://pypi.tuna.tsinghua.edu.cn/simple
然后依次运行下面命令(这里官方示例有问题,用下面代码运行) python -m venv openvino_env 创建openvino_env环境 .\openvino_env\Scripts\activate 进入刚创建的openvino_env环境 python -m pip install --upgrade pip 升级pip pip install wheel setuptools pip install -r requirements.txt 安装依赖包 这里下载依赖可能会出错,因为requirements.txt里面有指定github下载的依赖,出错的话就等会再下载,或者安装这个SwitchHosts https://kkgithub.com/oldj/SwitchHosts
耐心等待下载完
四、Convert model
把第一步下载的模型放入D:\AI\chatglm3.openvino-main\TinyLlama-1.1B TinyLlama-1.1B是自己创建的文件夹 不要关cmd。如果关了,在D:\AI\chatglm3.openvino-main\重新打开cmd 运行.\openvino_env\Scripts\activate进入环境
接着在cmd中运行 python convert.py --model_id D:\AI\chatglm3.openvino-main\TinyLlama-1.1B --precision int4 --output D:\AI\chatglm3.openvino-main\TinyLlama-1.1B-ov 里面的文件路径要结合自己情况更改 具体参数看官方示范例https://kkgithub.com/openvino-devsamples/chatglm3.openvino
五、运行聊天
在cmd中运行 python D:\AI\chatglm3.openvino-main\chat.py --model_path D:\AI\chatglm3.openvino-main\TinyLlama-1.1B-ov --max_sequence_length 4096 --device GPU GPU也可以改成CPU,里面的文件路径要结合自己情况更改
运行前后GPU变化
写教程的时候,系统的Python3.10环境被我弄坏了,哈哈,用anaconda运行吧 GPU内存占用已经起来了,运行速度很快,但是模型int4量化后比较小,GPU不咋动,CPU动的厉害,官方说法:CPU和GPU结合调用,不只是调用GPU,速度更快。如果换大模型,GPU应该就能跑起来了。 关了后再运行:在D:\AI\chatglm3.openvino-main\打开cmd 运行.\openvino_env\Scripts\activate进入环境,输入第五步的命令。 码字不易,都看到这了点个赞吧。