ChatGLM.cpp 安装使用（支持CPU、Metal及CUDA推理）

原创

宇宙有只AGI 2024-10-06 23:55:19 博主文章分类：LLM ©著作权

文章标签 llm chatglm.cpp gguf 文章分类 深度学习人工智能 yyds干货盘点

©著作权归作者所有：来自51CTO博客作者宇宙有只AGI的原创作品，请联系作者获取转载授权，否则将追究法律责任

1. 详细步骤

1.1 拉取源码

# 确保网络通畅
git clone --recursive https://github.com/li-plus/chatglm.cpp.git && cd chatglm.cpp

1.2 模型转换/量化

1.2.1 安装所需 Python 依赖

torch

pip install torch -U

其他依赖

pip install tabulate tqdm transformers accelerate sentencepiece tiktoken -U

1.2.1 模型转换/量化

f16

python chatglm_cpp/convert.py -i /path/THUDM/chatglm-6b -t f16 -o /path/THUDM/chatglm-6b/f16.bin

q8_0

python chatglm_cpp/convert.py -i /path/THUDM/chatglm-6b -t q8_0 -o /path/THUDM/chatglm-6b/q8_0.bin

q4_0

python chatglm_cpp/convert.py -i /path/THUDM/chatglm-6b -t q4_0 -o /path/THUDM/chatglm-6b/q4_0.bin

1.3 模型测试

1.3.1 编译所需 C/C++ 环境

通过 Python Binding 来调用也可以

CPU

cmake -B build && cmake --build build -j --config Release

CUDA

cmake -B build -DGGML_CUDA=ON && cmake --build build -j

Metal(MPS)

cmake -B build -DGGML_METAL=ON && cmake --build build -j

1.3.2 模型测试

单次推理

./build/bin/main -m /path/THUDM/chatglm-6b/f16.bin -p 你好

多轮对话

./build/bin/main -m /path/THUDM/chatglm-6b/f16.bin -i

2. 参考资料

2.1 ChatGLM.cpp

2.1.1 GitHub

Getting Started (Preparation, Quantize, Build & Run...)

https://github.com/li-plus/chatglm.cpp?tab=readme-ov-file#getting-started

Using BLAS (CUDA, Metal...)

https://github.com/li-plus/chatglm.cpp?tab=readme-ov-file#using-blas

3. 资源

3.1 ChatGLM.cpp

3.1.1 GitHub

提问和评论都可以，用心的回复会被更多人看到评论

发布评论

相关文章

官方博客	全部文章	热门标签	班级博客
了解我们	网站地图	意见反馈

鸿蒙开发者社区	51CTO学堂
51CTO	软考资讯

ChatGLM.cpp 安装使用（支持CPU、Metal及CUDA推理）

ChatGLM.cpp 安装使用（支持CPU、Metal及CUDA推理）

1. 详细步骤

1.1 拉取源码

1.2 模型转换/量化

1.2.1 安装所需 Python 依赖

torch

其他依赖

1.2.1 模型转换/量化

f16

q8_0

q4_0

1.3 模型测试

1.3.1 编译所需 C/C++ 环境

CPU

CUDA

Metal(MPS)

1.3.2 模型测试

单次推理

多轮对话

2. 参考资料

2.1 ChatGLM.cpp

2.1.1 GitHub

Getting Started (Preparation, Quantize, Build & Run...)

Using BLAS (CUDA, Metal...)

3. 资源

3.1 ChatGLM.cpp

3.1.1 GitHub

官方页面

Python Binding

API Server

Using Docker

Performance

Model Quality

51CTO博客