LLama3中文语言模型指令微调【实战篇】

原创

JimCal 2024-06-20 00:00:35 博主文章分类：AI ©著作权

文章标签 LLama3 文章分类 llama AIGC AIGC二三事

©著作权归作者所有：来自51CTO博客作者JimCal的原创作品，请联系作者获取转载授权，否则将追究法律责任

首先，在HuggingFace下载这个语言模型，为了提高下载速度，这里准备下如下两步操作：

配置下载的代理【SET HF_ENDPOINT=https://hf-mirror.com】
安装PIP依赖【pip install huggingface-cli -i https://pypi.tuna.tsinghua.edu.cn/simple, pip install -U huggingface_hub -i https://pypi.tuna.tsinghua.edu.cn/simple】

下载模型：huggingface-cli.exe download --resume-download shenzhi-wang/Llama3-8B-Chinese-Chat --local-dir .

LLama3中文语言模型指令微调【实战篇】_LLama3

语言模型下载完成后，后续使用LLama-Factory这个工具来微调。

git clone --depth 1 https://github.com/hiyouga/LLaMa-Factory.git

cd LLaMa-Factory

pip install -e .

后续自己希望训练的json格式的数据集可以放在data文件夹下，如下是已有的一些数据集：

LLama3中文语言模型指令微调【实战篇】_LLama3_02

然后就需要准备下训练数据，这里就自己随便按标准的格式编辑一下吧【其他特殊行业的数据集可以编写脚本批量生成】：

LLama3中文语言模型指令微调【实战篇】_LLama3_03

然后再dataset_info.json新增这个数据集【测试用，数据量比较少可能训练出来的模型表现不是很好，建议增加更多条数的数据】：

LLama3中文语言模型指令微调【实战篇】_LLama3_04

为了训练时不受其他数据集影响训练时间，这里把其他数据集都删掉：

LLama3中文语言模型指令微调【实战篇】_LLama3_05

identity.json留下，方便做身份角色生成。

本地的4060还没开始就爆了，哈哈~

LLama3中文语言模型指令微调【实战篇】_LLama3_06

还是去阿里云租个GPU服务搞吧，这里推荐使用抢占式的，使用完验证完后就释放，性价比超高。

LLama3中文语言模型指令微调【实战篇】_LLama3_07

LLama3中文语言模型指令微调【实战篇】_LLama3_08

建议GPU内存选大一点的，一开始还是保守了，选得31GB的【还有数据盘也建议100GB以上】，初始化到75%还是OOM了，格局打开吧，这次直接干188GB的~

LLama3中文语言模型指令微调【实战篇】_LLama3_09

安装后，安装个Annaconda环境来使用Python：wget https://repo.anaconda.com/archive/Anaconda3-2024.02-1-Linux-x86_64.sh，然后新建个虚拟环境【conda create -n llama3 python=3.10】即可，这里是下载模型的脚本，为了提高下载速度，这里使用modelscope的模型【pip install modelscope】：

import os
from modelscope import snapshot_download

allow_patterns = ["*.*"]

repo_id = 'LLM-Research/Llama3-8B-Chinese-Chat'
local_dir = "."

model_dir = snapshot_download(model_id=repo_id, cache_dir=local_dir)

然后就可以下载模型了：

LLama3中文语言模型指令微调【实战篇】_LLama3_10