【记录】LLM本地部署尝试

随笔4个月前发布圆峰

26 0 0

环境下载开源 LLM：ChatGLM3安装miniconda安装CUDA配置python环境个人PC部署体验

部署时间：2024年5月10日

update（2024年7月15日）：这几天刚刚了解到cuda环境已经被封装在pytorch包的二进制文件里面了…所以疑似是不需要装CUDA的（没实测）

回到顶部

环境

英伟达显卡（显存大小，在windows11上部署的话，8G勉强能跑，16G应该才能正常跑）

Windows11

回到顶部

下载开源 LLM：ChatGLM3

下载代码，通过VSCode打开ChatGLM3文件夹，作为工作目录

下载模型，大概十几G，记录下保存的目录，形如X:xxxxxxxxxchatglm3-6b

另一篇参考流程

回到顶部

安装miniconda

官网

将会在虚拟环境中配置所需的Python环境

回到顶部

安装CUDA

首先通过命令 nvidia-smi 查看显卡支持的CUDA最高版本

然后在pytorch官网查看你想安装的pytorch版本对应的CUDA版本

~~官网安装CUDA ，根据我的环境与任务，我选择的是CUDA12.1~~ 疑似无需安装

随便百度一篇可以参考

回到顶部

配置python环境

关于pytorch版本与安装命令，请严格按照官网的来
参考 https://pytorch.org/get-started/locally/
参考 https://pytorch.org/get-started/previous-versions/#linux-and-windows-6
在WINDOWS下如果安装pytorch2.3，后续运行模型时可能会报警告（1Torch was not compiled with flash attention.），当然，似乎不影响使用；于是选择pytorch2.1.2，不会报警告，当然，暂时没发现性能或其它方面（与会报警告的2.3.0比较）有什么优势。

首先，可以在开始菜单中找到miniconda（安装的时候默认勾选了），打开miniconda的终端，依次运行以下代码

conda create -n GPT python=3.11 -y

activate GPT

conda install pytorch==2.1.2 torchvision==0.16.2 torchaudio==2.1.2 pytorch-cuda=12.1 -c pytorch -c nvidia

然后可以关闭这个终端了。

接下来切到VSCode，将VSCode的Python解释器选成GPT环境中的解释器。（此步应有图片，有空再补）

在VScode中直接新建终端，就默认是在虚拟环境GPT中的终端，在这个终端运行命令

pip install -r requirements.txt

环境就配置完成了。

最后，可以运行 ChatGLM3中的各种应用demo做测试，代码中的MODEL_PATH都要修改为LLM的模型保存目录，例如可以这样改 MODEL_PATH=X:\xxx\xxx\xxx\chatglm3-6b

关于代码怎么写怎么用，查阅源代码提供的各个文档，或者上官网

回到顶部