标签搜索

目 录CONTENT

文章目录

Pytorch2.0和本机自带cudnn的冲突解决

陈铭
2024-05-31 / 0 评论 / 0 点赞 / 10 阅读 / 702 字 / 正在检测是否收录...

具体的错误

在训练模型时报了一个错误:

Could not load library libcudnn_cnn_train.so.8. Error: /usr/local/cuda-12.3/lib64/libcudnn_cnn_train.so.8: undefined symbol: 。。。。

后面一长串,不同版本的提醒不一样,由于安装路径不一样,前面的路径或许也不一样

具体原因

首先,安装cudnn时,参加基本都是参考网上的教程,在官网下载安装cuda和cudnn, 然后添加路径。我通常将其安装在默认的路径 /usr/local/cuda-xx.x, 添加全局路径在/etc/profile,局部路径的话,在个人账户的.bashrc,里面包括

export PATH=/usr/local/cuda/bin:$PATH
export LD_LIBRARY_PATH=/usr/local/cuda/lib64:$LD_LIBRARY_PATH

此时,将cudnn的路径指向了/usr/local/cuda-xx.x/lib64/ 。
然后,安装PyTorch, 如果是按照官网的提醒,直接使用pip install torch,安装完就会发现上述问题。
image-1717148953883
当我们查看PyTorch的下载链接https://download.pytorch.org/whl/torch/时,可以看到,从cuda11.7开始, torch版本,会包含一个带cudnn和版本和不带cudnn的版本。例如:适用于python3.11和cuda12.1的,
不带cudnn: torch-2.1.1+cu121-cp311-cp311-linux_x86_64.whl
带cudnn:torch-2.1.1+cu121.with.pypi.cudnn-cp311-cp311-linux_x86_64.whl

如果直接使用pip在线安装的话,即pip install torch,会默认下载带cudnn的版本,其位置就在 conda路径+python路径下, torch默认需要指向这里。但是,系统cudnn指向的是/usr/local/这个系统cudnn的路径,发生了冲突,因此出现上述问题。

解决方案

有两种解决方案:

方案1

如果你习惯直接使用pip在线安装torch,使用torch带的cudnn, 那就把系统的或者个人的cudnn指向删除即可。例如,个人路径的话,就在.bashrc中,将export LD_LIRBARY_PATH= 那行注释掉即可。

export PATH=/usr/local/cuda/bin:$PATH
# 为了使用torch2.0以上的版本,使用torch自带的cudnn
#export LD_LIBRARY_PATH=/usr/local/cuda/lib64:$LD_LIBRARY_PATH

方案2

如果用系统的cudnn, 需要从 https://download.pytorch.org/whl/torch/ 下载不带cudnn的版本,然后在文件路径下,pip install + 本地的whl文件,安装后也可以正常运行。


两种方案中,个人更推荐方案2。因为对于多人使用或者需要配多个环境时,在/usr/local下只需要安装一次,所有人和环境均使用同一个cudnn即可。如果是方案1, 每个人或者每个环境下,都会多安装一次cudnn。

0

评论区