Skip to content

踩坑随记

在研究和开发的过程中,我们总是会遇到很多问题,有不少的问题值得专门出一个视频集合去记录,而有的时候,一些琐碎的问题可能因为缺乏准确的文档引导或者即使使用LLM也难以解决,从而变得非常有记录的价值,但是它们相对前者来说,解决的方法更加单调,机械或者不需要太多篇幅,使用文字/其他载体能够更有效率地帮助到读者,这些内容将在此记录。

AMD GPU的pytorch的训练踩坑

  • 明确环境:ubuntu24.04,x86-64,非容器安装方式,显卡为9070 xt 16G

  • rocm以及驱动安装

  • pytorch版本安装指导以及建议


问题

使用apt安装了rocm,并使用py13和py12按照RX9070XT+WSL2+ROCmでPyTorchを使用する指示(和官方文档一致,但和官网不一致因为rocm版本不一样,我的是6.4.2,pytorch给的仍然是6.3.x),会出现下列问题:

python
import torch
torch.cuda.is_avilable()
# 返回False,说明没有识别到gpu

我觉得可能是因为没有安装amdgpu driver,遂根据ROCm Runfile Installer — ROCm installation (Linux)的指导下载了runfile并通过其安装了driver,并在这之后重启计算机,尽管如此,问题依旧存在,顺带一提,我下载的runfile在Index of /rocm/installer/rocm-runfile-installer/rocm-rel-6.4.1/ubuntu/24.04/文件目录中

现在只有两种思路:

  • 使用官方提供的镜像

  • 阅读pytorch cuda init源码,逐步校验确认问题究竟出在哪

显然前者来的更直接

镜像获取

为了省事,我直接用Docker来获取镜像,注意,镜像文件包含驱动还有大量动态库,所以下载过程比较久,需要做好这些准备:

  • 配置好代理,可以参考https://stackoverflow.com/questions/74899462/error-response-from-daemon-get-https-registry-1-docker-io-v2-eof-how-to

知识在于积累