踩坑随记

在研究和开发的过程中，我们总是会遇到很多问题，有不少的问题值得专门出一个视频集合去记录，而有的时候，一些琐碎的问题可能因为缺乏准确的文档引导或者即使使用LLM也难以解决，从而变得非常有记录的价值，但是它们相对前者来说，解决的方法更加单调，机械或者不需要太多篇幅，使用文字/其他载体能够更有效率地帮助到读者，这些内容将在此记录。

AMD GPU的pytorch的训练踩坑

明确环境：ubuntu24.04，x86-64，非容器安装方式，显卡为9070 xt 16G
rocm以及驱动安装
pytorch版本安装指导以及建议

问题

使用apt安装了rocm，并使用py13和py12按照RX9070XT+WSL2+ROCmでPyTorchを使用する指示（和官方文档一致，但和官网不一致因为rocm版本不一样，我的是6.4.2，pytorch给的仍然是6.3.x），会出现下列问题：

python

import torch
torch.cuda.is_avilable()
# 返回False,说明没有识别到gpu

我觉得可能是因为没有安装amdgpu driver，遂根据ROCm Runfile Installer — ROCm installation (Linux)的指导下载了runfile并通过其安装了driver，并在这之后重启计算机，尽管如此，问题依旧存在，顺带一提，我下载的runfile在Index of /rocm/installer/rocm-runfile-installer/rocm-rel-6.4.1/ubuntu/24.04/文件目录中

现在只有两种思路：

使用官方提供的镜像
阅读pytorch cuda init源码，逐步校验确认问题究竟出在哪

显然前者来的更直接

镜像获取

为了省事，我直接用Docker来获取镜像，注意，镜像文件包含驱动还有大量动态库，所以下载过程比较久，需要做好这些准备：

配置好代理，可以参考https://stackoverflow.com/questions/74899462/error-response-from-daemon-get-https-registry-1-docker-io-v2-eof-how-to

The-Art-of-Computer-Programming-master

advanced_cxx-develop

tasks

oop

dod-playground

踩坑随记

AMD GPU的pytorch的训练踩坑

问题

镜像获取

advanced_cxx-develop

tasks

dod-playground

踩坑随记 ​

AMD GPU的pytorch的训练踩坑 ​

问题 ​

镜像获取 ​

踩坑随记

AMD GPU的pytorch的训练踩坑

问题

镜像获取