errno_mmdâ€™s blog

â€»æ³¨æ„â€»

é«˜è² è·ãŒç¶šãã¨"GPU Hang"ã§ãƒ—ãƒã‚»ã‚¹ãŒæ»ã¬å•é¡ŒãŒè§£æ±ºã—ã¦ã„ãªã„ã®ã§ã€Pytorch/ROCmã‚’å‹•ã‹ã™ç›®çš„ã§Ryzen 7 8700Gã®PCã‚’çµ„ã‚€ã®ã¯ç¾æ™‚ç‚¹(2024/12/28)ã§ãŠå‹§ã‚ã—ã¾ã›ã‚“ã€‚ ç¾çŠ¶APUã®å†…è”µGPUè‡ªä½“ãŒROCmå…¬å¼éžã‚µãƒãƒ¼ãƒˆãªã®ã§ã€ã‚µãƒãƒ¼ãƒˆã•ã‚Œã¦å®‰å®šå‹•ä½œã™ã‚‹ã¾ã§å¾…ã¤ã»ã†ãŒè³¢æ˜Žã ã¨æ€ã„ã¾ã™ã€‚

ä¸»ãªè£…ç½®æ§‹æˆ

ãƒ™ãƒ¼ã‚¹ã‚ãƒƒãƒˆ: ASRock DeskMini X600
CPU(APU): AMD Ryzen 7 8700G
Memory: 64GB (ãã®ã†ã¡16GBã‚’VRAMã«å‰²ã‚Šå½“ã¦ã‚‹)
OS: Ubuntu 24.04.1 LTS

ä»Šå›žã®ç›®æ¨™

Stable Diffusionã‚’å†…è”µGPU(Radeon 780M)ã§å‹•ã‹ã™

UEFIè¨å®š

iGPU Configurationã‚’UMA_SPECIFIEDã«ã™ã‚‹
UMA frame buffer sizeã‚’16Gã«ã™ã‚‹

ROCmã®ã‚¤ãƒ³ã‚¹ãƒˆãƒ¼ãƒ«

ROCmã®Quick start installation guideã‚’å‚è€ƒã«ã—ã¤ã¤ã€å¾Œã§å…¥ã‚Œã‚‹Pytorchã«åˆã‚ã›ã¦ã€ROCmãƒãƒ¼ã‚¸ãƒ§ãƒ³6.2ã‚’å…¥ã‚Œã‚‹ã€‚

sudo apt update
sudo apt install "linux-headers-$(uname -r)" "linux-modules-extra-$(uname -r)"
sudo apt install python3-setuptools python3-wheel libpython3.12
sudo usermod -a -G render,video $LOGNAME
wget https://repo.radeon.com/amdgpu-install/6.2.4/ubuntu/noble/amdgpu-install_6.2.60204-1_all.deb
sudo apt install ./amdgpu-install_6.2.60204-1_all.deb
sudo apt update
sudo apt install amdgpu-dkms rocm
sudo amdgpu-install

çµ‚ã‚ã£ãŸã‚‰ä¸€åº¦rebootã™ã‚‹ã€‚

stable-diffusion-webui ã‚’å‹•ã‹ã™ä»®æƒ³ç’°å¢ƒã®æ§‹ç¯‰

stable-diffusion-webui ã® Install and Run on AMD GPUsã«å¾“ã£ã¦ç’°å¢ƒæ§‹ç¯‰ã‚’é€²ã‚ã‚‹ã€‚Pythonã®ãƒãƒ¼ã‚¸ãƒ§ãƒ³ãŒæ–°ã—ã™ãŽã‚‹ã¨å‹•ã‹ãªã‹ã£ãŸã‚Šã™ã‚‹ã®ã§ã€å…¬å¼ãƒ‰ã‚ãƒ¥ãƒ¡ãƒ³ãƒˆã«åˆã‚ã›ã‚‹ã€‚ä»Šå›žã¯3.10ãŒæŒ‡å®šã•ã‚Œã¦ã„ã‚‹ã®ã§ã€3.10.16ã‚’ä½¿ã†ã€‚

Ubuntu 24.04.1ã®Pythonãƒ‘ãƒƒã‚±ãƒ¼ã‚¸ã¯3.12ã€‚ ä»–ã®ã‚½ãƒ•ãƒˆã§ã‚‚åˆ¥ãƒãƒ¼ã‚¸ãƒ§ãƒ³ã‚’ä½¿ã†å¯èƒ½æ€§ãŒã‚ã‚‹ã®ã§ã€pyenvã§è¤‡æ•°ãƒãƒ¼ã‚¸ãƒ§ãƒ³ã®Pythonã‚’åˆ‡ã‚Šæ›¿ãˆã‚‹ã“ã¨ã«ã™ã‚‹ã€‚ ã¾ãŸã€ä½¿ç”¨ã™ã‚‹ãƒ©ã‚¤ãƒ–ãƒ©ãƒªã®ãƒãƒ¼ã‚¸ãƒ§ãƒ³ãŒä»–ã®ã‚½ãƒ•ãƒˆã¨åˆã‚ãªã„ã“ã¨ã‚‚ã‚ˆãã‚ã‚‹ã®ã§ã€venvã§ä»®æƒ³ç’°å¢ƒã‚’ä½œã‚‹ã“ã¨ã«ã™ã‚‹ã€‚

ã¾ãšã¯venvã®ã‚¤ãƒ³ã‚¹ãƒˆãƒ¼ãƒ«ã€‚

sudo apt install python3-venv

æ¬¡ã¯pyenvã€‚pyenvã®ã‚¤ãƒ³ã‚¹ãƒˆãƒ¼ãƒ«æ–¹æ³•ã«å¾“ã£ã¦ã€

curl https://pyenv.run | bash

.bashrc ã«ä¸‹è¨˜ã®å†…å®¹ã‚’è¿½è¨˜ã™ã‚‹ã€‚

export PATH="$HOME/.pyenv/bin:$PATH"
eval "$(pyenv init --path)"
eval "$(pyenv virtualenv-init -)"

ä¸€åº¦bashã§å…¥ã‚ŠãªãŠã—ã¦ã€æ¬¡ã¯ stable-diffusion-webui ã‚’ clone

git clone https://github.com/AUTOMATIC1111/stable-diffusion-webui
cd stable-diffusion-webui

pyenvã§Python 3.10ã‚’ã‚¤ãƒ³ã‚¹ãƒˆãƒ¼ãƒ«ã—ã€ä½¿ç”¨ã™ã‚‹Pythonã®ãƒãƒ¼ã‚¸ãƒ§ãƒ³ã‚’åˆ‡ã‚Šæ›¿ãˆã‚‹

pyenv install 3.10
pyenv local 3.10.16

ä»®æƒ³ç’°å¢ƒã‚’ä½œã‚‹ã€‚å…¬å¼ã§ã¯ãƒ‡ã‚£ãƒ¬ã‚¯ãƒˆãƒªåvenvã ãŒã€å¥½ã¿ã§.venvã«ã—ãŸã€‚

python3.10 -m venv .venv
source .venv/bin/activate

pytorchã®ã‚µã‚¤ãƒˆã®Start Locallyã§ Stable/Linux/Pip/Python/ROCm6.2ã‚’é¸æŠžã™ã‚‹ã¨ã€å®Ÿè¡Œã™ã¹ãã‚³ãƒžãƒ³ãƒ‰ãŒè¡¨ç¤ºã•ã‚Œã‚‹ã®ã§ã€ãã‚Œã«å¾“ã£ã¦ROCmç‰ˆã®Pytorchã‚’ã‚¤ãƒ³ã‚¹ãƒˆãƒ¼ãƒ«ã€‚

pip install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/rocm6.2

stable-diffusion-webui ã®èµ·å‹•

ä»Šã®ã¨ã“ã‚ROCmã¯å†…è”µGPUã‚’å…¬å¼ã«ã¯ã‚µãƒãƒ¼ãƒˆã—ã¦ã„ãªã„ã®ã§ã€ã”ã¾ã‹ã—ã¦å‹•ã‹ã™ã€‚ Radeon 780Mã¯RDNA3ã‚¢ãƒ¼ã‚ãƒ†ã‚¯ãƒãƒ£ã®gfx1103ãªã®ã§ã€gfx1100ã«è¦‹ã›ã‹ã‘ã‚‹ã€‚

export PYTORCH_ROCM_ARCH=gfx1100
export HSA_OVERRIDE_GFX_VERSION=11.0.0
./webui.sh --listen --skip-torch-cuda-test --precision full --no-half

ã‚ã¨ã¯ãƒ–ãƒ©ã‚¦ã‚¶ã§ http://IPã‚¢ãƒ‰ãƒ¬ã‚¹:7860/ ã«ã‚¢ã‚¯ã‚»ã‚¹ã—ã¦ç”»åƒã‚’ç”Ÿæˆã•ã›ã‚‹ã€‚

ä»Šå¾Œã®èª²é¡Œ

Radeon 780M è‡ªä½“ã¯ half precision (FP16)å¯¾å¿œã—ã¦ã„ã‚‹ã‚ˆã†ãªã®ã«ã€"--precision full --no-half" ã‚’ä»˜ã‘ãªã„ã¨å‹•ã‹ãªã„
rocm-smiã§è¦‹ãŸã‚‰VRAM%ãŒ0%ã«è¦‹ãˆã‚‹
ç”»åƒç”Ÿæˆã®æœ€çµ‚stepã§é•·æ™‚é–“å¾…ãŸã•ã‚Œã‚‹ã“ã¨ãŒã‚ã‚‹
é€£ç¶šã§å‹•ã‹ã—ã¦ã„ã‚‹ã¨"GPU Hang"ã§ãƒ—ãƒã‚»ã‚¹ãŒæ»ã¬

"GPU Hang"å•é¡Œã®è£œè¶³

HW Exception by GPU node-1 (Agent handle: 0x601800a34760) reason :GPU Hang

ã®ã‚ˆã†ãªãƒ¡ãƒƒã‚»ãƒ¼ã‚¸ãŒå‡ºã¦ãƒ—ãƒã‚»ã‚¹ãŒæ»ã«ã¾ã™ã€‚ gdbã«coreã‚’èªã¾ã›ã¦btã§è¦‹ã¦ã‚‚ã€ä¾‹å¤–ãƒãƒ³ãƒ‰ãƒ©ã®ä¸ã§ã‚¹ãƒ¬ãƒƒãƒ‰ã‚’æ®ºã—ã¦ã„ã‚‹ã“ã¨ã—ã‹åˆ†ã‹ã‚Šã¾ã›ã‚“ã€‚ ãƒ‰ãƒ©ã‚¤ãƒ(ã‹ã‚‚ã£ã¨ä¸‹)ãŒæ€ªã—ã„ã¨æ€ã£ã¦dmesgã§è¦‹ã‚‹ã¨ã€amdgpuãƒ‰ãƒ©ã‚¤ãƒãŒ

amdgpu: MES failed to respond to msg=REMOVE_QUEUE

ã¨ã„ã†ã‚¨ãƒ©ãƒ¼ã‚’åã„ã¦GPU resetã‚’ç™ºè¡Œã—ã¦ã„ã¾ã™ã€‚

ã“ã®å•é¡Œã¯Linux Kernel MLã§ã‚‚å ±å‘Šã•ã‚Œã¦ã„ã¾ã™ãŒã€ æœªè§£æ±ºã§ã€ã©ã†ã‚‚ãƒ•ã‚¡ãƒ¼ãƒ ã‚¦ã‚§ã‚¢ã®ä¿®æ£ã‚’å¾…ã¤ã—ã‹ãªã•ãã†ã«è¦‹ãˆã¾ã™ã€‚

å‹•ç”»ã‹ã‚‰MMDã®ãƒ¢ãƒ¼ã‚·ãƒ§ãƒ³ã‚’è‡ªå‹•ç”Ÿæˆã™ã‚‹ãŸã‚ã«ä½¿ãˆã‚‹æŠ€è¡“ã‚’æŽ¢ã—ã¦ã€VideoPose3D ã‚’è©¦ã—ãŸã€‚ VideoPose3D ã¯ Facebook Research ã® Dario Pavllo ã‚‰ãŒé–‹ç™ºã—ãŸ 3Dãƒãƒ¼ã‚ºæŽ¨å®š(3D human pose estimation)ã®ã‚½ãƒ•ãƒˆã‚¦ã‚§ã‚¢ã€‚è«–æ–‡ã¯ CVPR 2019 ã§ç™ºè¡¨ã•ã‚ŒãŸã€‚

VideoPose3Dã®ç‰¹å¾´

æ™‚é–“æ–¹å‘ã®ç•³ã¿è¾¼ã¿(temporal convolutions)ã‚’é©ç”¨ã™ã‚‹ã“ã¨ã«ã‚ˆã£ã¦ã€3Dãƒãƒ¼ã‚ºæŽ¨å®šã®ç²¾åº¦ã‚’é«˜ã‚ãŸã€‚ ã¾ãŸã€å‹•ç”»ã‹ã‚‰äººã®å‹•ãã‚’ãƒˆãƒ¬ãƒ¼ã‚¹ã—ãŸéš›ã®æŒ¯å‹•ãŒå°‘ãªãã€æ™‚é–“æ–¹å‘ã«æ»‘ã‚‰ã‹ãªæŽ¨å®šçµæžœãŒå¾—ã‚‰ã‚Œã‚‹ã€‚ GitHubã«è²¼ã‚‰ã‚ŒãŸ GIFå‹•ç”» ã‚„ ãƒ‡ãƒ¢ã®ãƒšãƒ¼ã‚¸ ã® "Single-image model vs temporal model" ã®ã‚ãŸã‚Šã«ç‰¹å¾´ãŒè¡¨ã‚Œã¦ã„ã‚‹ã€‚

æ¬ ç‚¹ãƒ»åˆ¶ç´„

é–¢ç¯€ã®ç›¸å¯¾çš„ãªä½ç½®ã—ã‹æŽ¨å®šã§ããªã„ã®ã§ã€ã‚»ãƒ³ã‚¿ãƒ¼ã®ç§»å‹•ã¯åˆ¥ã®æ‰‹æ®µã§ãƒˆãƒ¬ãƒ¼ã‚¹ã™ã‚‹å¿…è¦ãŒã‚ã‚‹ã€‚

ã‚½ãƒ¼ã‚¹ã‚³ãƒ¼ãƒ‰

https://github.com/facebookresearch/VideoPose3D

è«–æ–‡

https://arxiv.org/abs/1811.11742

ãƒ„ãƒ¼ãƒ«ã‚ãƒƒãƒˆ

PyTorch ã‚’ä½¿ç”¨ã€‚ ã¾ãŸ2D keypointã®æŽ¨å®šã«ã¯ Detectron2 ã‚’ä½¿ã†ã€‚

VideoPose3Dæœ¬ä½“ã¯CC BY-NCã€‚ ãŸã ã—ã€ä½¿ç”¨ã—ã¦ã„ã‚‹ Human3.6M ãƒ‡ãƒ¼ã‚¿ã‚»ãƒƒãƒˆã¯ã‚ˆã‚ŠåŽ³æ ¼ãªãƒ©ã‚¤ã‚»ãƒ³ã‚¹ãªã®ã§æ³¨æ„ãŒå¿…è¦ã€‚

ã‚¤ãƒ³ã‚¹ãƒˆãƒ¼ãƒ«

Quick start ã«å¾“ã£ã¦ã‚¤ãƒ³ã‚¹ãƒˆãƒ¼ãƒ«ã™ã‚‹ã€‚

Detectron2ã®ã‚¤ãƒ³ã‚¹ãƒˆãƒ¼ãƒ«ã¯ã€Linuxãªã‚‰ Install Pre-Built Detectron2 ã«å¾“ã£ã¦pipã‚’ä½¿ã†ã®ãŒç°¡å˜ã€‚

ãªãŠã€Dataset setup ã«ã¯ Human3.6M ãƒ‡ãƒ¼ã‚¿ã‚»ãƒƒãƒˆã‚’ç”¨æ„ã™ã‚‹ã‚ˆã†ã«æ›¸ã„ã¦ã‚ã‚‹ãŒã€ Inference in the wild ã«å¾“ã£ã¦è©¦ã™ã ã‘ãªã‚‰ Human3.6M ãƒ‡ãƒ¼ã‚¿ã‚»ãƒƒãƒˆã¯ç„¡ãã¦ã‚‚å‹•ãã‚ˆã†ã ã€‚

å®Ÿè¡Œ

Inference in the wild ã«å¾“ã£ã¦ã€2D keypointsã®æŽ¨å®š(Detectron2ã‚’ä½¿ç”¨)ã€ custom dataset (data/data_2d_custom_myvideos.npz)ã®ä½œæˆã€æŽ¨å®šçµæžœã®æç”»(rendering a custom video)ã‚’è¡Œã£ãŸã€‚

$ cd inference/
$ python infer_video_d2.py --cfg COCO-Keypoints/keypoint_rcnn_R_101_FPN_3x.yaml --output-dir ~/tmp/vp3d --image-ext mp4 ~/work/test_movie/OutdoorTrial-185818419-1.mp4
$ cd ../data
$ python prepare_data_2d_custom.py -i ~/tmp/vp3d -o myvideos
$ cd ..
$ python run.py -d custom -k myvideos -arc 3,3,3,3,3 -c checkpoint --evaluate pretrained_h36m_detectron_coco.bin --render --viz-subject OutdoorTrial-185818419-1.mp4 --viz-action custom --viz-camera 0 --viz-video ~/work/test_movie/OutdoorTrial-185818419-1.mp4 --viz-output ~/tmp/OutdoorTrial-185818419-1-vp3d.mp4 --viz-size 6

2D keypointsã®æŽ¨å®šãŒä¸€ç•ªé‡ãã¦ GeForce GTX 1050 Ti ã§ç´„ 3 fpsã€æŽ¨å®šçµæžœã®æç”»ã¯Core i7-8700(3.2GHz)ã§ç´„ 10 fpsã€‚

VideoPose3Dã€ãƒ‡ãƒ¢ã§ã¯ã‚»ãƒ³ã‚¿ãƒ¼ç§»å‹•ã‚‚å–ã‚Œã¦ã„ã‚‹ã‚ˆã†ã«è¦‹ãˆãŸã‘ã©ã€è©¦ã—ã¦ã¿ãŸã‚‰é•ã£ãŸã€‚èª¬æ˜Žã®æœ€å¾Œã‚ãŸã‚Šã«"Predictions are relative to the root joint"ã¨æ›¸ã„ã¦ã‚ã£ãŸã€‚https://t.co/q20mdJDyAe pic.twitter.com/UULJCvySvZ
— æ±Ÿè‰¯é‡Ž (@errno_mmd) January 1, 2021

errno_mmdâ€™s blog

AMD Ryzen 7 8700G APUã§å‹•ãPytorch/ROCmã®ç’°å¢ƒã‚’ä½œã‚‹(æœªå®Œ)

â€»æ³¨æ„â€»

ä¸»ãªè£…ç½®æ§‹æˆ

ä»Šå›žã®ç›®æ¨™

UEFIè¨å®š

ROCmã®ã‚¤ãƒ³ã‚¹ãƒˆãƒ¼ãƒ«

stable-diffusion-webui ã‚’å‹•ã‹ã™ä»®æƒ³ç’°å¢ƒã®æ§‹ç¯‰

stable-diffusion-webui ã®èµ·å‹•

ä»Šå¾Œã®èª²é¡Œ

"GPU Hang"å•é¡Œã®è£œè¶³

VideoPose3Då®Ÿé¨“ãƒ¡ãƒ¢

VideoPose3Dã®ç‰¹å¾´

æ¬ ç‚¹ãƒ»åˆ¶ç´„

ã‚½ãƒ¼ã‚¹ã‚³ãƒ¼ãƒ‰

è«–æ–‡

ãƒ„ãƒ¼ãƒ«ã‚ãƒƒãƒˆ

ãƒ©ã‚¤ã‚»ãƒ³ã‚¹

ã‚¤ãƒ³ã‚¹ãƒˆãƒ¼ãƒ«

å®Ÿè¡Œ

å‚è€ƒï¼šè©¦ã—ãŸã¨ãã®ãƒ„ã‚¤ãƒ¼ãƒˆ

â€»æ³¨æ„â€»

ä¸»ãªè£…ç½®æ§‹æˆ

ä»Šå›žã®ç›®æ¨™

UEFIè¨­å®š

ROCmã®ã‚¤ãƒ³ã‚¹ãƒˆãƒ¼ãƒ«

stable-diffusion-webui ã‚’å‹•ã‹ã™ä»®æƒ³ç’°å¢ƒã®æ§‹ç¯‰

stable-diffusion-webui ã®èµ·å‹•

ä»Šå¾Œã®èª²é¡Œ

"GPU Hang"å•é¡Œã®è£œè¶³

VideoPose3Dã®ç‰¹å¾´

æ¬ ç‚¹ãƒ»åˆ¶ç´„

ã‚½ãƒ¼ã‚¹ã‚³ãƒ¼ãƒ‰

è«–æ–‡

ãƒ„ãƒ¼ãƒ«ã‚­ãƒƒãƒˆ

ãƒ©ã‚¤ã‚»ãƒ³ã‚¹

ã‚¤ãƒ³ã‚¹ãƒˆãƒ¼ãƒ«

å®Ÿè¡Œ

å‚è€ƒï¼šè©¦ã—ãŸã¨ãã®ãƒ„ã‚¤ãƒ¼ãƒˆ

â€»æ³¨æ„â€»

ä¸»ãªè£…ç½®æ§‹æˆ

ä»Šå›žã®ç›®æ¨™

UEFIè¨å®š

ROCmã®ã‚¤ãƒ³ã‚¹ãƒˆãƒ¼ãƒ«

stable-diffusion-webui ã‚’å‹•ã‹ã™ä»®æƒ³ç’°å¢ƒã®æ§‹ç¯‰

stable-diffusion-webui ã®èµ·å‹•

ä»Šå¾Œã®èª²é¡Œ

"GPU Hang"å•é¡Œã®è£œè¶³

VideoPose3Dã®ç‰¹å¾´

ãƒ„ãƒ¼ãƒ«ã‚ãƒƒãƒˆ

å‚è€ƒï¼šè©¦ã—ãŸã¨ãã®ãƒ„ã‚¤ãƒ¼ãƒˆ