ã€è§£æ¶ˆã€‘rinna ã®ãƒ¢ãƒ‡ãƒ«ã‚’ä½¿ãŠã†ã¨ã—ã¦ OutOfMemoryError ã«ã¯ã¾ã£ãŸè©±

ã¯ã˜ã‚ã«

å‰å›žã®è¨˜äº‹ã®ç¶šãã€‚

pancokeiba.hatenablog.com

Windows ã§ã®ç’°å¢ƒæ§‹ç¯‰ã«æŒ«æŠ˜ã—ãŸãŸã‚ WSL2 ã§æ§‹ç¯‰ã™ã‚‹ã“ã¨ã¨ã—ãŸã€‚ä»Šå›žã¯ãã®ä½œæ¥å†…å®¹ã¨ rinna ã®ã‚µãƒ³ãƒ—ãƒ«ã‚³ãƒ¼ãƒ‰ã®å®Ÿè¡Œçµæžœã«ã¤ã„ã¦è¨˜è¼‰ã™ã‚‹ã€‚

å®Ÿè¡Œç’°å¢ƒ

PC
- Windows 11 Home
- CPU intel Core i5-14500
- ãƒ¡ãƒ¢ãƒª 16GB
- GPU NVIDIA GEFORCE RTX 4060
  - VRAM 8GB
  - Compute Capability 8.9
  - Micro-architecture Ada Lovelace
  - Driver version 551.76
WSL é–¢é€£
- WSL 2.2.4.0
- Ubuntu 22.04.3 LTS
- VSCode 1.92.2
- conda ç’°å¢ƒã®è«¸ã€…
  - conda 24.5.0
  - python 3.11.3
  - pytorch 2.4.0
  - pytorch-cuda 12.4
  - sentencepiece 0.2.0
  - transformers 4.41.2
æ±Žç”¨è¨€èªžãƒ¢ãƒ‡ãƒ« rinna/bilingual-gpt-neox-4b

ç’°å¢ƒæ§‹ç¯‰

å®Ÿæ–½ã—ãŸä½œæ¥ã‚’æ™‚ç³»åˆ—ã«æ²¿ã£ã¦è¨˜è¼‰ã™ã‚‹ã€‚

WSL2 ã®å°Žå…¥

éŽåŽ»ã«å°Žå…¥æ¸ˆã¿ã ã£ãŸãŒã€ãªãœã‹ãƒãƒƒãƒˆãƒ¯ãƒ¼ã‚¯ãŒé…ã™ãŽã¦ã‚³ãƒžãƒ³ãƒ‰å®Ÿè¡Œã«æ•°åç§’ã‹ã‹ã‚‹çŠ¶æ…‹ã ã£ãŸãŸã‚ã€ã‚¢ãƒ³ã‚¤ãƒ³ã‚¹ãƒˆãƒ¼ãƒ«ãƒ»ã‚¤ãƒ³ã‚¹ãƒˆãƒ¼ãƒ«ã‚’å®Ÿæ–½ã—ãŸã€‚
ä»¥ä¸‹ã®ã‚µã‚¤ãƒˆã‚’å‚è€ƒã«ã•ã›ã¦ã„ãŸã ã„ãŸã€‚

WSL2 のインストールとアンインストール #初心者 - Qiita

CUDA toolkit ã®ã‚¤ãƒ³ã‚¹ãƒˆãƒ¼ãƒ«

å…¬å¼ã‚µã‚¤ãƒˆã®ã‚¤ãƒ³ã‚¹ãƒˆãƒ¼ãƒ«ã‚³ãƒžãƒ³ãƒ‰ã‚’å®Ÿè¡Œã—ãŸã€‚

CUDA Toolkit 12.6 Update 1 Downloads | NVIDIA Developer

cuDNN ã®ã‚¤ãƒ³ã‚¹ãƒˆãƒ¼ãƒ«

å…¬å¼ã‚µã‚¤ãƒˆã®ã‚¤ãƒ³ã‚¹ãƒˆãƒ¼ãƒ«ã‚³ãƒžãƒ³ãƒ‰ã‚’å®Ÿè¡Œã—ãŸã€‚

cuDNN 9.3.0 Downloads | NVIDIA Developer

å‹•ä½œç¢ºèª

nvidia-smi

ä¸Šè¨˜ã‚³ãƒžãƒ³ãƒ‰ã‚’å®Ÿè¡Œã™ã‚‹ã¨çµæžœãŒè¿”ã£ã¦ããŸã€‚ãŸã¶ã‚“ã“ã‚Œã§ OK ãªã¯ãšã€‚

nvcc -V

ä¸Šè¨˜ã‚³ãƒžãƒ³ãƒ‰ã‚’å®Ÿè¡Œã™ã‚‹ã¨ Command not found ã®ã‚¨ãƒ©ãƒ¼ãŒå‡ºãŸãŸã‚ã€~/.bashrcã«ç’°å¢ƒå¤‰æ•°ã®è¨å®šã‚³ãƒžãƒ³ãƒ‰ã‚’è¿½è¨˜ã—ãŸã€‚

~/.bashrc

export PATH=/usr/local/cuda:/usr/local/cuda/bin:$PATH
export LD_LIBRARY_PATH=/usr/local/lib:/usr/local/cuda/lib64:$LD_LIBRARY_PATH

~/.bashrcã®ä¿å˜å¾Œã€WSL ã‚’å†èµ·å‹•ã—ã¦ç’°å¢ƒå¤‰æ•°ã®è¨å®šã¯å®Œäº†ã€‚
å†åº¦ nvcc ã‚³ãƒžãƒ³ãƒ‰ã‚’å®Ÿè¡Œã™ã‚‹ã¨çµæžœãŒè¿”ã£ã¦ããŸãŸã‚ OKã€‚

Anaconda ã®ã‚¤ãƒ³ã‚¹ãƒˆãƒ¼ãƒ«

WSL ã§ã‚‚ conda ç’°å¢ƒã§å®Ÿè¡Œã—ãŸã‹ã£ãŸãŸã‚ã€Anaconda ã‚’å°Žå…¥ã—ãŸã€‚
å°Žå…¥æ‰‹é †ã¯ã“ã¡ã‚‰ã‚’å‚è€ƒã«ã•ã›ã¦ã„ãŸã ã„ãŸã€‚

【備忘録】WSL2にanaconda3をインストールしてcondaを使えるようにするまで #Python - Qiita

conda ç’°å¢ƒã®ä½œæˆ

conda ã®ä»®æƒ³ç’°å¢ƒã‚’ä½œæˆã—ãŸã€‚æ‰‹é †ã¯å‰²æ„›ã™ã‚‹ã€‚

Pytorch ã®ã‚¤ãƒ³ã‚¹ãƒˆãƒ¼ãƒ«

å…¬å¼ã‚µã‚¤ãƒˆã‹ã‚‰ã‚¤ãƒ³ã‚¹ãƒˆãƒ¼ãƒ«ã‚³ãƒžãƒ³ãƒ‰ã‚’ã‚³ãƒ”ãƒšã—ã¦å®Ÿè¡Œã—ãŸã€‚

Start Locally | PyTorch

VSCode ã®å°Žå…¥

ã‚½ãƒ¼ã‚¹ã‚’æ›¸ããƒ»ã‚¿ãƒ¼ãƒŸãƒŠãƒ«ã‚’æ“ä½œã™ã‚‹ãƒ»GitHub ã«ä¸Šã’ã‚‹ãªã©ã®ä½œæ¥ã‚’ VSCode ã«é›†ç´„ã—ãŸã‹ã£ãŸãŸã‚å°Žå…¥ã—ãŸã€‚ã¨è¨€ã£ã¦ã‚‚ã€Ubuntu ã«ã¯ã‚¤ãƒ³ã‚¹ãƒˆãƒ¼ãƒ«ã•ã‚Œã¦ã„ã‚‹ã‚ˆã†ã§ã€codeã‚³ãƒžãƒ³ãƒ‰ã‚’å®Ÿè¡Œã™ã‚‹ã ã‘ã§ VSCode ãŒèµ·å‹•ã•ã‚ŒãŸã€‚

VSCode èµ·å‹•å¾Œã¯ã€ç”»é¢å·¦ä¸‹ã®ã‚¢ã‚¤ã‚³ãƒ³ã‹ã‚‰ Connect to WSL ã‚’é¸æŠžã™ã‚Œã° OKã€‚

è³‡ææ ¼ç´

ä»¥ä¸‹ã®ãƒ‡ã‚£ãƒ¬ã‚¯ãƒˆãƒªæ§‹æˆã§è³‡æã‚’æ ¼ç´ã—ãŸã€‚

bilingual-gpt-neox-4b é…ä¸‹
- æ‰‹å‹•ã§ãƒ€ã‚¦ãƒ³ãƒãƒ¼ãƒ‰ã—ãŸ rinna ãƒ¢ãƒ‡ãƒ«ã®ãƒ•ã‚¡ã‚¤ãƒ«ä¸€å¼ã‚’æ ¼ç´ã—ãŸ
rinna_test.py
- ã‚µãƒ³ãƒ—ãƒ«ã‚³ãƒ¼ãƒ‰ãŒæ›¸ã‹ã‚ŒãŸ Python ãƒ•ã‚¡ã‚¤ãƒ«

.
â”œâ”€â”€ bilingual-gpt-neox-4b
â”‚   â”œâ”€â”€ README.md
â”‚   â”œâ”€â”€ config.json
â”‚   â”œâ”€â”€ gitattributes
â”‚   â”œâ”€â”€ model.safetensors
â”‚   â”œâ”€â”€ pytorch_model.bin
â”‚   â”œâ”€â”€ rinna.png
â”‚   â”œâ”€â”€ spiece.model
â”‚   â”œâ”€â”€ spiece.vocab
â”‚   â”œâ”€â”€ tokenizer_config.json
â””â”€â”€ rinna_test.py

ã‚µãƒ³ãƒ—ãƒ«ã‚³ãƒ¼ãƒ‰ã‚’å®Ÿè¡Œ

ä»¥ä¸‹ã§å…¬é–‹ã•ã‚Œã¦ã„ã‚‹ã‚µãƒ³ãƒ—ãƒ«ã‚³ãƒ¼ãƒ‰ã‚’ä¸€éƒ¨å¤‰æ›´ã—ã¦å®Ÿè¡Œã—ãŸã€‚

rinna/bilingual-gpt-neox-4b · Hugging Face

ãƒ¢ãƒ‡ãƒ«ã®ãƒ‘ã‚¹ã®è¨˜è¼‰éƒ¨åˆ†ã‚’å¤‰æ›´ã—ã€bilingual-gpt-neox-4b ãƒ•ã‚©ãƒ«ãƒ€ã«æ ¼ç´ã•ã‚ŒãŸãƒ¢ãƒ‡ãƒ«ã‚’å‚ç…§ã™ã‚‹ã‚ˆã†ã«ã—ãŸã€‚

å¤‰æ›´å¾Œã®ã‚³ãƒ¼ãƒ‰

tokenizer = AutoTokenizer.from_pretrained("./bilingual-gpt-neox-4b", use_fast=False)

ã‚µãƒ³ãƒ—ãƒ«ã‚³ãƒ¼ãƒ‰å®Ÿè¡Œã‚¨ãƒ©ãƒ¼

Killed

èª¿ã¹ãŸé™ã‚Šã€ãƒ¡ãƒ¢ãƒªä¸è¶³ã®éš›ã« Killed ãŒè¡¨ç¤ºã•ã‚Œã‚‹ã‚ˆã†ã ãŒã€è©³ç´°ã‚’ç¢ºèªã™ã‚‹ãŸã‚ã«ã€dmesgã‚³ãƒžãƒ³ãƒ‰ã‚’å®Ÿè¡Œã—ãŸã€‚

å®Ÿè¡Œã—ãŸã‚³ãƒžãƒ³ãƒ‰

dmesg -T

ã‚³ãƒžãƒ³ãƒ‰å®Ÿè¡Œçµæžœ

[Sun Sep  1 14:48:46 2024] Out of memory: Killed process 8833 (pt_main_thread) total-vm:52131812kB, anon-rss:6358652kB, file-rss:0kB, shmem-rss:0kB, UID:1000 pgtables:23936kB oom_score_adj:0

ãŸã—ã‹ã«ã‚µãƒ³ãƒ—ãƒ«ã‚³ãƒ¼ãƒ‰ã‚’å®Ÿè¡Œã—ãŸæ™‚é–“å¸¯ã«ã€Out of Memory ã«ã‚ˆã£ã¦ãƒ—ãƒã‚»ã‚¹ãŒã‚ãƒ«ã•ã‚Œã¦ã„ãŸã€‚ä»Šã®ã‚µãƒ³ãƒ—ãƒ«ã‚³ãƒ¼ãƒ‰ã ã¨ã€è‡ªåˆ†ã®å®Ÿè¡Œç’°å¢ƒã§ã¯ãƒ¡ãƒ¢ãƒªä¸è¶³ã§ã‚ãƒ«ã•ã‚Œã¦ã—ã¾ã†ã¨ã„ã†ã“ã¨ãŒåˆ†ã‹ã£ãŸã€‚

OOM Killer ã¸ã®å¯¾å‡¦ã¨çµæžœ

ã‚ãƒ«ã•ã‚Œãªã„ã‚ˆã†ã«ã‚µãƒ³ãƒ—ãƒ«ã‚³ãƒ¼ãƒ‰ã‚’ä¿®æ£ã—ãŸã€‚å…·ä½“çš„ã«ã¯ã€torch_dtypeã¨device_mapã®è¨å®šå€¤ã‚’è¿½åŠ ã—ãŸã€‚

ä¿®æ£å¾Œã® rinna_test.py

import torch
from transformers import AutoTokenizer, AutoModelForCausalLM

# ãƒ¡ãƒ¢ãƒªä½¿ç”¨çŠ¶æ…‹ã‚’å–å¾—ã™ã‚‹
# torch.cuda.memory._record_memory_history()

# rinnaãƒ¢ãƒ‡ãƒ«ã‚’ãƒãƒ¼ã‚«ãƒ«ãƒ‘ã‚¹æŒ‡å®š
tokenizer = AutoTokenizer.from_pretrained("./bilingual-gpt-neox-4b", use_fast=False)

# å¤‰æ›´å‰ â†’ Killed
# model = AutoModelForCausalLM.from_pretrained("./bilingual-gpt-neox-4b")
# å¤‰æ›´å¾Œ â†’ OK
model = AutoModelForCausalLM.from_pretrained("./bilingual-gpt-neox-4b", torch_dtype=torch.float16, device_map='auto')

# if torch.cuda.is_available():
#    model = model.to("cuda")

text = "è¥¿ç”°å¹¾å¤šéƒŽã¯ã€"
token_ids = tokenizer.encode(text, add_special_tokens=False, return_tensors="pt")

with torch.no_grad():
    output_ids = model.generate(
        token_ids.to(model.device),
        max_new_tokens=100,
        min_new_tokens=100,
        do_sample=True,
        temperature=1.0,
        top_p=0.95,
        pad_token_id=tokenizer.pad_token_id,
        bos_token_id=tokenizer.bos_token_id,
        eos_token_id=tokenizer.eos_token_id
    )

output = tokenizer.decode(output_ids.tolist()[0])
print(output)

# ãƒ¡ãƒ¢ãƒªã®ã‚¹ãƒŠãƒƒãƒ—ã‚·ãƒ§ãƒƒãƒˆã‚’å–å¾—
# torch.cuda.memory._dump_snapshot("my_snapshot.pickle")

rinna_test.py å®Ÿè¡Œçµæžœ

You are using the default legacy behaviour of the <class 'transformers.models.t5.tokenization_t5.T5Tokenizer'>. This is expected, and simply means that the `legacy` (previous) behavior will be used so nothing changes for you. If you want to use the new behaviour, set `legacy=False`. This should only be set if you understand what it means, and thoroughly read the reason why this was added as explained in https://github.com/huggingface/transformers/pull/24565
Some parameters are on the meta device device because they were offloaded to the cpu.
è¥¿ç”°å¹¾å¤šéƒŽã¯ã€æ˜Žæ²»åˆæœŸã®ç‰©ç†å¦ã®ç¬¬ä¸€äººè€…ã§ã‚ã‚Šã€ç†ç¥žè«–è€…ã¨ã—ã¦ã‚‚çŸ¥ã‚‰ã‚Œã¦ã„ã¾ã™ã€‚
å½¼ã¯ã€ä¸‡ç‰©ã¯å…¨ã¦éœŠã§ã‚ã‚Šã€ãã®æœ¬è³ªã¯ã€æ°¸é ã«å¤‰ã‚ã‚‰ãªã„ã‚‚ã®ã¨ä¿¡ã˜ã¦ã‚„ã¾ãªã‹ã£ãŸã®ã§ã™ã€‚ (ä»¥ä¸Šã€Œä¸‡ç‰©ã®éœŠã®æœ¬è³ªã¨ã€äººå¿ƒã®ç§‘å¦ã€ã‚ˆã‚Š)
ã€Œç¥žãŒã‹ã‚Šã€ãŒã€ãªãœã€éœŠèƒ½è€…ã«ã€å¿…è¦ãªã®ã‹ã€ã¨ã„ãˆã°ã€ãã‚Œã“ãã€ç¥žç§˜ã®ä¸–ç•Œã«ç¥žã‚’æ€ã†ã®ãŒã€çœŸã®å®—æ•™ã ã‹ã‚‰ã§ã™ã€‚ éœŠã®å˜åœ¨ã¯ã€å®—æ•™ãã®ã‚‚ã®ã§ã™ã€‚
å®—æ•™ã«ã¯ã€ã„ã‚ã„ã‚ãª

rinna_test.py ã®å®Ÿè¡Œæ™‚é–“ã«ã¤ã„ã¦

Out of Memory ãŒç™ºç”Ÿã—ãŸã“ã¨ã‹ã‚‰ã€è‡ªåˆ†ã®å®Ÿè¡Œç’°å¢ƒã¯ã‚µãƒ³ãƒ—ãƒ«ã‚³ãƒ¼ãƒ‰ã®å®Ÿè¡Œã«è€ãˆã†ã‚‹ã‚¹ãƒšãƒƒã‚¯ã§ã¯ãªã•ãã†ã¨ã„ã†ã“ã¨ãŒåˆ†ã‹ã£ãŸã€‚å‚è€ƒç¨‹åº¦ã«å®Ÿè¡Œæ™‚é–“ã«ã¤ã„ã¦è¨˜è¼‰ã—ã¦ãŠãã€‚
æ¸¬å®šã«ã¯ã€time.perf_counter()ã‚’ä½¿ç”¨ã—ãŸã€‚5 å›žå®Ÿè¡Œã—ãŸãŒã€ã©ã‚Œã‚‚ 30 ç§’è¿‘ãã‹ã‹ã£ã¦ã„ã‚‹ã“ã¨ãŒåˆ†ã‹ã‚‹ã€‚

1 å›žç›®: 29.19523430600384
2 å›žç›®: 27.53580800799682
3 å›žç›®: 28.29200663699885
4 å›žç›®: 28.88365111400344
5 å›žç›®: 28.652095464000013

å‚è€ƒè³‡æ–™

WSL2 のインストールとアンインストール #初心者 - Qiita
WSL2 上の PyTorch に GPU を認識させて深層学習環境をつくる
 anaconda - CUDA Toolkitインストール時に発生するnvcc missingエラーについて - pytorch
【備忘録】WSL2にanaconda3をインストールしてcondaを使えるようにするまで #Python - Qiita
linux - PyTorch code stops with message "Killed". What killed it? - Stack Overflow

pancoâ€™s blog

èˆˆå‘³ãŒæ²¸ã„ãŸã“ã¨ã‚’æ›¸ã

ã€è§£æ¶ˆã€‘rinna ã®ãƒ¢ãƒ‡ãƒ«ã‚’ä½¿ãŠã†ã¨ã—ã¦ OutOfMemoryError ã«ã¯ã¾ã£ãŸè©±

ã¯ã˜ã‚ã«

å®Ÿè¡Œç’°å¢ƒ

ç’°å¢ƒæ§‹ç¯‰

WSL2 ã®å°Žå…¥

CUDA toolkit ã®ã‚¤ãƒ³ã‚¹ãƒˆãƒ¼ãƒ«

cuDNN ã®ã‚¤ãƒ³ã‚¹ãƒˆãƒ¼ãƒ«

å‹•ä½œç¢ºèª

Anaconda ã®ã‚¤ãƒ³ã‚¹ãƒˆãƒ¼ãƒ«

conda ç’°å¢ƒã®ä½œæˆ

Pytorch ã®ã‚¤ãƒ³ã‚¹ãƒˆãƒ¼ãƒ«

VSCode ã®å°Žå…¥

è³‡ææ ¼ç´

ã‚µãƒ³ãƒ—ãƒ«ã‚³ãƒ¼ãƒ‰ã‚’å®Ÿè¡Œ

ã‚µãƒ³ãƒ—ãƒ«ã‚³ãƒ¼ãƒ‰å®Ÿè¡Œã‚¨ãƒ©ãƒ¼

Killed

OOM Killer ã¸ã®å¯¾å‡¦ã¨çµæžœ

rinna_test.py ã®å®Ÿè¡Œæ™‚é–“ã«ã¤ã„ã¦

å‚è€ƒè³‡æ–™

ã¯ã˜ã‚ã«

å®Ÿè¡Œç’°å¢ƒ

ç’°å¢ƒæ§‹ç¯‰

WSL2 ã®å°Žå…¥

CUDA toolkit ã®ã‚¤ãƒ³ã‚¹ãƒˆãƒ¼ãƒ«

cuDNN ã®ã‚¤ãƒ³ã‚¹ãƒˆãƒ¼ãƒ«

å‹•ä½œç¢ºèª

Anaconda ã®ã‚¤ãƒ³ã‚¹ãƒˆãƒ¼ãƒ«

conda ç’°å¢ƒã®ä½œæˆ

Pytorch ã®ã‚¤ãƒ³ã‚¹ãƒˆãƒ¼ãƒ«

VSCode ã®å°Žå…¥

è³‡ææ ¼ç´

ã‚µãƒ³ãƒ—ãƒ«ã‚³ãƒ¼ãƒ‰ã‚’å®Ÿè¡Œ

ã‚µãƒ³ãƒ—ãƒ«ã‚³ãƒ¼ãƒ‰å®Ÿè¡Œã‚¨ãƒ©ãƒ¼

Killed

OOM Killer ã¸ã®å¯¾å‡¦ã¨çµæžœ

rinna_test.py ã®å®Ÿè¡Œæ™‚é–“ã«ã¤ã„ã¦

å‚è€ƒè³‡æ–™

ã¯ã˜ã‚ã«

WSL2 ã®å°Žå…¥

CUDA toolkit ã®ã‚¤ãƒ³ã‚¹ãƒˆãƒ¼ãƒ«

cuDNN ã®ã‚¤ãƒ³ã‚¹ãƒˆãƒ¼ãƒ«

å‹•ä½œç¢ºèª

Anaconda ã®ã‚¤ãƒ³ã‚¹ãƒˆãƒ¼ãƒ«

conda ç’°å¢ƒã®ä½œæˆ

Pytorch ã®ã‚¤ãƒ³ã‚¹ãƒˆãƒ¼ãƒ«

VSCode ã®å°Žå…¥

è³‡ææ ¼ç´

OOM Killer ã¸ã®å¯¾å‡¦ã¨çµæžœ

rinna_test.py ã®å®Ÿè¡Œæ™‚é–“ã«ã¤ã„ã¦

å‚è€ƒè³‡æ–™