æ±åŒ—å¤§å¦NLPã‚°ãƒ«ãƒ¼ãƒ—ã®è¨€èªžãƒ¢ãƒ‡ãƒ«ã‚’ã¨ã‚Šã‚ãˆãšå‹•ã‹ã™

æ±åŒ—å¤§NLPã‚°ãƒ«ãƒ¼ãƒ—ã‹ã‚‰ã‚‚ã€æ—¥æœ¬èªžè¨€èªžãƒ¢ãƒ‡ãƒ«ãŒæ–°ãŸã«å…¬é–‹ã•ã‚Œã¦ã„ã¾ã—ãŸã€‚
æ—¢å˜ã®ãƒ¢ãƒ‡ãƒ«ã®ã‚¢ãƒƒãƒ—ãƒ‡ãƒ¼ãƒˆã§ã™ã€‚

æ±åŒ—å¤§ NLP ã‚°ãƒ«ãƒ¼ãƒ— (@NlpTohoku) ã§å…¬é–‹ã—ã¦ã„ã‚‹æ—¥æœ¬èªž BERT ã‚’ã‚¢ãƒƒãƒ—ãƒ‡ãƒ¼ãƒˆã—ã€æ–°ãŸã« CC-100 ã¨ Wikipedia ã§è¨“ç·´ã—ãŸ4ã¤ã®ãƒ¢ãƒ‡ãƒ«ã‚’è¿½åŠ ã—ã¾ã—ãŸã€‚å„ç¨®ã‚³ãƒ¼ãƒ‰ã‚‚ TensorFlow v2.11 å¯¾å¿œã®ã‚‚ã®ã«æ›´æ–°ã—ã¾ã—ãŸã€‚ç ”ç©¶ãƒ»æ•™è‚²ã‚„é–‹ç™ºã«ãŠå½¹ç«‹ã¦ã„ãŸã ã‘ã‚Œã°ã¨æ€ã„ã¾ã™ã€‚https://t.co/O4H2llCLyn
— Masatoshi Suzuki (@fivehints) 2023å¹´5æœˆ19æ—¥

ä»Šå›žæ–°ãŸã«å…¬é–‹ã•ã‚ŒãŸã®ã¯æ¬¡ã®ï¼”ã¤ã®ãƒ¢ãƒ‡ãƒ«ã§ã™ã€‚

cl-tohoku/bert-base-japanese-v3
cl-tohoku/bert-base-japanese-char-v3
cl-tohoku/bert-large-japanese-v2
cl-tohoku/bert-large-japanese-char-v2

charãŒã¤ã„ã¦ã„ã‚‹ã®ã¯æ–‡å—ã”ã¨ã®ãƒˆãƒ¼ã‚¯ãƒŠã‚¤ã‚ºã§ã€ã¤ã„ã¦ã„ãªã„ã‚‚ã®ã¯Unidic 2.1.2ãƒ™ãƒ¼ã‚¹ã®ãƒˆãƒ¼ã‚¯ãƒŠã‚¤ã‚ºã€ã‹ãªã€‚

ã—ã‹ã—ã€CyberAgentã®ãƒ¢ãƒ‡ãƒ«ã¨åŒã˜ã‚³ãƒ¼ãƒ‰ã ã¨ ã“ã‚“ãªæ„Ÿã˜ã«ãªã£ã¦ã—ã¾ã„ã¾ã—ãŸã€‚

å‹•ã‹ã™ãŸã‚ã«ã¯fugashiã¨unidic_liteãŒå¿…è¦ãªã®ã§pip installã—ã¦ãŠãå¿…è¦ãŒã‚ã‚Šã¾ã™ã€‚unidic_liteã¯charãŒã¤ã„ãŸãƒ¢ãƒ‡ãƒ«ã§ã¯ä¸è¦ãªæ°—ãŒã™ã‚‹ã‘ã©è©¦ã—ã¦ã¾ã›ã‚“ã€‚

GPUãƒ¡ãƒ¢ãƒªã¯1.4GBç¨‹åº¦ã®æ¶ˆè²»ãªã®ã§ã€CUDAãŒå‹•ã‘ã°ã ã„ãŸã„ã®ç’°å¢ƒã§å‹•ããã†ã€‚

è‡ªç„¶è¨€èªžå‡¦ç†ã€”ä¸‰è¨‚ç‰ˆã€• (æ”¾é€å¤§å¦æ•™æ)

æ”¾é€å¤§å¦æ•™è‚²æŒ¯èˆˆä¼š

Amazon

import torch
from transformers import AutoModelForCausalLM, AutoTokenizer
from colorama import Fore, Back, Style, init
# need fugashi, unidic_lite
init(autoreset=True)

# model_name = "cl-tohoku/bert-base-japanese-v3"
# model_name = "cl-tohoku/bert-base-japanese-char-v3"
model_name = "cl-tohoku/bert-large-japanese-char-v2"
# model_name = "cl-tohoku/bert-large-japanese-v2"

print ("model:" + model_name)
model = AutoModelForCausalLM.from_pretrained(model_name, is_decoder=True).to("cuda")
tokenizer = AutoTokenizer.from_pretrained(model_name)

# prompt = "AIã«ã‚ˆã£ã¦ç§é”ã®æš®ã‚‰ã—ã¯ã€"
prompt = "ã‚¢ãƒ¡ãƒªã‚«ã®é¦–éƒ½ã¯ãƒ¯ã‚·ãƒ³ãƒˆãƒ³ã€‚æ—¥æœ¬ã®é¦–éƒ½ã¯"
# prompt = "å¾è¼©ã¯çŒ«ã§"
inputs = tokenizer(prompt, return_tensors="pt").to(model.device)
with torch.no_grad():
    tokens = model.generate(
        **inputs,
        max_new_tokens=64,
        do_sample=True,
        temperature=0.7,
        pad_token_id=tokenizer.pad_token_id,
    )
    
output = tokenizer.decode(tokens[0], skip_special_tokens=True).replace(" ", "")
print(f"{Fore.YELLOW}{prompt}{Fore.WHITE}{output[len(prompt):]}")