BERTã®æŽ¨è«–é€Ÿåº¦ã‚’æœ€å¤§10å€ã«ã—ã¦ãƒ‡ãƒ—ãƒã‚¤ã—ãŸè©±ã¨ãã®Tips

èƒŒæ™¯

ã¯ã˜ã‚ã¾ã—ã¦ã€JXé€šä¿¡ç¤¾ã§ã‚¤ãƒ³ã‚¿ãƒ¼ãƒ³ã‚’ã—ã¦ã„ã‚‹åŽŸç”°ã§ã™ã€‚

è¿‘å¹´æ·±å±¤å¦ç¿’ã§ã¯ãƒ¢ãƒ‡ãƒ«ãŒè‚¥å¤§åŒ–ã™ã‚‹å‚¾å‘ã«ã‚ã‚Šã¾ã™ã€‚2020å¹´ã«open aiãŒç¤ºã—ãŸScaling Lawsï¼ˆ[2001.08361] Scaling Laws for Neural Language Modelsï¼‰ ã®è¡æ’ƒã¯è¨˜æ†¶ã«æ–°ã—ãã€MLP-MixerãŒç¤ºã—ãŸã‚ˆã†ã«ã€ãƒ¢ãƒ‡ãƒ«ã‚’å¤§ããã™ã‚Œã°Attentionæ§‹é€ ã‚„CNNã§ã•ãˆã‚‚ä¸å¿…è¦ã¨ã„ã†èª¬ã‚‚ã‚ã‚Šã¾ã™ã€‚ï¼ˆ[2105.01601] MLP-Mixer: An all-MLP Architecture for Visionï¼‰

ã—ã‹ã—å¤§ããªæ·±å±¤å¦ç¿’ãƒ¢ãƒ‡ãƒ«ã‚’åˆ©ç”¨ã—ã‚ˆã†ã¨ã™ã‚‹ã¨ã€ã—ã°ã—ã°ä»¥ä¸‹ã®ã‚ˆã†ãªå•é¡Œã«æ‚©ã¾ã•ã‚Œã¾ã™ã€‚

æŽ¨è«–é€Ÿåº¦ãŒå•é¡Œã§ãƒ—ãƒãƒ€ã‚¯ãƒˆã«å®Ÿè£…ä¸å¯èƒ½
GPU/TPUã¯ã‚³ã‚¹ãƒˆä¸ŠåŽ³ã—ã„
ãƒ—ãƒãƒ€ã‚¯ãƒˆã®æ€§è³ªä¸Šãƒãƒƒãƒå‡¦ç†ãŒä¸å¯èƒ½ï¼ˆåŠ¹çŽ‡çš„ã«GPU/TPUãŒåˆ©ç”¨ã§ããªã„ï¼‰

ä¾‹ãˆã°JXé€šä¿¡ç¤¾ã®å¼·ã¿ã¯ã€Œé€Ÿå ±æ€§ã€ã«ã‚ã‚‹ãŸã‚ã€ãƒãƒƒãƒå‡¦ç†ãŒå›°é›£ã§ã‚ã‚Šã€åŠ¹çŽ‡çš„ãªGPU/TPUåˆ©ç”¨ãŒå›°é›£ã§ã™ã€‚

ã—ã‹ã—ã€æ©Ÿæ¢°å¦ç¿’ãƒ¢ãƒ‡ãƒ«ã®ç²¾åº¦ã¯ãƒ—ãƒãƒ€ã‚¯ãƒˆã®UXã¨ç›´çµã™ã‚‹ãŸã‚ã€ã€Œãªã‚“ã¨ã‹CPUä¸Šã§å¤§ããªãƒ¢ãƒ‡ãƒ«ã‚’é«˜é€Ÿã«æŽ¨è«–ã•ã›ãŸã„ã€ã¨ã„ã†ãƒ¢ãƒãƒ™ãƒ¼ã‚·ãƒ§ãƒ³ãŒç™ºç”Ÿã—ã¾ã™ã€‚

æœ¬è¨˜äº‹ã¯ä»¥ä¸Šã®ã‚ˆã†ãªèƒŒæ™¯ã‹ã‚‰å¤§ããªNLPãƒ¢ãƒ‡ãƒ«ã®ä»£è¡¨æ ¼ã§ã‚ã‚‹BERTã‚’åˆ©ç”¨ã—ã¦å„é«˜é€ŸåŒ–æ‰‹æ³•ã‚’æ¤œè¨¼ã—ã¾ã™ã€‚ ã•ã‚‰ã«å¤šãã®é«˜é€ŸåŒ–æ‰‹æ³•ã§ã¯æŽ¨è«–é€Ÿåº¦ã¨ç²¾åº¦ã®ãƒˆãƒ¬ãƒ¼ãƒ‰ã‚ªãƒ•ãŒå˜åœ¨ã—ã€ãã®ãƒˆãƒ¬ãƒ¼ãƒ‰ã‚ªãƒ•ã«æ³¨ç›®ã—ã¦æ¤œè¨¼ã‚’è¡Œã„ã¾ã™ã€‚

å®Ÿéš›ã«è‡ªåˆ†ã¯ä¸‹è¨˜ã§ç´¹ä»‹ã™ã‚‹æ–¹æ³•ã‚’çµ„ã¿åˆã‚ã›ãŸçµæžœã€BERTã®æŽ¨è«–é€Ÿåº¦ã‚’æœ€å¤§ç´„10å€ã¾ã§å‘ä¸Šã•ã›ã€é«˜é€Ÿã«å‹•ä½œã•ã›ã‚‹ã“ã¨ã«æˆåŠŸã—ã¾ã—ãŸï¼

ã¾ã¨ã‚

ä»Šå›žæ¤œè¨¼ã—ãŸå„é«˜é€ŸåŒ–æ‰‹æ³•ã®å„è©•ä¾¡ã¯ä»¥ä¸‹ã«ãªã‚Šã¾ã™ã€‚ ï¼ˆâ˜† > â—Ž > â—‹ > â–³ ã®é †ã§è‰¯ã„ï¼‰

f:id:haraso1130:20210824183731p:plain — å„æ‰‹æ³•ã®ã¾ã¨ã‚

ãŸã ã—ã€ã‚¿ã‚¹ã‚¯ã«ã‚ˆã£ã¦å„æ‰‹æ³•ã®æœ‰åŠ¹æ€§ãŒå¤§ããå¤‰ã‚ã‚‹ã®ã§å®Ÿéš›ã«é«˜é€ŸåŒ–ã‚’å›³ã‚‹éš›ã«ã¯ã€ãã®éƒ½åº¦ä¸å¯§ãªæ¤œè¨¼ãŒå¿…è¦ã§ã™ã€‚

å„æ‰‹æ³•ã®èª¬æ˜Žã¨å®Ÿè£…ã‚³ãƒ¼ãƒ‰

ä»¥ä¸‹ã‹ã‚‰ç°¡å˜ã«å„é«˜é€ŸåŒ–æ‰‹æ³•ã®æ¦‚è¦ã¨å®Ÿè£…ã‚³ãƒ¼ãƒ‰ã‚’è§£èª¬ã—ã¾ã™ã€‚

pruning, quantization, distillation, torchscriptã¯NLPä»¥å¤–ã§ã‚‚åˆ©ç”¨å¯èƒ½ãªæ‰‹æ³•
max_lengthã¯NLPãƒ¢ãƒ‡ãƒ«ã§ã‚ã‚Œã°åˆ©ç”¨å¯èƒ½ãªæ‰‹æ³•ã§ã™
å‹•çš„ãªmax_lengthã¯ãƒãƒƒãƒã‚µã‚¤ã‚º==1ã§æŽ¨è«–ã™ã‚‹ã¨ãã«åˆ©ç”¨å¯èƒ½ãªæ‰‹æ³•ã§ã™ã€‚

quantizationï¼ˆé‡ååŒ–ï¼‰

é‡ååŒ–ã¨ã¯ã€æµ®å‹•å°æ•°ç‚¹ç²¾åº¦ã‚ˆã‚Šã‚‚ä½Žã„ãƒ“ãƒƒãƒˆå¹…ã§è¨ˆç®—ã‚’è¡Œã£ãŸã‚Šã€ãƒ†ãƒ³ã‚½ãƒ«ã‚’æ ¼ç´ã—ãŸã‚Šã™ã‚‹æŠ€è¡“ã®ã“ã¨ã§ã™ã€‚float32ã‹ã‚‰int8ã¸å¤‰æ›ã™ã‚‹ã“ã¨ãŒä¸€èˆ¬çš„ã§ã™ã€‚

ã“ã“ã§ã¯pytorchå…¬å¼ã‚’å‚è€ƒã«ã—ã¾ã—ãŸã€‚

pytorch.org

Pytorchã§ã¯ä»¥ä¸‹ã®ä¸‰ç¨®é¡žã®é‡ååŒ–ãŒç”¨æ„ã•ã‚Œã¦ãŠã‚Šã€ä»Šå›žã¯æœ€ã‚‚ç°¡å˜ãªdynamic quantizationã‚’å¦ç¿’æ¸ˆã¿ãƒ¢ãƒ‡ãƒ«ã«é©å¿œã—ã¾ã™ã€‚

dynamic quantizationï¼ˆå‹•çš„é‡ååŒ–ï¼‰...weightsã®ã¿é‡ååŒ–ã—ã€æ´»æ€§åŒ–ã¯floatã§èªã¿æ›¸ãã‚’è¡Œã†ã€‚å¦ç¿’æ¸ˆã¿ãƒ¢ãƒ‡ãƒ«ã«ãã®ã¾ã¾é©å¿œã—ã€è¨ˆç®—ã‚’è¡Œã†ã€‚
static quantizationï¼ˆå‹•çš„é‡ååŒ–ï¼‰...weightsã¨æ´»æ€§åŒ–ã‚’ä¸¡æ–¹é‡ååŒ–ã™ã‚‹ã€‚å¦ç¿’å¾Œã«ã‚ãƒ£ãƒªãƒ–ãƒ¬ãƒ¼ã‚·ãƒ§ãƒ³ãŒå¿…è¦ã§ã‚ã‚‹ã€‚
quantization aware training ...weightsã¨æ´»æ€§åŒ–ã‚’ä¸¡æ–¹é‡ååŒ–ã™ã‚‹ã€‚ãƒˆãƒ¬ãƒ¼ãƒ‹ãƒ³ã‚°ä¸ã‹ã‚‰é‡ååŒ–ã‚’ãŠã“ãªã†ã€‚

å®Ÿè£…ã‚³ãƒ¼ãƒ‰ã¯ä»¥ä¸‹ã«ãªã‚Šã¾ã™ã€‚ ä»¥ä¸‹ã®ã‚³ãƒ¼ãƒ‰ã§ã¯ã€BERTã®nn.Linearã®é‡ã¿ã‚’float32â†’int8ã«å¤‰æ›ã—ã¦ã„ã¾ã™ã€‚

def quantize_transform(model: nn.Module)ã€€-> nn.Module::
  model = torch.quantization.quantize_dynamic(
    model, {torch.nn.Linear}, dtype=torch.qint8
  )
  return model

distillationï¼ˆè’¸ç•™ï¼‰

è’¸ç•™ã¯å¤§ããªãƒ¢ãƒ‡ãƒ«ã‚’æ•™å¸«ãƒ¢ãƒ‡ãƒ«ã¨ã—ã€æ•™å¸«ãƒ¢ãƒ‡ãƒ«ã‚ˆã‚Šå°ã•ãªãƒ¢ãƒ‡ãƒ«ã‚’ä½œæˆã™ã‚‹æ‰‹æ³•ã§ã™ã€‚ ç‰¹ã«BERTã®è’¸ç•™ç‰ˆãƒ¢ãƒ‡ãƒ«ã¯DistilBERTï¼ˆhttps://arxiv.org/pdf/1910.01108.pdfï¼‰ ã¨ã—ã¦ç´¹ä»‹ã•ã‚Œã¦ã„ã¾ã™ã€‚

BERT-baseã¯transformerã‚’12å±¤åˆ©ç”¨ã—ã¦ã„ã¾ã™ãŒã€DistilBERTã¯ãã®åŠåˆ†ã®6å±¤ã®transformerã‚’æŒã£ãŸæ§‹é€ ã«ãªã£ã¦ã„ã¾ã™ã€‚

ã¾ãŸã€æå¤±é–¢æ•°ã¯ä»¥ä¸‹ã®ä¸‰ã¤ã‹ã‚‰æ§‹æˆã•ã‚Œã¦ãŠã‚Šã€è§£é‡ˆã¨ã—ã¦ã€Œmasked language taskï¼ˆå˜èªžç©´åŸ‹ã‚å•é¡Œï¼‰ ã‚’ã“ãªã—ãªãŒã‚‰ã€æ•™å¸«ãƒ¢ãƒ‡ãƒ«ã¨è¿‘ã„å‡ºåŠ›ã¨é‡ã¿ã‚’ç²å¾—ã™ã‚‹ã€ã¨æ‰ãˆã‚‹ã“ã¨ãŒã§ãã¾ã™ã€‚

BERTã®outputã¨ã®è¿‘ã•
masked language taskã§ã®æå¤±
BERTã®ãƒ‘ãƒ©ãƒ¡ãƒ¼ã‚¿ã¨ã®ã‚³ã‚µã‚¤ãƒ³é¡žä¼¼åº¦

ä»Šå›žã®å®Ÿé¨“ã§ã¯ãƒãƒ³ãƒ€ã‚¤ãƒŠãƒ ã‚³ãŒå…¬é–‹ã—ã¦ã„ã‚‹æ—¥æœ¬èªžç‰ˆdistillbertãƒ¢ãƒ‡ãƒ«ã‚’åˆ©ç”¨ã—ã¾ã—ãŸã€‚ https://huggingface.co/bandainamco-mirai/distilbert-base-japanese

huggingfaceã®transformersã‚’åˆ©ç”¨ã™ã‚‹ã“ã¨ã§ã¨ã¦ã‚‚ç°¡å˜ã«ä½¿ã†ã“ã¨ãŒã§ãã¾ã™ã€‚

from transformers import AutoTokenizer, AutoModel
  
tokenizer = AutoTokenizer.from_pretrained("bandainamco-mirai/distilbert-base-japanese")

model = AutoModel.from_pretrained("bandainamco-mirai/distilbert-base-japanese")

pruningï¼ˆå‰ªå®šï¼‰

ãƒ¢ãƒ‡ãƒ«ã®é‡ã¿ã®ä¸€å®šå‰²åˆã§0ã«ã™ã‚‹æ‰‹æ³•ã§ã€ãƒ¢ãƒ‡ãƒ«ã‚’ã‚¹ãƒ‘ãƒ¼ã‚¹ã«ã™ã‚‹ã“ã¨ãŒã§ãã¾ã™ã€‚

ã“ã“ã§ã‚‚pytorchå…¬å¼ã®tutorialã«æ²¿ã£ã¦å®Ÿè£…ã—ã¾ã™ã€‚

pytorch.org

ã©ã®é‡ã¿ã‚’å‰ªå®šã™ã‚‹ã‹ã¯ã•ã¾ã–ã¾ãªç ”ç©¶ãŒã‚ã‚Šã¾ã™ãŒã€ã“ã“ã§ã¯ä¸Šè¨˜tutorialã§ç´¹ä»‹ã•ã‚Œã¦ã„ãŸL1ãƒŽãƒ«ãƒ åŸºæº–ã§å‰Šã‚‹æ‰‹æ³•ã‚’ç”¨ã„ã¾ã—ãŸã€‚çµ¶å¯¾å€¤ãŒå°ã•ã„é‡ã¿ã¯é‡è¦åº¦ãŒä½Žã„ã¨è€ƒãˆã‚‰ã‚Œã‚‹ãŸã‚0ã«ã—ã¦ã—ã¾ã†ã¨ã„ã†ç™ºæƒ³ã¯ã¨ã¦ã‚‚ç›´æ„Ÿçš„ã§ã™ã€‚

å®Ÿè£…ã‚³ãƒ¼ãƒ‰ã¯ä»¥ä¸‹ã«ãªã‚Šã¾ã™ã€‚

import torch.nn.utils.prune as prune

PRUNE_RATE = 0.2

def prune_transform(model: nn.Module) -> nn.Module:
  for name, module in model.named_modules():
    if isinstance(module, torch.nn.Linear):
        prune.l1_unstructured(module, name='weight', amount=PRUNE_RATE)
        prune.remove(module, "weight")
  return model

ä¸Šè¨˜ã®ã‚³ãƒ¼ãƒ‰ã§ã¯ãƒ¢ãƒ‡ãƒ«ä¸ã®nn.Linearã®é‡ã¿ã®ã†ã¡ã€çµ¶å¯¾å€¤ãŒå°ã•ã„ã‚‚ã®ã‹ã‚‰20%ã‚’0ã«ç½®ãæ›ãˆã‚‹ã¨ã„ã†å‡¦ç†ã«ãªã‚Šã¾ã™ã€‚

ä»Šå›žã¯è¤‡æ•°ã®PRUNE_RATEã§æŽ¨è«–é€Ÿåº¦ã¨ç²¾åº¦ã®å¤‰åŒ–ã‚’å®Ÿé¨“ã—ã¾ã—ãŸã€‚

torchscriptï¼ˆJitï¼‰

TorchScriptã¯ã€PyTorchã®ã‚³ãƒ¼ãƒ‰ã‹ã‚‰ã‚·ãƒªã‚¢ãƒ©ã‚¤ã‚ºå¯èƒ½ã§æœ€é©åŒ–å¯èƒ½ãªãƒ¢ãƒ‡ãƒ«ã‚’ä½œæˆã™ã‚‹æ‰‹æ³•ã§ã™ã€‚Pythonä»¥å¤–ã®C++ç‰ã®ãƒ©ãƒ³ã‚¿ã‚¤ãƒ ã§å®Ÿè¡Œå¯èƒ½ã«ãªã‚Šã¾ã™ã€‚

Pytorhã¯define by runæ–¹å¼ã‚’æŽ¡ç”¨ã—ã¦ãŠã‚Šã€å‹•çš„ã«è¨ˆç®—ã‚°ãƒ©ãƒ•ã‚’ä½œæˆã—ã¾ã™ã€‚å¦ç¿’æ™‚ã«ã¯éžå¸¸ã«æœ‰ç”¨ãªã“ã®å½¢å¼ã§ã™ãŒã€ãƒ—ãƒãƒ€ã‚¯ã‚·ãƒ§ãƒ³ä¸Šã®æŽ¨è«–æ™‚ã«ãŠã‘ã‚‹æ©æµã¯ã»ã¨ã‚“ã©ã‚ã‚Šã¾ã›ã‚“ã€‚

ãã“ã§ã€å…ˆã«ãƒ‡ãƒ¼ã‚¿ã‚’æµã—ã¦ã‚³ãƒ³ãƒ‘ã‚¤ãƒ«ã—ã¦ã—ã¾ã—ã¾ãŠã†ï¼ˆå®Ÿè¡Œæ™‚ã‚³ãƒ³ãƒ‘ã‚¤ãƒ©ã‚’ä½¿ãŠã†ï¼‰ã¨ã„ã†ã®ãŒå¤§ã¾ã‹ãªç™ºæƒ³ã§ã™ã€‚

ã‚ˆã‚Šè©³ç´°ãªè§£èª¬ã¯ä»¥ä¸‹ã®è¨˜äº‹ãŒéžå¸¸ã«ã‚ã‹ã‚Šã‚„ã™ã„ã§ã™ã€‚

towardsdatascience.com

ç°¡å˜ã«è§£èª¬ã™ã‚‹ã¨ã€ - Torchscriptã¯ä¸é–“è¡¨ç¾ã‚³ãƒ¼ãƒ‰ - ã“ã®ä¸é–“è¡¨ç¾ã¯å†…éƒ¨çš„ã«æœ€é©åŒ–ã•ã‚Œã¦ãŠã‚Šã€å®Ÿè¡Œæ™‚ã« pytorchã®å®Ÿè¡Œæ™‚ã‚³ãƒ³ãƒ‘ã‚¤ãƒ©ã§ã‚ã‚‹PyTorch JIT compilationã‚’åˆ©ç”¨ã™ã‚‹ã€‚ - PyTorch JIT compilationã¯pythonãƒ©ãƒ³ã‚¿ã‚¤ãƒ ã‹ã‚‰ç‹¬ç«‹ã—ã¦ãŠã‚Šã€å®Ÿè¡Œæ™‚ã®æƒ…å ±ã‚’ç”¨ã„ã¦ä¸é–“è¡¨ç¾ã‚’æœ€é©åŒ–ã™ã‚‹

å®Ÿè£…ã‚³ãƒ¼ãƒ‰ã¯ä»¥ä¸‹ã«ãªã‚Šã¾ã™ã€‚ torchscriptã«ã¯traceã¨scriptã®äºŒã¤ã®ä½œæˆæ–¹æ³•ãŒã‚ã‚Šã¾ã™ãŒã€ã“ã“ã§ã¯å¾Œã‹ã‚‰ã§ã‚‚ç°¡å˜ã«ä½œæˆã§ãã‚‹traceã‚’ç”¨ã„ã¾ã™ã€‚

def torchscript_transform(model):
  model = torch.jit.trace(model, (SANPLE_INTPUT))
  return model

max_length

inputã®max_lengthã‚’åˆ¶é™ã—ã¦å…¥åŠ›ãƒ‡ãƒ¼ã‚¿ã‚’è»½ãã—ã¾ã™ã€‚ transformersã§å‰å‡¦ç†ã‚’è¡Œã†å ´åˆã€ä»¥ä¸‹ã®ã‚ˆã†ãªå®Ÿè£…ã«ãªã‚Šã¾ã™ã€‚

from transformers import BertTokenizer

MAX_LENGTH = 512

tokenizer = BertTokenizer.from_pretrained("hoge_pretrain")

data = tokenizer.encode_plus(
            TEXT,
            add_special_tokens=True,
            max_length=MAX_LENGTH,
            padding="max_length",
            truncation=True,
            return_tensors="pt",
        )

do_not_pad

ã“ã®æ‰‹æ³•ã¯batch_size==1ã§æŽ¨è«–ã™ã‚‹å ´åˆã«åˆ©ç”¨å¯èƒ½ãªæ‰‹æ³•ã§ã™ã€‚

é€šå¸¸batchæŽ¨è«–ã‚’ã™ã‚‹ãŸã‚ã«å…¥åŠ›ãƒ‡ãƒ¼ã‚¿ã®paddingãŒå¿…è¦ã§ã™ãŒã€batch_size==1ã®çŠ¶æ³ä¸‹ã§ã¯ãƒ‘ãƒ‡ã‚£ãƒ³ã‚°ã‚’è¡Œã‚ãšã«æŽ¨è«–ã™ã‚‹ã“ã¨ãŒã§ãã¾ã™ã€‚

å®Ÿè£…ã¯ä»¥ä¸‹ã«ãªã‚Šã¾ã™ã€‚paddingå¼•æ•°ã«'do_not_pad'ã‚’è¨å®šã™ã‚‹ã ã‘ã§ã™ã€‚

from transformers import BertTokenizer

tokenizer = BertTokenizer.from_pretrained("hoge_pretrain")

data = tokenizer.encode_plus(
            TEXT,
            add_special_tokens=True,
            max_length=512,
            padding="do_not_pad",
            truncation=True,
            return_tensors="pt",
        )

å®Ÿé¨“æ–¹æ³•

ä»Šå›žã®å®Ÿé¨“ã¯ç²¾åº¦ã¨é€Ÿåº¦ã®ãƒˆãƒ¬ãƒ¼ãƒ‰ã‚ªãƒ•ã‚’æ¸¬å®šã™ã‚‹ã“ã¨ãŒä¸»çœ¼ã§ã‚ã‚‹ãŸã‚ã€ä¸å¯§ã«ç²¾åº¦ã®èª¿æŸ»ã‚’è¡Œã„ã¾ã™ã€‚

ç’°å¢ƒ

å®Ÿè¡Œç’°å¢ƒã¯google colabã§çµ±ä¸€ã—ã¦ã‚ã‚Šã¾ã™ã€‚

Dataset

å¾Œè¿°ã—ã¾ã™ãŒã€ãƒ‡ãƒ¼ã‚¿ã‚»ãƒƒãƒˆã«ã‚ˆã£ã¦æœ‰åŠ¹ãªæ‰‹æ³•ãŒå¤‰ã‚ã‚‹ãŸã‚ç‰¹æ€§ãŒç•°ãªã‚‹è¤‡æ•°ã®ã‚µãƒ³ãƒ—ãƒ«ã‚¿ã‚¹ã‚¯ã‚’ç”¨æ„ã—ã¾ã—ãŸã€‚

ä¸€æ–‡ãŒé•·ã„ãƒ‡ãƒ¼ã‚¿ã‚»ãƒƒãƒˆ(livedoorãƒˆãƒ”ãƒƒã‚¯åˆ†é¡ž)
ä¸€æ–‡ãŒçŸã„ãƒ‡ãƒ¼ã‚¿ã‚»ãƒƒãƒˆ(twitteræ„Ÿæƒ…åˆ†é¡žã€ãƒã‚¸ãƒã‚¬ã®2å€¤åˆ†é¡žã§æ¤œè¨¼)

modelã«ã¤ã„ã¦

ä»¥ä¸‹ã®è¨å®šã§fine tune
- epoch: 30ï¼ˆpatient==5ï¼‰
- optimizer: Adam(lr1==0.00005,lr2==0.0001)
- max_lengthã¯twitter taskã§ã¯128, livedoorã§ã¯512
base model :æ±åŒ—å¤§å¦ï¼ˆcl-tohoku/bert-base-japanese-whole-word-masking · Hugging Faceï¼‰
- æœ€çµ‚4å±¤ã®CLSãƒˆãƒ¼ã‚¯ãƒ³ã®ãƒ™ã‚¯ãƒˆãƒ«ã‚’concatã—ã¦åˆ©ç”¨ï¼ˆå‚è€ƒï¼šGoogle QUEST Q&A Labeling | Kaggleï¼‰
- æœ€çµ‚4å±¤ã¨classification headã‚’fine tune
- æœ€çµ‚4å±¤ã®å¦ç¿’çŽ‡ã¯lr1
- classification headã®å¦ç¿’çŽ‡ã¯lr2
distli model : bandai namcoï¼ˆbandainamco-mirai/distilbert-base-japanese · Hugging Faceï¼‰
- æœ€çµ‚3å±¤ã®CLSãƒˆãƒ¼ã‚¯ãƒ³ã®ãƒ™ã‚¯ãƒˆãƒ«ã‚’concatã—ã¦åˆ©ç”¨
- æœ€çµ‚3å±¤ã¨classification headã‚’fine tune
- æœ€çµ‚3å±¤ã®å¦ç¿’çŽ‡ã¯lr1
- classification headã®å¦ç¿’çŽ‡ã¯lr2

ç²¾åº¦è©•ä¾¡æ–¹æ³•

ã¾ãš8:2ã§train/testã«åˆ†å‰²
trainã®ã¿ã‚’åˆ©ç”¨ã—ã€5fold stratified cross validationï¼ˆå…¨ã¦ã®å®Ÿé¨“ã§foldã¯å›ºå®šï¼‰ã§ãƒ¢ãƒ‡ãƒ«ã‚’å¦ç¿’
5ã¤ã®ãƒ¢ãƒ‡ãƒ«ã§ãã‚Œãžã‚Œtestã«å¯¾ã—ã¦æŽ¨è«–ã€averageã—ãŸã‚‚ã®ã‚’testã®äºˆæ¸¬å€¤ã¨ã™ã‚‹ã€‚
cvã¨testã®acc & f1 macroã§æ¯”è¼ƒ

é€Ÿåº¦è©•ä¾¡æ–¹æ³•

testã‚»ãƒƒãƒˆã‹ã‚‰ãƒ©ãƒ³ãƒ€ãƒ ã«500å€‹ã®ãƒ‡ãƒ¼ã‚¿ã‚’ã‚µãƒ³ãƒ—ãƒªãƒ³ã‚°ã—(å…¨ã¦ã®å®Ÿé¨“ã§å…±é€š)ã€batch_size==1ã§æŽ¨è«–
å„ãƒ‡ãƒ¼ã‚¿ã«å¯¾ã™ã‚‹æŽ¨è«–æ™‚é–“ã®å¹³å‡å€¤ã¨æ¨™æº–åå·®ã§è©•ä¾¡

çµæžœ

ã¾ãšã€å„æ‰‹æ³•ã«å¯¾ã™ã‚‹test scoreã¨é€Ÿåº¦ã®plotã¯ä»¥ä¸‹ã®ã‚ˆã†ã«ãªã‚Šã¾ã—ãŸã€‚ ã‚°ãƒ©ãƒ•ã®è¦‹æ–¹ã§ã™ãŒã€ä»¥ä¸‹ã®é€šã‚Šã§ã™ã€‚

ä¸€ç•ªå·¦ãŒãƒ™ãƒ¼ã‚¹ãƒ©ã‚¤ãƒ³
èµ¤ã¨é»„è‰²ã®ãƒãƒ¼ã¯ç²¾åº¦ã‚’è¡¨ã—ã¦ãŠã‚Šä¸Šæ–¹å‘ã®æ–¹ãŒè‰¯ã„
é’ã„ç‚¹ã¯æŽ¨è«–æ™‚é–“ã§ä¸‹æ–¹å‘ã®æ–¹ãŒè‰¯ã„
ã‚¨ãƒ©ãƒ¼ãƒãƒ¼ã¯æ¨™æº–åå·®

twitteræ„Ÿæƒ…åˆ†é¡ž

f:id:haraso1130:20210824180416p:plain — twitterãƒ‡ãƒ¼ã‚¿ã«å¯¾ã™ã‚‹ç²¾åº¦ã¨é€Ÿåº¦

livedoorãƒˆãƒ”ãƒƒã‚¯åˆ†é¡ž

f:id:haraso1130:20210824180443p:plain — livedoorãƒ‡ãƒ¼ã‚¿ã«å¯¾ã™ã‚‹ç²¾åº¦ã¨é€Ÿåº¦

twitteræ„Ÿæƒ…åˆ†é¡ž

æ‰‹æ³•	cv acc (f1-macro)	test acc (f1-macro)	å¹³å‡æŽ¨è«–é€Ÿåº¦(s)	æ¨™æº–åå·®(s)
BASELINE	0.8295 (0.8193)	0.8363 (0.8256)	0.2150	0.0050
quantization	0.8223 (0.8092)	0.8283 (0.8150)	0.1700	0.0048
distillation	0.8388 (0.8313)	0.8292 (0.8220)	0.1547	0.0076
max_length:64	0.8212 (0.8103)	0.8250 (0.8138)	0.1156	0.0036
do_not_pad	0.8295 (0.8193)	0.8363 (0.8256)	0.0987	0.0290
torchscript	0.8295 (0.8193)	0.8363 (0.8256)	0.1847	0.0080
pruning: 0.2	0.8327 (0.8226)	0.8283 (0.8173)	0.2124	0.0043
pruning: 0.4	0.8095 (0.7972)	0.8229 (0.8100)	0.1925	0.0041
pruning: 0.6	0.7097 (0.6787)	0.7597 (0.7198)	0.1925	0.0044
pruning: 0.8	0.5809 (0.5024)	0.6220 (0.3834)	0.1912	0.0046

livedoorãƒˆãƒ”ãƒƒã‚¯åˆ†é¡ž

æ‰‹æ³•	cv acc (f1-macro)	test acc (f1-macro)	å¹³å‡æŽ¨è«–é€Ÿåº¦(s)	æ¨™æº–åå·®(s)
BASELINE	0.9238 (0.9180)	0.9348 (0.9285)	0.7500	0.0079
quantization	0.9022 (0.8962)	0.9246 (0.9199)	0.6565	0.0068
distillation	0.8581 (0.8494)	0.8723 (0.8646)	0.5128	0.0079
max_length:256	0.8691 (0.8630)	0.8676 (0.8605)	0.4511	0.0062
do_not_pad	0.9238 (0.9180)	0.9348 (0.9285)	0.7012	0.0926
torchscript	0.9238 (0.9180)	0.9348 (0.9285)	0.7222	0.0083
pruning: 0.2	0.9204 (0.9144)	0.9355 (0.9302)	0.7633	0.0083
pruning: 0.4	0.8674 (0.8624)	0.8900 (0.8846)	0.7682	0.0084
pruning: 0.6	0.1973 (0.1176)	0.2057 (0.1025)	0.7496	0.1045
pruning: 0.8	0.1360 (0.0950)	0.1140 (0.0227)	0.7287	0.0075

è€ƒå¯Ÿ

ãã‚Œãžã‚Œã®æ‰‹æ³•ã«ã¤ã„ã¦ã‚ˆã‚Šæ€§èƒ½ã‚’ã‚ã‹ã‚Šã‚„ã™ãè¡¨ç¤ºã™ã‚‹ãŸã‚BASEã®ç²¾åº¦ã¨é€Ÿåº¦ã‚’1ã¨ã—ã€å„æ‰‹æ³•ã®æ€§èƒ½ã‚’è€ƒå¯Ÿã—ã¦ã„ãã¾ã™ã€‚

twitteræ„Ÿæƒ…åˆ†é¡ž

f:id:haraso1130:20210824180325p:plain — Twitterãƒ‡ãƒ¼ã‚¿ã«å¯¾ã™ã‚‹ç›¸å¯¾çš„ãªç²¾åº¦ã¨é€Ÿåº¦

livedoorãƒˆãƒ”ãƒƒã‚¯åˆ†é¡ž

f:id:haraso1130:20210824180428p:plain — livedoorãƒ‡ãƒ¼ã‚¿ã«å¯¾ã™ã‚‹ç›¸å¯¾çš„ãªç²¾åº¦ã¨é€Ÿåº¦

quantizationï¼ˆé‡ååŒ–ï¼‰

ã©ã¡ã‚‰ã®ã‚¿ã‚¹ã‚¯ã«ãŠã„ã¦ã‚‚æ®†ã©ç²¾åº¦ã‚’è½ã¨ã•ãšã«æŽ¨è«–æ™‚é–“ã‚’10~20%ã»ã©å‰Šæ¸›ã™ã‚‹ã“ã¨ãŒå¯èƒ½ã§ã™ã€‚ å®Ÿè£…ã‚‚å®¹æ˜“ã§ã‚ã‚‹ãŸã‚ã€é«˜é€ŸåŒ–ã®éš›ã«ã¯ã¾ãšè©¦ã—ã¦ã¿ãŸã„æ‰‹æ³•ã§ã™ã€‚

distillationï¼ˆè’¸ç•™ï¼‰

ç²¾åº¦é¢ã§ã¯ã‚¿ã‚¹ã‚¯ã«ã‚ˆã£ã¦å¤§ããçµæžœãŒç•°ãªã‚‹ã“ã¨ãŒã‚ã‹ã‚Šã¾ã™ã€‚ twitterãƒ‡ãƒ¼ã‚¿ã«å¯¾ã—ã¦ã¯æ®†ã©ç²¾åº¦ä½Žä¸‹ãŒè¦‹ã‚Œã‚‰ã¾ã›ã‚“ãŒã€livedoorãƒ‡ãƒ¼ã‚¿ã«å¯¾ã—ã¦ã¯ã‚ã‚‹ç¨‹åº¦ã®ç²¾åº¦ä½Žä¸‹ãŒèªã‚ã‚‰ã‚Œã¾ã™ã€‚

max_length

ã©ã¡ã‚‰ã®ã‚¿ã‚¹ã‚¯ã§ã‚‚æŽ¨è«–æ™‚é–“ã‚’40%~45ï¼…ã»ã©å‰Šæ¸›ã§ãã¦ãŠã‚Šã€é«˜é€ŸåŒ–ã«ãŠã„ã¦æœ€ã‚‚å®‰å®šã—ã¦å¯„ä¸Žã—ãŸã¨ã„ãˆã¾ã™ã€‚

éžå¸¸ã«ã‚¤ãƒ³ãƒ‘ã‚¯ãƒˆãŒå¤§ããã‚»ãƒ³ã‚·ãƒ†ã‚£ãƒ–ãªãƒ‘ãƒ©ãƒ¡ãƒ¼ã‚¿ã§ã‚ã‚‹ãŸã‚ã€ã‚ã‚‹ç¨‹åº¦é€Ÿåº¦ãŒæ±‚ã‚ã‚‰ã‚Œã‚‹ã‚·ãƒãƒ¥ã‚¨ãƒ¼ã‚·ãƒ§ãƒ³ã®å ´åˆã€ã¾ãšåˆã‚ã«ãƒãƒ¥ãƒ¼ãƒ‹ãƒ³ã‚°ã™ã¹ããƒ‘ãƒ©ãƒ¡ãƒ¼ã‚¿ã§ã™ã€‚

do_not_pad

ã“ã®æ‰‹æ³•ã¯ãƒ‡ãƒ¼ã‚¿ã‚»ãƒƒãƒˆã«ã‚ˆã£ã¦å¤§ããåŠ¹æžœãŒç•°ãªã‚‹çµæžœã¨ãªã‚Šã¾ã—ãŸãŒã€ç²¾åº¦ã¯ä¸å¤‰ã§ã‚ã‚‹ãŸã‚ã€ãƒãƒƒãƒå‡¦ç†ãŒä¸å¯èƒ½ãªçŠ¶æ³ä¸‹ã§ã¯ç©æ¥µçš„ã«åˆ©ç”¨ã™ã¹ãã§ã™ã€‚

ç‰¹ã«æœ€å¤§æ–‡å—æ•°ãŒå°‘ãªãã€æ–‡å—æ•°ã®åˆ†æ•£ãŒå¤§ãã„ã¨è€ƒãˆã‚‰ã‚Œã‚‹ãƒ„ã‚¤ãƒƒã‚¿ãƒ¼ãƒ‡ãƒ¼ã‚¿ã‚»ãƒƒãƒˆã§ã¯do_not_padã®å½±éŸ¿ã¯å¤§ããã€è‘¯50%ã®æŽ¨è«–æ™‚é–“ã‚’ã‚»ãƒ¼ãƒ–ã™ã‚‹ã“ã¨ãŒã§ãã¾ã—ãŸã€‚

torchscript

ç²¾åº¦ã‚’è½ã¨ã•ãšã«ã€å°‘ã—ã§ã¯ã‚ã‚Šã¾ã™ãŒæŽ¨è«–é€Ÿåº¦ã‚’å‘ä¸Šã•ã›ã‚‹ã“ã¨ãŒã§ãã¾ã™ã€‚

ã¾ãŸã€torchscriptã¯ãã®ä»–ã«ã‚‚å¤šãã®ãƒ¡ãƒªãƒƒãƒˆã‚’æœ‰ã—ã¦ãŠã‚Šï¼ˆPythonä»¥å¤–ã®ãƒ©ãƒ³ã‚¿ã‚¤ãƒ ã§å®Ÿè¡Œå¯èƒ½ã€æŽ¨è«–æ™‚ã«ãƒãƒƒãƒˆãƒ¯ãƒ¼ã‚¯ã®å®šç¾©ãŒä¸è¦ãªã©ï¼‰ã€ãƒ—ãƒãƒ€ã‚¯ã‚·ãƒ§ãƒ³ã«ãƒ‡ãƒ—ãƒã‚¤ã™ã‚‹éš›ã¯ONNXç‰ã¨ä¸¦ã¶é¸æŠžè‚¢ã¨ãªã‚Šã¾ã™ã€‚

Pruning

ä»Šå›žã®å®Ÿé¨“ã§ã¯ã‹ãªã‚Šå¾®å¦™ãªçµæžœã§ã—ãŸã€‚

twittterãƒ‡ãƒ¼ã‚¿ã‚»ãƒƒãƒˆã§ã¯pruningï¼š0.4ã§10%ã»ã©ã®æŽ¨è«–æ™‚é–“å‰Šæ¸›ã‚’é”æˆã—ã¾ã—ãŸãŒã€ãã®ä»–ã®æ‰‹æ³•ã®ãƒˆãƒ¬ãƒ¼ãƒ‰ã‚ªãƒ•ã¨æ¯”è¼ƒã™ã‚‹ã¨ã‚³ã‚¹ãƒˆãƒ‘ãƒ•ã‚©ãƒ¼ãƒžãƒ³ã‚¹ãŒä½Žã„å°è±¡ã§ã™ã€‚ãã®ä»–ã®æ‰‹æ³•ã‚’å…¨ã¦é©å¿œã—ãŸå¾Œã€ãã‚Œã§ã‚‚é«˜é€ŸåŒ–ãŒå¿…è¦ãªã‚‰ã°æ¤œè¨Žã™ã‚‹ã€ã¨ã„ã£ãŸã‚‚ã®ã«ãªã‚‹ã§ã—ã‚‡ã†ã€‚

ã¾ãŸã€livedoorãƒ‡ãƒ¼ã‚¿ã‚»ãƒƒãƒˆã«ãŠã„ã¦ã¯ã¾ã•ã‹ã®ä½Žé€ŸåŒ–ã«å¯„ä¸Žã™ã‚‹çµæžœã¨ãªã£ã¦ã—ã¾ã„ã¾ã—ãŸã€‚

ã¾ã¨ã‚

æœ¬è¨˜äº‹ã§ã¯NLPãƒ¢ãƒ‡ãƒ«ã‚’é«˜é€Ÿã«CPUä¸Šã§å‹•ä½œã•ã›ã‚‹ãŸã‚ã€å„é«˜é€ŸåŒ–æ‰‹æ³•ã«ã¤ã„ã¦æ¤œè¨¼ã—ã¦ãã¾ã—ãŸã€‚ ã‚¿ã‚¹ã‚¯ã«ã‚ˆã£ã¦å„æ‰‹æ³•ã®ãƒ‘ãƒ•ã‚©ãƒ¼ãƒžãƒ³ã‚¹ãŒå¤§ããç•°ãªã‚‹ãŸã‚ã€å¿…è¦ãªç²¾åº¦ã¨é€Ÿåº¦ã‚’è¦‹æ¥µã‚ãŸå¾Œã€æœ€é©ãªé«˜é€ŸåŒ–æ‰‹æ³•ã®çµ„ã¿åˆã‚ã›ã‚’æ¨¡ç´¢ã™ã‚‹ã“ã¨ãŒé‡è¦ã§ã™ã€‚

ãã®ä»–ã«ã‚‚æœ‰åŠ¹ãªé«˜é€ŸåŒ–æ‰‹æ³•ãŒã‚ã‚Œã°æ•™ãˆã¦ãã ã•ã‚‹ã¨å¹¸ã„ã§ã™ã€‚

èƒŒæ™¯

ã¾ã¨ã‚

å„æ‰‹æ³•ã®èª¬æ˜Žã¨å®Ÿè£…ã‚³ãƒ¼ãƒ‰

quantizationï¼ˆé‡å­åŒ–ï¼‰

distillationï¼ˆè’¸ç•™ï¼‰

pruningï¼ˆå‰ªå®šï¼‰

torchscriptï¼ˆJitï¼‰

max_length

do_not_pad

å®Ÿé¨“æ–¹æ³•

ç’°å¢ƒ

Dataset

modelã«ã¤ã„ã¦

ç²¾åº¦è©•ä¾¡æ–¹æ³•

é€Ÿåº¦è©•ä¾¡æ–¹æ³•

çµæžœ

twitteræ„Ÿæƒ…åˆ†é¡ž

livedoorãƒˆãƒ”ãƒƒã‚¯åˆ†é¡ž

twitteræ„Ÿæƒ…åˆ†é¡ž

livedoorãƒˆãƒ”ãƒƒã‚¯åˆ†é¡ž

è€ƒå¯Ÿ

twitteræ„Ÿæƒ…åˆ†é¡ž

livedoorãƒˆãƒ”ãƒƒã‚¯åˆ†é¡ž

quantizationï¼ˆé‡å­åŒ–ï¼‰

distillationï¼ˆè’¸ç•™ï¼‰

max_length

do_not_pad

torchscript

Pruning

ã¾ã¨ã‚

å‚è€ƒ

ã¾ã¨ã‚

å„æ‰‹æ³•ã®èª¬æ˜Žã¨å®Ÿè£…ã‚³ãƒ¼ãƒ‰

quantizationï¼ˆé‡ååŒ–ï¼‰

modelã«ã¤ã„ã¦

çµæžœ

quantizationï¼ˆé‡ååŒ–ï¼‰

ã¾ã¨ã‚

å‚è€ƒ