BigBird: Transformers for Longer Sequences에서 소개된 sparse-attention 기반의 모델로, 일반적인 BERT보다 더 긴 sequence를 다룰 수 있습니다.
🦅 Longer Sequence - 최대 512개의 token을 다룰 수 있는 BERT의 8배인 최대 4096개의 token을 다룸
⏱️ Computational Efficiency - Full attention이 아닌 Sparse Attention을 이용하여 O(n2)에서 O(n)으로 개선
- 🤗 Huggingface Hub에 업로드된 모델을 곧바로 사용할 수 있습니다:)
- 일부 이슈가 해결된
transformers>=4.11.0
사용을 권장합니다. (MRC 이슈 관련 PR) - BigBirdTokenizer 대신에
BertTokenizer
를 사용해야 합니다. (AutoTokenizer
사용시BertTokenizer
가 로드됩니다.) - 자세한 사용법은 BigBird Tranformers documentation을 참고해주세요.
from transformers import AutoModel, AutoTokenizer
model = AutoModel.from_pretrained("monologg/kobigbird-bert-base") # BigBirdModel
tokenizer = AutoTokenizer.from_pretrained("monologg/kobigbird-bert-base") # BertTokenizer
자세한 내용은 [Pretraining BigBird] 참고
Hardware | Max len | LR | Batch | Train Step | Warmup Step | |
---|---|---|---|---|---|---|
KoBigBird-BERT-Base | TPU v3-8 | 4096 | 1e-4 | 32 | 2M | 20k |
- 모두의 말뭉치, 한국어 위키, Common Crawl, 뉴스 데이터 등 다양한 데이터로 학습
ITC (Internal Transformer Construction)
모델로 학습 (ITC vs ETC)
자세한 내용은 [Finetune on Short Sequence Dataset] 참고
NSMC (acc) |
KLUE-NLI (acc) |
KLUE-STS (pearsonr) |
Korquad 1.0 (em/f1) |
KLUE MRC (em/rouge-w) |
|
---|---|---|---|---|---|
KoELECTRA-Base-v3 | 91.13 | 86.87 | 93.14 | 85.66 / 93.94 | 59.54 / 65.64 |
KLUE-RoBERTa-Base | 91.16 | 86.30 | 92.91 | 85.35 / 94.53 | 69.56 / 74.64 |
KoBigBird-BERT-Base | 91.18 | 87.17 | 92.61 | 87.08 / 94.71 | 70.33 / 75.34 |
자세한 내용은 [Finetune on Long Sequence Dataset] 참고
TyDi QA (em/f1) |
Korquad 2.1 (em/f1) |
Fake News (f1) |
Modu Sentiment (f1-macro) |
|
---|---|---|---|---|
KLUE-RoBERTa-Base | 76.80 / 78.58 | 55.44 / 73.02 | 95.20 | 42.61 |
KoBigBird-BERT-Base | 79.13 / 81.30 | 67.77 / 82.03 | 98.85 | 45.42 |
- Pretraining BigBird
- Finetune on Short Sequence Dataset
- Finetune on Long Sequence Dataset
- Download Tensorflow v1 checkpoint
- GPU Benchmark result
KoBigBird를 사용하신다면 아래와 같이 인용해주세요.
@software{jangwon_park_2021_5654154,
author = {Jangwon Park and Donggyu Kim},
title = {KoBigBird: Pretrained BigBird Model for Korean},
month = nov,
year = 2021,
publisher = {Zenodo},
version = {1.0.0},
doi = {10.5281/zenodo.5654154},
url = {https://doi.org/10.5281/zenodo.5654154}
}
KoBigBird는 Tensorflow Research Cloud (TFRC) 프로그램의 Cloud TPU 지원으로 제작되었습니다.
또한 멋진 로고를 제공해주신 Seyun Ahn님께 감사를 전합니다.