- フルスクラッチのデータからtransformersライブラリを利用してBERTの事前学習を行う
- 東北大学の日本語学習モデル(wikipedia)からさらに任意のコーパスで再事前学習を行う
docker build -t bert-ja-transformers .
1行に1文のテキストを用意する
- トークン化: sentencepiece
- tokenizer: ALBERT(sentencepieceに対応)
- model: BertForMaskedLM
docker run -it --rm -v $PWD:/work -p 8888:8888 bert-ja-transformers
python main.py
- トークン化/tokenizer: Mecab + wordpiece(事前学習モデルに準ずる)
- model: BertForMaskedLM
docker run -it --rm -v $PWD:/work -p 8888:8888 bert-ja-transformers
python tohoku-bert-retrain.py /work/corpus/corpus.txt /work/outputBERT/
https://qiita.com/m__k/items/6f71ab3eca64d98ec4fc https://github.com/yoheikikuta/bert-japanese