Name		Name	Last commit message	Last commit date
Latest commit History 39 Commits
corpus		corpus
model		model
outputBERT		outputBERT
.gitignore		.gitignore
BERT_pretrained_transformers.ipynb		BERT_pretrained_transformers.ipynb
Dockerfile_CPU		Dockerfile_CPU
Dockerfile_GPU		Dockerfile_GPU
LICENSE		LICENSE
README.md		README.md
check.py		check.py
main.py		main.py
requirements.txt_CPU		requirements.txt_CPU
requirements.txt_GPU		requirements.txt_GPU
tohoku-bert-retrain.py		tohoku-bert-retrain.py

Repository files navigation

できること

フルスクラッチのデータからtransformersライブラリを利用してBERTの事前学習を行う
東北大学の日本語学習モデル(wikipedia)からさらに任意のコーパスで再事前学習を行う

imagesの作成

docker build -t bert-ja-transformers .

事前学習を行うコーパスを用意する

1行に1文のテキストを用意する

フルスクラッチからの事前学習

トークン化： sentencepiece
tokenizer: ALBERT(sentencepieceに対応)
model: BertForMaskedLM

docker run -it --rm -v $PWD:/work -p 8888:8888 bert-ja-transformers
python main.py

事前学習モデルからさらに任意のコーパスで再事前学習

トークン化/tokenizer： Mecab + wordpiece(事前学習モデルに準ずる)
model: BertForMaskedLM

docker run -it --rm -v $PWD:/work -p 8888:8888 bert-ja-transformers
python tohoku-bert-retrain.py /work/corpus/corpus.txt /work/outputBERT/

参考にしたサイト

https://qiita.com/m__k/items/6f71ab3eca64d98ec4fc https://github.com/yoheikikuta/bert-japanese

About

No description, website, or topics provided.

Report repository

Releases

No releases published

Packages

No packages published

Languages