Обучение GPT-2 на русском языке

Обучаю модель GPT-2 на русскоязычном датасете с помощью Huggingface Transformers.

Установка

git clone https://github.com/lenjjiv/Pretrain-GPT.git
cd Pretrain-GPT

python -m venv venv
source venv/bin/activate  # для Linux/MacOS
# или
venv\Scripts\activate     # для Windows

pip install -r requirements.txt

Обучение

Для обучения:

python scripts/train.py

Пайплайн:

Подготовка токенизатора
Инициализация модели
Загрузка и подготовка датасета
Обучение модели
Сохранение

Инференс

from src.generator import TextGenerator

generator = TextGenerator(
    model_path="./gpt2_finetuned_final",
    device=0  # используйте -1 для CPU
)

text = generator.generate(
    prompt="some_text",
    max_length=100,
    temperature=0.8
)
print(text)

Параметры обучения

Параметры можно найти в src/trainer.py:

epochs: 5
batch_size: 16
learning_rate: 5e-5
gradient_accumulation: 10
max_length: 512 токенов

Технические детали

base_model: GPT-2
dataset: Alpaca Russian
vocab_size: 20,000 токенов (обрезанный словарь токенизатора ai-forever/sbert_large_nlu_ru)
hidden_dim: 384 (768/2)
num_transformer_blocks: 12
attention_heads: 12

Name		Name	Last commit message	Last commit date
Latest commit History 12 Commits
scripts		scripts
src		src
.gitignore		.gitignore
LICENSE		LICENSE
README.md		README.md
requirements.txt		requirements.txt

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

Обучение GPT-2 на русском языке

Установка

Обучение

Инференс

Параметры обучения

Технические детали

About

Releases

Packages

Languages

License

lenjjiv/Pretrain-GPT

Folders and files

Latest commit

History

Repository files navigation

Обучение GPT-2 на русском языке

Установка

Обучение

Инференс

Параметры обучения

Технические детали

About

Resources

License

Stars

Watchers

Forks

Releases

Packages 0

Languages

Packages