2025-02-24

OuteTTSã‚’Dockerã‚’ä½¿ã£ã¦Windowsã§å‹•ã‹ã™

AI Python

åˆã‚ã«

ä»¥ä¸‹ã®OuteTTSã‚’ãƒãƒ¼ã‚«ãƒ«ç’°å¢ƒã§å‹•ã‹ã—ã¦ã„ãã¾ã™ã€‚

github.com

ä»¥ä¸‹ã®ãƒªãƒã‚¸ãƒˆãƒªã«è¨˜äº‹ã®å†…å®¹ã‚’å…¬é–‹ã—ã¦ã„ã¾ã™ã€‚

github.com

é–‹ç™ºç’°å¢ƒ

Windows
Docker

Dockerç’°å¢ƒã®ä½œæˆ

ä»¥ä¸‹ã®ã‚ˆã†ãªDockerfileã‚’ä½œã‚Šã¾ã™

# ãƒ™ãƒ¼ã‚¹ã‚¤ãƒ¡ãƒ¼ã‚¸: CUDA 12.4 Runtime + Ubuntu 22.04
FROM nvidia/cuda:12.4.0-runtime-ubuntu22.04

# ç’°å¢ƒå¤‰æ•°ã®è¨å®š
ENV DEBIAN_FRONTEND=noninteractive
ENV TZ=Asia/Tokyo

# å¿…è¦ãªã‚·ã‚¹ãƒ†ãƒ ãƒ‘ãƒƒã‚±ãƒ¼ã‚¸ã®ã‚¤ãƒ³ã‚¹ãƒˆãƒ¼ãƒ«ï¼ˆCã‚³ãƒ³ãƒ‘ã‚¤ãƒ©ç‰ï¼‰
RUN apt-get update && \
    apt-get install -y --no-install-recommends \
        software-properties-common \
        wget \
        libsndfile1 \
        tzdata \
        build-essential && \
    ln -fs /usr/share/zoneinfo/Asia/Tokyo /etc/localtime && \
    dpkg-reconfigure -f noninteractive tzdata && \
    apt-get clean && rm -rf /var/lib/apt/lists/*

# Python3.11ã€pipã€ãŠã‚ˆã³Pythoné–‹ç™ºãƒ‘ãƒƒã‚±ãƒ¼ã‚¸ã®ã‚¤ãƒ³ã‚¹ãƒˆãƒ¼ãƒ«
RUN add-apt-repository ppa:deadsnakes/ppa -y && \
    apt-get update && \
    apt-get install -y --no-install-recommends \
        python3.11 \
        python3.11-distutils \
        python3.11-dev && \
    wget -qO /tmp/get-pip.py https://bootstrap.pypa.io/get-pip.py && \
    python3.11 /tmp/get-pip.py && \
    rm /tmp/get-pip.py

# python3 ã‚³ãƒžãƒ³ãƒ‰ã‚’ Python3.11 ã«ãƒªãƒ³ã‚¯
RUN update-alternatives --install /usr/bin/python3 python3 /usr/bin/python3.11 1

# python ã‚³ãƒžãƒ³ãƒ‰ã‚‚ Python3.11 ã‚’æŒ‡ã™ã‚ˆã†ã«ã‚·ãƒ³ãƒœãƒªãƒƒã‚¯ãƒªãƒ³ã‚¯ã‚’ä½œæˆ
RUN ln -sf /usr/bin/python3.11 /usr/bin/python

# ä½œæ¥ãƒ‡ã‚£ãƒ¬ã‚¯ãƒˆãƒªã®è¨å®š
WORKDIR /app

# ãƒãƒ¼ã‚«ãƒ«ã®requirements.txtã‚’ã‚³ãƒ³ãƒ†ãƒŠã«ã‚³ãƒ”ãƒ¼
COPY requirements.txt /app/

# Pythonãƒ‘ãƒƒã‚±ãƒ¼ã‚¸ã®ã‚¤ãƒ³ã‚¹ãƒˆãƒ¼ãƒ«
RUN pip install --no-cache-dir -r requirements.txt

# ã‚½ãƒ¼ã‚¹ã‚³ãƒ¼ãƒ‰ã‚’å…¨ã¦ã‚³ãƒ”ãƒ¼
COPY . /app/

ã“ã‚Œã‚’ä»¥ä¸‹ã®ã‚³ãƒžãƒ³ãƒ‰ã§ãƒ“ãƒ«ãƒ‰ã—ã¦ã€å®Ÿè¡Œã—ã¾ã™ã€‚

docker build . -t oute-tts

å®Ÿè¡Œ

ã‚³ãƒ³ãƒ†ãƒŠã®ç«‹ã¡ä¸Šã’ã¯ä»¥ä¸‹ã§è¡Œã„ã¾ã™ã€‚

docker run -it --gpus all --rm -v "${PWD}:/work" oute-tts:latest bash

æŽ¨è«–ã¯ä»¥ä¸‹ã®ã‚ˆã†ãªã‚³ãƒ¼ãƒ‰ã‚’ä½œã£ã¦å®Ÿè¡Œã—ã¾ã™ã€‚åˆå›žå®Ÿè¡Œæ™‚ã¯ãƒ¢ãƒ‡ãƒ«ã®ãƒ€ã‚¦ãƒ³ãƒãƒ¼ãƒ‰ãŒã•ã‚Œã¾ã™ã€‚

import outetts

# Configure the model
model_config = outetts.HFModelConfig_v2(
    model_path="OuteAI/OuteTTS-0.3-1B",
    tokenizer_path="OuteAI/OuteTTS-0.3-1B"
)
# Initialize the interface
interface = outetts.InterfaceHF(model_version="0.3", cfg=model_config)

# You can create a speaker profile for voice cloning, which is compatible across all backends.
# speaker = interface.create_speaker(audio_path="path/to/audio/file.wav")
# interface.save_speaker(speaker, "speaker.json")
# speaker = interface.load_speaker("speaker.json")

# Print available default speakers
interface.print_default_speakers()
# Load a default speaker
speaker = interface.load_default_speaker(name="en_male_1")

# Generate speech
gen_cfg = outetts.GenerationConfig(
    text="Speech synthesis is the artificial production of human speech.",
    temperature=0.1,
    repetition_penalty=1.1,
    max_length=4096,
    speaker=speaker,
    # voice_characteristics="upbeat enthusiasm, friendliness, clarity, professionalism, and trustworthiness"
)
output = interface.generate(config=gen_cfg)

# Save the generated speech to a file
output.save("output.wav")

2025-02-21

Music2Emotionã‚’Windowsã§å‹•ã‹ã—ã¤ã¤youtubeã®URLã‚’æŒ‡å®šã§å‹•ãã‚ˆã†ã«ã—ã¦ã¿ã‚‹

Python AI

åˆã‚ã«

éŸ³æ¥½ã®æ„Ÿæƒ…ãƒ©ãƒ™ãƒ«ã®ãƒ©ã‚¤ãƒ–ãƒ©ãƒªãŠã‚ˆã³ãƒ¢ãƒ‡ãƒ«ãŒå…¬é–‹ã•ã‚ŒãŸã®ã§è§¦ã£ã¦ã„ãã¾ã™

github.com

å…¬å¼ã‹ã‚‰spaceã¯å‡ºã¦ã„ã¾ã™

huggingface.co

ãƒ‡ãƒ¢

ä»¥ä¸‹ã®ã‚ˆã†ã« youtubeã®URLã‚’æŒ‡å®šã—ã¦å®Ÿè¡Œã™ã‚‹ã¨éŸ³å£°ã®ãƒ€ã‚¦ãƒ³ãƒãƒ¼ãƒ‰ + åˆ†æžã‚’ã‚„ã£ã¦ãã‚Œã‚‹ã‚ˆã†ã«ã—ã¾ã™ã€‚

python sample_youtube.py https://youtu.be/Ljr2wMSBHqU

çµæžœ

ðŸŽµ **Music Emotion Recognition Results [ã€Offical Music Videoã€‘ã¿ã‚€ã‹ï½©ã‚ãƒŠã‚¤ã‚¹ãƒˆãƒ©ã‚¤ / Mimukauwa Nice Try]** ðŸŽµ
--------------------------------------------------
ðŸŽ **Predicted Mood Tags:** christmas, energetic, fast, fun, funny, game, groovy, happy, holiday, party, positive, retro, sexy, sport, summer, upbeat
ðŸ’– **Valence:** 6.30 (Scale: 1-9)
âš¡ **Arousal:** 7.49 (Scale: 1-9)
--------------------------------------------------

(ã¿ã‚€ã‹ï½©ã‚ãƒŠã‚¤ã‚¹ãƒˆãƒ©ã‚¤ ãªã®ã¯ã¡ã‚‡ã†ã©ãƒãƒžã£ã¦ã„ã‚‹ã‹ã‚‰ã§ã™)

é–‹ç™ºç’°å¢ƒ

Windows11

ç’°å¢ƒæ§‹ç¯‰

ã¾ãšã¯ç’°å¢ƒã‚’ä½œã‚Šã¾ã™ã€‚å…¬å¼ãŒ Python3.10ãŒã„ã„ã¨è¨€ã£ã¦ã„ã‚‹ã®ã§3.10ã§ä½œã£ã¦ã„ãã¾ã™ã€‚

uv venv -p 3.10
.venv\Scripts\activate

æ¬¡ã«ãƒ©ã‚¤ãƒ–ãƒ©ãƒªã‚’å…¥ã‚Œã¦ã„ãã¾ã™ã€‚

uv pip install -r .\requirements.txt

torchã¯cudaå¯¾å¿œã‚’å…¥ã‚Œã¾ã™

uv pip install torch==2.3.1 torchvision==0.18.1 torchaudio==2.3.1 --index-url https://download.pytorch.org/whl/cu121

ã“ã“ã§ã‚µãƒ³ãƒ—ãƒ«ã®ã‚³ãƒ¼ãƒ‰ã¯å‹•ãã‚ˆã†ã«ãªã‚Šã¾ã™ã€‚

æ¬¡ã«youtubeã‹ã‚‰ãƒ€ã‚¦ãƒ³ãƒãƒ¼ãƒ‰ã—ã¦ffmgpeã§mp3ã«å¤‰æ›ã§ãã‚‹ã‚ˆã†ã«ã—ã¦ã„ãã¾ã™ã€‚

youtubeã®å‹•ç”»ãƒ€ã‚¦ãƒ³ãƒãƒ¼ãƒ‰ç”¨ã®ãƒ©ã‚¤ãƒ–ãƒ©ãƒªã‚’å…¥ã‚Œã¾ã™

uv pip install yt-dlp

ffmpegå‘¨ã‚Šã¯ä»¥ä¸‹ã‹ã‚‰ãƒ€ã‚¦ãƒ³ãƒãƒ¼ãƒ‰ã—ã¦ãƒ‘ã‚¹ã‚’è¿½åŠ ã™ã‚Œã°å‹•ãã¾ã™(é•·ã„ã®ã§çœç•¥ã—ã¾ã™)

ffmpeg.org

å¼•æ•°ã«URLã‚’æŒ‡å®šã—ã¦å®Ÿè¡Œã™ã‚‹

ã‚µãƒ³ãƒ—ãƒ«ã‚³ãƒ¼ãƒ‰ã‚’ä¿®æ£ã—ã¦ã„ãã¾ã™ã€‚

import os
import sys
import yt_dlp
from music2emo import Music2emo

def download_audio_from_youtube(url, output_dir="inference/input"):
    # å‡ºåŠ›ãƒ‡ã‚£ãƒ¬ã‚¯ãƒˆãƒªãŒãªã‘ã‚Œã°ä½œæˆ
    os.makedirs(output_dir, exist_ok=True)
    
    # yt_dlpã®ã‚ªãƒ—ã‚·ãƒ§ãƒ³è¨å®šï¼ˆå‡ºåŠ›ãƒ•ã‚¡ã‚¤ãƒ«åã¯å›ºå®š: tmp.mp3ï¼‰
    ydl_opts = {
        'format': 'bestaudio/best',
        'outtmpl': os.path.join(output_dir, 'tmp.%(ext)s'),
        'postprocessors': [{
            'key': 'FFmpegExtractAudio',
            'preferredcodec': 'mp3',
            'preferredquality': '192',
        }],
        'noplaylist': True,
        'quiet': True,
    }
    
    # yt_dlpã§æƒ…å ±æŠ½å‡ºã¨ãƒ€ã‚¦ãƒ³ãƒãƒ¼ãƒ‰ã‚’å®Ÿæ–½
    with yt_dlp.YoutubeDL(ydl_opts) as ydl:
        info = ydl.extract_info(url, download=True)
        title = info.get('title', 'Unknown Title')
    
    # å›ºå®šãƒ•ã‚¡ã‚¤ãƒ«åtmp.mp3ã‚’æŒ‡å®š
    output_file = os.path.join(output_dir, "tmp.mp3")
    return output_file, title

def main():
    # ã‚³ãƒžãƒ³ãƒ‰ãƒ©ã‚¤ãƒ³å¼•æ•°ã‹ã‚‰URLã‚’å–å¾—
    if len(sys.argv) < 2:
        print("ä½¿ã„æ–¹: python sample_youtube.py <YouTube URL>")
        sys.exit(1)
    
    input_audio = sys.argv[1]
    
    # URLã®å ´åˆã¯ãƒ€ã‚¦ãƒ³ãƒãƒ¼ãƒ‰ã—ã¦mp3ã«å¤‰æ›
    if input_audio.startswith("http"):
        input_audio, video_title = download_audio_from_youtube(input_audio)
    else:
        # URLã§ãªã‘ã‚Œã°ãƒãƒ¼ã‚«ãƒ«ãƒ•ã‚¡ã‚¤ãƒ«ã¨ã¿ãªã™
        video_title = os.path.basename(input_audio)
    
    # Music2emoã§éŸ³æ¥½æ„Ÿæƒ…èªè˜ã‚’å®Ÿè¡Œ
    music2emo = Music2emo()
    output_dic = music2emo.predict(input_audio)
    
    valence = output_dic["valence"]
    arousal = output_dic["arousal"]
    predicted_moods = output_dic["predicted_moods"]
    
    # çµæžœè¡¨ç¤ºï¼ˆå‹•ç”»ã‚¿ã‚¤ãƒˆãƒ«ã‚’å«ã‚€ï¼‰
    print(f"\nðŸŽµ **Music Emotion Recognition Results [{video_title}]** ðŸŽµ")
    print("-" * 50)
    print(f"ðŸŽ **Predicted Mood Tags:** {', '.join(predicted_moods) if predicted_moods else 'None'}")
    print(f"ðŸ’– **Valence:** {valence:.2f} (Scale: 1-9)")
    print(f"âš¡ **Arousal:** {arousal:.2f} (Scale: 1-9)")
    print("-" * 50)

if __name__ == "__main__":
    main()

ä¸Šè¨˜ã‚’ä»¥ä¸‹ã®ã‚³ãƒžãƒ³ãƒ‰ã§å®Ÿè¡Œã—ã¾ã™

python sample_youtube.py url

ä»¥ä¸‹ãŒå®Ÿè¡Œçµæžœã§ã™

ðŸŽµ **Music Emotion Recognition Results** ðŸŽµ
--------------------------------------------------
ðŸŽ **Predicted Mood Tags:** christmas, energetic, fast, fun, funny, game, groovy, happy, holiday, party, positive, retro, sexy, sport, summer, upbeat
ðŸ’– **Valence:** 6.30 (Scale: 1-9)
âš¡ **Arousal:** 7.49 (Scale: 1-9)
--------------------------------------------------

2025-02-20

toioã‚’ã‚¯ãƒ©ã‚·ãƒƒã‚¯éŸ³æ¥½ã®MIDIãƒ‡ãƒ¼ã‚¿ã‹ã‚‰éŸ³æ¥½ã‚’é³´ã‚‰ã—ãªãŒã‚‰èºã‚‰ã›ã‚‹

Unity Python

åˆã‚ã«

å¹´æœ«ã”ã‚ã« toioã‚’è²·ã£ã¦ã„ã‚ã„ã‚éŠã‚“ã§ã„ãŸã®ã§ã€ãã®ä¸€ã¤ã®æˆæžœã«å¯¾ã™ã‚‹å†…å®¹ã«ãªã‚Šã¾ã™ï¼

https://t.co/5yywZ8oqze
ã“ã‚Œã‚ˆã•ãã†
— ã‚ˆã†ã•ã‚“ (@ayousanz) 2024å¹´12æœˆ9æ—¥

ä»¥ä¸‹ã®ã‚ˆã†ã« Unity Editorã§ã‚·ãƒŸãƒ¥ãƒ¬ãƒ¼ã‚·ãƒ§ãƒ³ã—ãªãŒã‚‰é–‹ç™ºã‚’ã—ãŸ ã‚¯ãƒ©ã‚·ãƒƒã‚¯éŸ³æ¥½ã«åˆã‚ã›ã¦è¸Šã‚‹toioã‚’å®Ÿéš›ã«å‹•ã‹ã—ã¦ã¿ã¾ã—ãŸ

Unity Editorã§ã®ã‚·ãƒŸãƒ¥ãƒ¬ãƒ¼ã‚·ãƒ§ãƒ³ã®å‹•ç”»ã¯ä»¥ä¸‹ã§ã™

youtu.be

ã“ã®è¨˜äº‹ã¯ xRã‚®ãƒ«ãƒ‰ Advent Calendar 2024 12æ—¥ç›®ã®è¨˜äº‹ã§ã™ã€‚

toioã¨ã¯

toioã¯å…¬å¼ã‚µã‚¤ãƒˆã«ã¯ä»¥ä¸‹ã®ã‚ˆã†ãªèª¬æ˜ŽãŒã‚ã‚Šã¾ã™ã€‚

ã„ã‚ã„ã‚ãªã‚‚ã®ã‚’å–ã‚Šä»˜ã‘ã¦è‡ªç”±ã«ã‚ãã¹ã‚‹toioã€‚ã¯ã˜ã‚ã®ä¸€æ©ã¯ã‚¬ã‚¤ãƒ‰ã«ãã£ã¦ã€‚å°‘ã—ãšã¤å¤‰ãˆãªãŒã‚‰ã€æƒ³åƒã‚’å½¢ã«ã€‚ã¤ãã‚‹æ¥½ã—ã•ã€ã¤ãã£ãŸã‚‚ã®ã§ã‚ãã¶å–œã³ã€ãã“ã§å‡ºä¼šã†å¶ç„¶ã®ç™ºè¦‹ãŒã²ã‚‰ã‚ãã«ã¤ãªãŒã£ã¦ã„ãã€‚æ‰‹ã‚’å‹•ã‹ã—ã¦å¤¢ä¸ã«ãªã‚‹ã†ã¡ã«ã€å°ã•ãªã²ã‚‰ã‚ããŒç©ã¿é‡ãªã£ã¦ã€å‰µæ„å·¥å¤«ãŒè‡ªç„¶ã«ç”Ÿã¾ã‚Œã‚‹ã€‚ãã‚“ãªä½“é¨“ãŒtoioã«ã¯è©°ã¾ã£ã¦ã„ã¾ã™ã€‚

(https://toio.io/ ã‚ˆã‚Š)

ã—ã‹ã—ã€æœ¬æ ¼çš„ã«æœ¬æ ¼ãƒãƒœãƒƒãƒˆãƒ—ãƒã‚°ãƒ©ãƒŸãƒ³ã‚°ãŒã§ãã‚‹ã‚ˆã†ã«ã‚³ã‚¢ ã‚ãƒ¥ãƒ¼ãƒ–æŠ€è¡“ä»•æ§˜ã®å…¬é–‹ã‚„javascriptãƒ»pythonãƒ»unityã§é–‹ç™ºã‚’è¡Œã†ã“ã¨ãŒã§ãã¾ã™

(https://toio.io/programming/advanced/ ã‚ˆã‚Š)

ä»¥ä¸‹ã® ã‚³ã‚¢ã‚ãƒ¥ãƒ¼ãƒ–æŠ€è¡“ä»•æ§˜(v2.4)ã§ã¯ã€ä»¥ä¸‹ã®è¦ç´ éƒ¨åˆ†ã‚’åˆ¶å¾¡ã™ã‚‹ã“ã¨ãŒã§ãã¾ã™

èªã¿å–ã‚Šã‚»ãƒ³ã‚µãƒ¼
ãƒ¢ãƒ¼ã‚·ãƒ§ãƒ³æ¤œå‡º
å§¿å‹¢è§’æ¤œå‡º
ç£æ°—ã‚»ãƒ³ã‚µãƒ¼
ãƒœã‚¿ãƒ³
ãƒãƒƒãƒ†ãƒªãƒ¼
ãƒ¢ãƒ¼ã‚¿ãƒ¼
ãƒ©ãƒ³ãƒ—
ã‚µã‚¦ãƒ³ãƒ‰
ã‚·ãƒªã‚¢ãƒ©ã‚¤ã‚ºæƒ…å ±

é–‹ç™ºç’°å¢ƒ

Windows 11
Unity 2022.3.55f1
toio v2.4
toio SDK for Unity v1.6.0
python 3.11

midiãƒ•ã‚¡ã‚¤ãƒ«ã‹ã‚‰toio-jsonã«å¤‰æ›ã™ã‚‹

toio-jsonã¨ã¯

ä»¥ä¸‹ã®ã‚ˆã†ãªtoioã®SDKã§æ‰±ã„ã‚„ã™ãã—ãŸãƒ•ã‚©ãƒ¼ãƒžãƒƒãƒˆã¨å®šç¾©ã—ã¾ã™

[
  {
    "track_name": "ALBENIZ: Aragon Op 47/6",
    "priority": 1,
    "notes": [
      {
        "note_number": 77,
        "start_time_ms": 0,
        "duration_units": 26
      },
      {

      },
  },
    {
    "track_name": "[email protected]",
    "priority": 2,
    "notes": [
        {
        "note_number": 53,
        "start_time_ms": 0,
        "duration_units": 58
        },
    ]
    }
]

ã¾ãšã¯toioã§é³´ã‚‰ã™ã‚µã‚¦ãƒ³ãƒ‰ã®ãƒ‡ãƒ¼ã‚¿ã‚’ä½œã‚‹å¿…è¦ãŒã‚ã‚Šã¾ã™ã€‚ãã“ã§ã€ä»Šå›žã¯ãƒ©ã‚¤ã‚»ãƒ³ã‚¹ä¸Šä½¿ã„ã‚„ã™ã„ ã‚¯ãƒ©ã‚·ãƒƒã‚¯éŸ³æ¥½ã‚’ä½¿ç”¨ã—ã¦ã„ãã¾ã™ã€‚

ä»¥ä¸‹ã«ã‚¯ãƒ©ã‚·ãƒƒã‚¯éŸ³æ¥½ã®midiãƒ•ã‚¡ã‚¤ãƒ«ã®ãƒ‡ãƒ¼ã‚¿ãŒã‚ã‚‹ã®ã§ã€ã“ã¡ã‚‰ã‚’ä½¿ã£ã¦jsonã«å¤‰æ›ã—ã¦ã„ãã¾ã™

huggingface.co

ç’°å¢ƒæ§‹ç¯‰

å¤‰æ›ã™ã‚‹ãŸã‚ã®pythonã‚’ä½¿ã£ã¦å¤‰æ›å‡¦ç†ã‚’ãŠã“ãªã£ã¦ã„ãã¾ã™ã€‚

ä»Šå›žã¯uvã‚’ä½¿ã£ã¦python3.11ã‚’ä½œã£ã¦ã„ãã¾ã™ã€‚

uv venv -p 3.11
.venv\Scripts\activate

æ¬¡ã«å¿…è¦ãªãƒ©ã‚¤ãƒ–ãƒ©ãƒªã‚’å…¥ã‚Œã¦ã„ãã¾ã™

uv pip install mido==1.3.3 packaging==24.2 python-rtmidi==1.5.8

midiãƒ•ã‚¡ã‚¤ãƒ«ã‹ã‚‰jsonã«å¤‰æ›

æ¬¡ã«midiãƒ•ã‚¡ã‚¤ãƒ«ã‹ã‚‰jsonå½¢å¼ã«å¤‰æ›ã—ã¦ã„ãã¾ã™ã€‚ä»¥ä¸‹ã®ã‚³ãƒ¼ãƒ‰ã‚’ä½¿ã£ã¦å¤‰æ›ã‚’è¡Œã„ã¾ã™ã€‚

import mido
import json
import os
from multiprocessing import Pool, cpu_count
from functools import partial

def midi_to_toio_notes(midi_file_path):
    # MIDIãƒ•ã‚¡ã‚¤ãƒ«ã®èªã¿è¾¼ã¿
    try:
        midi_file = mido.MidiFile(midi_file_path)
        print(f"Loaded MIDI file: {midi_file_path}")
    except Exception as e:
        print(f"Failed to load MIDI file: {midi_file_path}, Error: {e}")
        return

    # ãƒ†ãƒ³ãƒã®å–å¾—ï¼ˆãƒ‡ãƒ•ã‚©ãƒ«ãƒˆã®ãƒ†ãƒ³ãƒã‚’è¨å®šï¼‰
    tempo = 500000  # ãƒ‡ãƒ•ã‚©ãƒ«ãƒˆã®ãƒ†ãƒ³ãƒï¼ˆ500,000ãƒžã‚¤ã‚¯ãƒç§’/æ‹ = 120BPMï¼‰
    for track in midi_file.tracks:
        for msg in track:
            if msg.type == 'set_tempo':
                tempo = msg.tempo
                break
        else:
            continue
        break

    ticks_per_beat = midi_file.ticks_per_beat

    # æ™‚é–“ã®å¤‰æ›ç”¨ã®ä¿‚æ•°
    tick_time = tempo / ticks_per_beat  # 1tickã‚ãŸã‚Šã®æ™‚é–“ï¼ˆãƒžã‚¤ã‚¯ãƒç§’ï¼‰
    # print(f"Tempo: {tempo} microseconds per beat")
    # print(f"Ticks per beat: {ticks_per_beat}")
    # print(f"Tick time: {tick_time} microseconds per tick")

    # å…¨ãƒˆãƒ©ãƒƒã‚¯ã®ãƒ‡ãƒ¼ã‚¿ã‚’æ ¼ç´ã™ã‚‹ãƒªã‚¹ãƒˆ
    tracks_data = []
    priority_counter = 1  # å„ªå…ˆåº¦ã®ã‚«ã‚¦ãƒ³ã‚¿ãƒ¼ã‚’åˆæœŸåŒ–

    # ãƒˆãƒ©ãƒƒã‚¯ã”ã¨ã«å‡¦ç†
    for i, track in enumerate(midi_file.tracks):
        current_time = 0  # ç´¯ç©æ™‚é–“ï¼ˆticksï¼‰
        note_on_events = {}

        # print(f"Processing Track {i}: {track.name}")

        track_notes = []

        # ãƒˆãƒ©ãƒƒã‚¯åã‚’å–å¾—ï¼ˆãªã‘ã‚Œã°ç•ªå·ï¼‰
        track_name = track.name if track.name else f"Track {i}"

        for msg in track:
            current_time += msg.time  # æ™‚é–“ã‚’ç´¯ç©

            if msg.type == 'set_tempo':
                # æ›²ä¸ã§ãƒ†ãƒ³ãƒãŒå¤‰æ›´ã•ã‚ŒãŸå ´åˆã«å¯¾å¿œ
                tempo = msg.tempo
                tick_time = tempo / ticks_per_beat  # 1tickã‚ãŸã‚Šã®æ™‚é–“ï¼ˆãƒžã‚¤ã‚¯ãƒç§’ï¼‰
                # print(f"Tempo change detected at {current_time} ticks: {tempo} microseconds per beat")
                continue

            if msg.type == 'note_on' and msg.velocity > 0:
                # Note On ã‚¤ãƒ™ãƒ³ãƒˆ
                note_on_events.setdefault(msg.note, []).append(current_time)
            elif (msg.type == 'note_off') or (msg.type == 'note_on' and msg.velocity == 0):
                # Note Off ã‚¤ãƒ™ãƒ³ãƒˆ
                if msg.note in note_on_events and note_on_events[msg.note]:
                    start_time = note_on_events[msg.note].pop(0)
                    duration = current_time - start_time

                    # æ™‚é–“ã‚’ãƒŸãƒªç§’ã«å¤‰æ›
                    start_time_ms = (start_time * tick_time) / 1000  # ãƒŸãƒªç§’
                    duration_ms = (duration * tick_time) / 1000  # ãƒŸãƒªç§’

                    note_number = msg.note

                    # toioã®éŸ³ç¨‹ç¯„å›²ï¼ˆ45ï½ž81ï¼‰ã«åˆã‚ã›ã¦éŸ³ç¨‹ã‚’èª¿æ•´
                    original_note_number = note_number  # ãƒ‡ãƒãƒƒã‚°ç”¨
                    while note_number < 45:
                        note_number += 12
                    while note_number > 81:
                        note_number -= 12

                    # å†ç”Ÿæ™‚é–“ã‚’10mså˜ä½ã«å¤‰æ›ï¼ˆ1ï½ž255ã®ç¯„å›²ï¼‰
                    play_time_units = int(duration_ms / 10)
                    if play_time_units < 1:
                        play_time_units = 1
                    elif play_time_units > 255:
                        play_time_units = 255

                    # éŸ³ç¬¦æƒ…å ±ã‚’ä¿å˜
                    note_info = {
                        'note_number': note_number,
                        'start_time_ms': int(start_time_ms),
                        'duration_units': play_time_units
                    }
                    track_notes.append(note_info)

                    # ãƒ‡ãƒãƒƒã‚°ç”¨ã®å‡ºåŠ›ã‚’ã‚³ãƒ¡ãƒ³ãƒˆã‚¢ã‚¦ãƒˆã¾ãŸã¯å‰Šé™¤å¯èƒ½
                    # print(f"{track_name}, Note {original_note_number} ({start_time_ms:.2f} ms): Duration {duration_ms:.2f} ms, Adjusted Note {note_number}, Play Time Units {play_time_units}")

        if track_notes:
            # ãƒˆãƒ©ãƒƒã‚¯æƒ…å ±ã‚’ä¿å˜
            track_data = {
                'track_name': track_name,
                'priority': priority_counter,
                'notes': track_notes
            }
            tracks_data.append(track_data)
            priority_counter += 1  # éŸ³ç¬¦æƒ…å ±ãŒã‚ã‚‹ãƒˆãƒ©ãƒƒã‚¯ã«å¯¾ã—ã¦ã®ã¿å„ªå…ˆåº¦ã‚’å¢—åŠ 

    if not tracks_data:
        print(f"No note data found in MIDI file: {midi_file_path}")
        return

    # å„ãƒˆãƒ©ãƒƒã‚¯ã®éŸ³ç¬¦ã‚’é–‹å§‹æ™‚é–“ã§ã‚½ãƒ¼ãƒˆ
    for track_data in tracks_data:
        track_data['notes'].sort(key=lambda x: x['start_time_ms'])

    # MIDIãƒ•ã‚¡ã‚¤ãƒ«åã‹ã‚‰JSONãƒ•ã‚¡ã‚¤ãƒ«åã‚’ç”Ÿæˆ
    midi_filename = os.path.basename(midi_file_path)
    midi_name, _ = os.path.splitext(midi_filename)
    output_json_filename = f'{midi_name}_processed.json'
    output_json_path = os.path.join(os.path.dirname(midi_file_path), output_json_filename)

    # ãƒ‡ãƒ¼ã‚¿ã‚’JSONãƒ•ã‚¡ã‚¤ãƒ«ã«ä¿å˜
    try:
        with open(output_json_path, 'w') as f:
            json.dump(tracks_data, f, indent=2)
            print(f"Notes have been saved to {output_json_path}")
    except Exception as e:
        print(f"Failed to save JSON file: {output_json_path}, Error: {e}")

def collect_midi_files(root_dir):
    midi_files = []
    for dirpath, dirnames, filenames in os.walk(root_dir):
        for filename in filenames:
            if filename.lower().endswith(('.mid', '.midi')):
                midi_file_path = os.path.join(dirpath, filename)
                midi_files.append(midi_file_path)
    return midi_files

def process_all_midis(root_dir):
    midi_files = collect_midi_files(root_dir)
    total_files = len(midi_files)
    print(f"Total MIDI files to process: {total_files}")

    cpu_cores = cpu_count()
    print(f"Using {cpu_cores} CPU cores for parallel processing")

    with Pool(processes=cpu_cores) as pool:
        pool.map(midi_to_toio_notes, midi_files)

if __name__ == '__main__':
    import sys

    # dataãƒ‡ã‚£ãƒ¬ã‚¯ãƒˆãƒªã®ãƒ‘ã‚¹ã‚’æŒ‡å®š
    data_dir = 'data'  # ã‚¹ã‚¯ãƒªãƒ—ãƒˆã®å®Ÿè¡Œãƒ‡ã‚£ãƒ¬ã‚¯ãƒˆãƒªã«å¯¾ã™ã‚‹ç›¸å¯¾ãƒ‘ã‚¹

    # ã‚³ãƒžãƒ³ãƒ‰ãƒ©ã‚¤ãƒ³å¼•æ•°ã§ãƒ‡ãƒ¼ã‚¿ãƒ‡ã‚£ãƒ¬ã‚¯ãƒˆãƒªã‚’æŒ‡å®šå¯èƒ½
    if len(sys.argv) > 1:
        data_dir = sys.argv[1]

    if not os.path.exists(data_dir):
        print(f"The specified directory does not exist: {data_dir}")
        sys.exit(1)

    process_all_midis(data_dir)

ã“ã®ã‚³ãƒ¼ãƒ‰ã®ã‚ˆã†ã«å®Ÿè¡Œã—ã¾ã™

python midi_to_toio.py midi_file_path

å…ˆã»ã©ã®ãƒ‡ãƒ¼ã‚¿ã‚»ãƒƒãƒˆã‹ã‚‰jsonã«å¤‰æ›ã—ãŸã‚‚ã®ã¯ä»¥ä¸‹ã«ã¦å…¬é–‹ã—ã¦ã„ã¾ã™ã€‚è‡ªåˆ†ã§å¤‰æ›ã™ã‚‹ã®ãŒå¤§å¤‰ã¨ã„ã†æ–¹ã¯ã“ã¡ã‚‰ã‹ã‚‰ãƒ€ã‚¦ãƒ³ãƒãƒ¼ãƒ‰ã—ã¦ãŠä½¿ã„ãã ã•ã„ã€‚

huggingface.co

ã¾ãŸå¤‰æ›ã™ã‚‹ãŸã‚ã®å‡¦ç†ã¯ä»¥ä¸‹ã®ãƒªãƒã‚¸ãƒˆãƒªã«ã¾ã¨ã‚ã¦ã„ã¾ã™ã€‚

github.com

Unityã§midi-jsonã‹ã‚‰toioã‚’å‹•ã‹ã™

ã‚»ãƒƒãƒˆã‚¢ãƒƒãƒ—

ã¾ãšã¯ Unityã§toioãŒå‹•ãç’°å¢ƒã‚’ä½œæˆã—ã¾ã™ã€‚Unityã®ã‚¤ãƒ³ã‚¹ãƒˆãƒ¼ãƒ«ã¯çµ‚ã‚ã£ã¦ã„ã‚‹ã‚‚ã®ã¨ã—ã¾ã™ã€‚

toio SDK for Unity v1.6.0ã‹ã‚‰ Unityå‘ã‘ã®SDKã‚’ãƒ€ã‚¦ãƒ³ãƒãƒ¼ãƒ‰ã—ã¦ã€importã‚’è¡Œã„ã¾ã™ã€‚

untiyã‹ã‚‰ã‚ãƒ¥ãƒ¼ãƒ–ã«æŽ¥ç¶šã™ã‚‹

toio sdk for unityã§ã¯ä»¥ä¸‹ã®æµã‚Œã§unityã‹ã‚‰ã‚ãƒ¥ãƒ¼ãƒ–ã«å¯¾ã—ã¦ã€æŽ¥ç¶šã‚’ã—ã¾ã™ã€‚

CubeScanner.NearestScan()ã§è¿‘ãã®ã‚ãƒ¥ãƒ¼ãƒ–ã‚’æŽ¢ã™
CubeConnecter().Connect()ã§æŽ¥ç¶š

toioã§ç‰¹å®šã®éŸ³ã‚’å†ç”Ÿã™ã‚‹

toioã§ã¯ Midi note numberã¨note nameã®å¯¾å¿œè¡¨ãŒã‚ã‚Šã¾ã™ã€‚

toio.github.io

ã“ã‚Œã«å¾“ã†ã¨ ç‰¹å®šã®å‘¨æ³¢æ•°ã®éŸ³ãŒå‡ºã™ã“ã¨ãŒã§ãã¾ã™ã€‚

C#ã§ç‰¹å®šã®éŸ³ã‚’å†ç”Ÿã™ã‚‹å ´åˆã¯ã€ä»¥ä¸‹ã®ã‚ˆã†ã«å®Ÿè£…ã—ã¾ã™ã€‚

Cube.SoundOperation soundOp = new Cube.SoundOperation(duration_ms, volume, note.note_number);
cube.PlaySound(1, new Cube.SoundOperation[] { soundOp });

midi-jsonã‚’ãƒãƒ¼ãƒ‰ã™ã‚‹

cubeå´ã« note_number ã‚„ duration_ms ã®æƒ…å ±ã‚’æ¸¡ã™ãŸã‚ã€å…ˆã»ã©jsonã‹ã‚‰ãƒ‡ãƒ¼ã‚¿ã‚’ãƒãƒ¼ãƒ‰ã™ã‚‹å‡¦ç†ã‚’ä½œã‚Šã¾ã™ã€‚

ã¾ãšã¯ãƒ‡ãƒ¼ã‚¿ç”¨ã®ã‚¯ãƒ©ã‚¹ã‚’å®šç¾©ã—ã¾ã™

    [Serializable]
    public class NoteData
    {
        public byte note_number;
        public int start_time_ms;
        public int duration_units;
    }

    [Serializable]
    public class TrackData
    {
        public string track_name;
        public int priority;
        public List<NoteData> notes;
    }

æ¬¡ã«ãƒãƒ¼ã‚«ãƒ«ã«ã‚ã‚‹jsonãƒ‡ãƒ¼ãƒˆã‚’ãƒãƒ¼ãƒ‰ã—ã¦ã€ä¸Šè¨˜ã®ã‚¯ãƒ©ã‚¹ã«æ ¼ç´ã—ã¦ã„ãå‡¦ç†ã‚’ä½œã‚Šã¾ã™ã€‚

ä»Šå›žã¯midiãƒ•ã‚¡ã‚¤ãƒ«ã‚’ãƒãƒ¼ãƒ‰ã—ã¦ã‚¯ãƒ©ã‚¹ã«å…¥ã‚Œã‚‹ã‚¯ãƒ©ã‚¹ã‚’ Song ã¨ã—ã¾ã™ã€‚

public class Song
    {
        public List<TrackData> Tracks { get; private set; }

        public Song()
        {
            Tracks = new List<TrackData>();
        }

        // JSONãƒ•ã‚¡ã‚¤ãƒ«ã‹ã‚‰ãƒ‡ãƒ¼ã‚¿ã‚’èªã¿è¾¼ã‚€ãƒ¡ã‚½ãƒƒãƒ‰ã‚’è¿½åŠ 
        public async UniTask LoadFromJsonAsync(string jsonFilePath)
        {
            Tracks.Clear();

            // ãƒ•ã‚¡ã‚¤ãƒ«ãŒå˜åœ¨ã™ã‚‹ã‹ãƒã‚§ãƒƒã‚¯
            if (!File.Exists(jsonFilePath))
            {
                Debug.LogError($"JSON file not found: {jsonFilePath}");
                return;
            }

            try
            {
                // ãƒ•ã‚¡ã‚¤ãƒ«ã‹ã‚‰JSONæ–‡å—åˆ—ã‚’éžåŒæœŸçš„ã«èªã¿è¾¼ã‚€
                string jsonText = await ReadFileAsync(jsonFilePath);
                

                // JSONã‚’ãƒ‘ãƒ¼ã‚¹ã—ã¦TrackDataã®ãƒªã‚¹ãƒˆã‚’å–å¾—
                Tracks = JsonConvert.DeserializeObject<List<TrackData>>(jsonText);

                if (Tracks == null || Tracks.Count == 0)
                {
                    Debug.LogError("No track data found in JSON.");
                    return;
                }

                // ãƒˆãƒ©ãƒƒã‚¯ã‚’å„ªå…ˆåº¦ã§ã‚½ãƒ¼ãƒˆï¼ˆæ˜‡é †ï¼‰
                Tracks.Sort((a, b) => a.priority.CompareTo(b.priority));
                Debug.Log($"Loaded {Tracks.Count} tracks from JSON.");
            }
            catch (Exception e)
            {
                Debug.LogError($"Failed to load or parse JSON file: {e.Message}");
            }
        }

        // ãƒ•ã‚¡ã‚¤ãƒ«ã‚’éžåŒæœŸã§èªã¿è¾¼ã‚€ãƒ˜ãƒ«ãƒ‘ãƒ¼ãƒ¡ã‚½ãƒƒãƒ‰
        private async UniTask<string> ReadFileAsync(string filePath)
        {
            using (var reader = new StreamReader(filePath))
            {
                return await reader.ReadToEndAsync();
            }
        }
    }

ã“ã‚Œã«ã‚ˆã‚Šãƒãƒ¼ã‚«ãƒ«ã«ã‚ã‚‹midi-jsonãƒ•ã‚¡ã‚¤ãƒ«ã‹ã‚‰midiãƒ‡ãƒ¼ã‚¿ã‚’ãƒãƒ¼ãƒ‰ã™ã‚‹ã“ã¨ãŒã§ãã‚‹ã‚ˆã†ã«ãªã‚Šã¾ã—ãŸã€‚

midi-jsonã‹ã‚‰toioã§ã‚¯ãƒ©ã‚·ãƒƒã‚¯éŸ³æ¥½ã‚’é³´ã‚‰ã™

ã“ã“ã¾ã§ã§ãƒãƒ¼ã‚«ãƒ«ã®midiãƒ•ã‚¡ã‚¤ãƒ«ã‹ã‚‰ä½œæˆã—ãŸjsonãƒ‡ãƒ¼ã‚¿ã‚’ãƒãƒ¼ãƒ‰ã—ã¦ã€toioã§éŸ³ã‚’é³´ã‚‰ã™æº–å‚™ãŒã§ãã¾ã—ãŸã€‚æœ€å¾Œã«å†ç”Ÿæ™‚é–“ã”ã¨ã«ã©ã®noteã‚’é³´ã‚‰ã™è¨ˆç®—ã—ã¦ jsonã®ãƒ‡ãƒ¼ã‚¿ã§ä¸€ã¤ã®ãƒªã‚¹ãƒˆæ–‡ã‚’é³´ã‚‰ã™ã‚ˆã†ã«ã—ã¾ã™ã€‚

ä»¥ä¸‹ã¯ å…ˆã»ã©ä½œæˆã—ãŸ NoteDataã®ãƒªã‚¹ãƒˆãƒ‡ãƒ¼ã‚¿ã® TrackDataã‚’ç”¨ã„ã¦éŸ³ã‚’å†ç”Ÿã™ã‚‹å‡¦ç†ã«ãªã‚Šã¾ã™ã€‚

private async UniTask PlayTrackOnCubeAsync(Cube cube, TrackData track)
        {
            if (cube == null || track == null || track.notes == null || track.notes.Count == 0)
            {
                return;
            }

            Debug.Log($"Starting playback on cube {cube.id} for track '{track.track_name}'");

            float startTime = Time.time;

            foreach (var note in track.notes)
            {
                // ç¾åœ¨æ™‚åˆ»ã‹ã‚‰çµŒéŽæ™‚é–“ã‚’è¨ˆç®—
                float elapsedTime = (Time.time - startTime) * 1000f; // ãƒŸãƒªç§’ã«å¤‰æ›
                float waitTime = (note.start_time_ms - elapsedTime) / 1000f; // ç§’ã«å¤‰æ›

                if (waitTime > 0)
                {
                    // æ¬¡ã®éŸ³ç¬¦ã¾ã§å¾…æ©Ÿ
                    await UniTask.Delay(TimeSpan.FromSeconds(waitTime));
                }

                // éŸ³ç¬¦ã‚’å†ç”Ÿ
                ushort duration_ms = (ushort)(note.duration_units * 10); // duration_unitsã‚’ãƒŸãƒªç§’ã«å¤‰æ›
                byte volume = 15; // éŸ³é‡ã‚’è¨å®š

                Cube.SoundOperation soundOp = new Cube.SoundOperation(duration_ms, volume, note.note_number);
                cube.PlaySound(1, new Cube.SoundOperation[] { soundOp });
            }

            Debug.Log($"Finished playback on cube {cube.id} for track '{track.track_name}'");
        }

cubeã«ç§»å‹•ã®å‘½ä»¤ã‚’é€ã‚‹

cubeã«å¯¾ã—ã¦ç§»å‹•ã®å‘½ä»¤ã¯ä»¥ä¸‹ã§å®Ÿè¡Œã™ã‚‹ã“ã¨ãŒã§ãã¾ã™ã€‚

// ã‚ãƒ¥ãƒ¼ãƒ–ã‚’å‹•ã‹ã™ï¼ˆå‘½ä»¤ã®å„ªå…ˆåº¦ã‚’å¼·ãè¨å®šï¼‰
cube.Move(action.leftSpeed, action.rightSpeed, action.durationMs,Cube.ORDER_TYPE.Strong);

å…¬å¼ã®ãƒ‰ã‚ãƒ¥ãƒ¡ãƒ³ãƒˆã¯ä»¥ä¸‹ã«ãªã‚Šã¾ã™ã€‚

toio.github.io

midiæƒ…å ±ã‹ã‚‰å‹•ãã‚’æ±ºã‚ã‚‹

noteã®æƒ…å ±ã‹ã‚‰cubeã®å³ãƒ»å·¦ã®ãƒ¢ãƒ¼ã‚¿ãƒ¼ã®é€Ÿåº¦ãŠã‚ˆã³ç§»å‹•æ™‚é–“ã‚’è¨ˆç®—ã—ã¾ã™ã€‚ã“ã®ã¨ãã«cubeãŒç§»å‹•ã§ãã‚‹ç¯„å›²(ã‚·ãƒŸãƒ¥ãƒ¬ãƒ¼ã‚·ãƒ§ãƒ³ä¸Š)ãŒæ±ºã¾ã£ã¦ã„ã‚‹ã®ã§ã€è½ã¡ãªã„ã‚ˆã†ã«èª¿ç¯€ã‚’ã—ã¾ã—ãŸã€‚

private List<MovementAction> GenerateMovementPlan(TrackData track, bool mirror)
    {
        List<MovementAction> movementPlan = new List<MovementAction>();

        foreach (var note in track.notes)
        {
            float startTime = note.start_time_ms / 1000f; // é–‹å§‹æ™‚é–“ï¼ˆç§’ï¼‰
            int durationMs = note.duration_units * 10; // æŒç¶šæ™‚é–“ï¼ˆãƒŸãƒªç§’ï¼‰

            // ãƒŽãƒ¼ãƒˆç•ªå·ã‚’ãƒ¢ãƒ¼ã‚¿ãƒ¼é€Ÿåº¦ã«ãƒžãƒƒãƒ”ãƒ³ã‚°
            (int leftSpeed, int rightSpeed) = MapNoteNumberToSpeeds(note.note_number, mirror);

            // MovementActionã®ä½œæˆ
            MovementAction action = new MovementAction
            {
                startTime = startTime,
                durationMs = durationMs,
                leftSpeed = leftSpeed,
                rightSpeed = rightSpeed
            };

            movementPlan.Add(action);
        }

        return movementPlan;
    }

    // ãƒŽãƒ¼ãƒˆç•ªå·ã‚’å·¦å³ã®ãƒ¢ãƒ¼ã‚¿ãƒ¼é€Ÿåº¦ã«ãƒžãƒƒãƒ”ãƒ³ã‚°ã™ã‚‹ãƒ¡ã‚½ãƒƒãƒ‰
    private (int leftSpeed, int rightSpeed) MapNoteNumberToSpeeds(int noteNumber, bool mirror)
    {
        // ãƒŽãƒ¼ãƒˆç•ªå·ã‚’0ï½ž1ã«æ£è¦åŒ–
        float normalized = (noteNumber - _minNote) / (float)(_maxNote - _minNote);

        // ã‚¹ãƒ”ãƒ¼ãƒ‰ã‚’æ±ºå®šï¼ˆé€Ÿåº¦ã®ç¯„å›²ã‚’60ï½ž100ã«è¨å®šï¼‰
        int baseSpeed = (int)(normalized * 40) + 60; // 60ï½ž100ã«å¤‰æ›

        int leftSpeed, rightSpeed;

        if (mirror)
        {
            // ã‚ãƒ¥ãƒ¼ãƒ–2ï¼ˆãƒŸãƒ©ãƒ¼ãƒªãƒ³ã‚°ï¼‰ã§ã¯ã€å·¦ã«æ›²ãŒã‚‹
            leftSpeed = baseSpeed - 20; // ã‚¹ãƒ”ãƒ¼ãƒ‰ã‚’æ¸›å°‘
            rightSpeed = baseSpeed;
        }
        else
        {
            // ã‚ãƒ¥ãƒ¼ãƒ–1ã§ã¯ã€å³ã«æ›²ãŒã‚‹
            leftSpeed = baseSpeed;
            rightSpeed = baseSpeed - 20; // ã‚¹ãƒ”ãƒ¼ãƒ‰ã‚’æ¸›å°‘
        }

        // ã‚¹ãƒ”ãƒ¼ãƒ‰ã®ç¯„å›²ã‚’èª¿æ•´ï¼ˆ-100ã‹ã‚‰100ï¼‰
        leftSpeed = Mathf.Clamp(leftSpeed, -100, 100);
        rightSpeed = Mathf.Clamp(rightSpeed, -100, 100);

        return (leftSpeed, rightSpeed);
    }

ã“ã‚Œã§ ã‚¯ãƒ©ã‚·ãƒƒã‚¯éŸ³æ¥½ã®midiæƒ…å ±ã‹ã‚‰toioã®cubeã‚’ä½¿ã£ã¦éŸ³æ¥½ã‚’å†ç”Ÿã—ã¤ã¤éŸ³æ¥½ã«åˆã‚ã›ã¦å‹•ã‹ã™ã“ã¨ãŒã§ãã¾ã—ãŸã€‚

2025-02-19

esnya/japanese_speecht5_ttsã‚’å‹•ã‹ã—ã¦éŸ³å£°åˆæˆã‚’è¡Œã†

AI Python

åˆã‚ã«

å‰ã«è‹±èªžç‰ˆã‚’å‹•ã‹ã—ã¦ã¿ã¾ã—ãŸã€‚ä»Šå›žã¯æ—¥æœ¬èªžã®è¿½åŠ å¦ç¿’ãƒ¢ãƒ‡ãƒ«ã®esnya/japanese_speecht5_ttsãŒå‡ºã¦ã„ãŸã®ã§ï¼Œã“ã¡ã‚‰ã‚’å‹•ã‹ã—ã¦ã„ãã¾ã™

ayousanz.hatenadiary.jp

ä»¥ä¸‹ã«ã¦è¨˜äº‹ã®å†…å®¹ã‚’ãƒªãƒã‚¸ãƒˆãƒªã§å…¬é–‹ã—ã¦ã„ã¾ã™ã€‚

github.com

é–‹ç™ºç’°å¢ƒ

macOS
python 3.11

ç’°å¢ƒä½œæˆ

ã¾ãšã¯ä»®æƒ³ç’°å¢ƒã‚’ä½œæˆã—ã¾ã™

uv venv -p 3.11
source venv/bin/activate

æ³¨æ„ ã“ã®è¨˜äº‹ã§ã¯ï¼ŒOpenJTalkã®Pythonã®ãƒ©ãƒƒãƒ‘ãƒ¼ãƒ©ã‚¤ãƒ–ãƒ©ãƒªã¨ã—ã¦ pyopenjtalk-plusã‚’ä½¿ç”¨ã—ã¦ã„ã¾ã™ã€‚ãã®ãŸã‚ï¼Œpython ã¯3.11ä»¥é™ã§ã—ã‹å‹•ãã¾ã›ã‚“

æ¬¡ã«é–¢é€£ã™ã‚‹ãƒ©ã‚¤ãƒ–ãƒ©ãƒªã‚’å…¥ã‚Œã¾ã™ cudaã¯å…¥ã£ã¦ã„ãªã„ã®ã§ï¼Œcpuç‰ˆã‚’å…¥ã‚Œã¦ã„ãã¾ã™

uv pip install transformers==4.29.2 sentencepiece torch soundfile accelerate pyopenjtalk-plus

æ³¨æ„

transformersã®versionã¯ï¼Œãƒ¢ãƒ‡ãƒ«ã‚«ãƒ¼ãƒ‰ã®ã‚µãƒ³ãƒ—ãƒ«ã‚«ãƒ¼ãƒ‰ã§æœ€æ–°ç‰ˆã§ã¯å‰Šé™¤ã•ã‚Œã¦ã„ã‚‹PRETRAINED_POSITIONAL_EMBEDDINGS_SIZESã®å®šæ•°ã‚’ä½¿ã£ã¦ã„ã‚‹ãŸã‚ï¼Œ4.29.2 ã‚’ã‚¤ãƒ³ã‚¹ãƒˆãƒ¼ãƒ«ã—ã¾ã™
ä¸Šè¨˜ã«è¨˜è¼‰ã—ãŸé€šã‚ŠOpenJTalkã®Pythonã®ãƒ©ãƒƒãƒ‘ãƒ¼ãƒ©ã‚¤ãƒ–ãƒ©ãƒªã¯ï¼Œpyopenjtalk-plusã‚’ä½¿ç”¨ã—ã¦ã„ã¾ã™ã€‚

æŽ¨è«–ã®æº–å‚™

æ—¥æœ¬èªžã®æŽ¨è«–ã‚’ã™ã‚‹ãŸã‚ï¼ŒOpenJTalkã®tokenizerã®ã‚³ãƒ¼ãƒ‰ã‚’å…¬å¼ãƒ¢ãƒ‡ãƒ«ã®ä»˜å±žã—ã¦ã„ã‚‹ã‚‚ã®ã‚’ãƒ€ã‚¦ãƒ³ãƒãƒ¼ãƒ‰ã—ã¾ã™

curl -O https://huggingface.co/esnya/japanese_speecht5_tts/resolve/main/speecht5_openjtalk_tokenizer.py

æŽ¨è«–

macã®Mç³»ãƒãƒƒãƒ—ã§ã¯ï¼Œç•³ã¿è¾¼ã¿å±¤ã®å‡ºåŠ›ãƒãƒ£ãƒãƒ«ãŒ 65536 ã‚’è¶…ãˆã‚‹å ´åˆã«ç™ºç”Ÿã™ã‚‹ãƒã‚°ãŒã‚ã‚‹ãŸã‚ CPUã«ã¦æŽ¨è«–ã‚’è¡Œã„ã¾ã™

ä»¥ä¸‹ãŒè©²å½“ã®issueã§ã™

github.com

ä»¥ä¸‹ãŒæŽ¨è«–ã‚³ãƒ¼ãƒ‰ã§ã™

import numpy as np
from transformers import (
    SpeechT5ForTextToSpeech,
    SpeechT5HifiGan,
    SpeechT5FeatureExtractor,
    SpeechT5Processor,
)
from speecht5_openjtalk_tokenizer import SpeechT5OpenjtalkTokenizer
import soundfile
import torch

# MPS ãŒåˆ©ç”¨å¯èƒ½ãªã‚‰ "mps"ã€ãªã‘ã‚Œã° "cpu" ã‚’ä½¿ç”¨ï¼ˆä»Šå›žã¯ãƒ¢ãƒ‡ãƒ«æœ¬ä½“ã¯ MPS/CPU ã§å‹•ä½œï¼‰
device = torch.device("mps" if torch.backends.mps.is_available() else "cpu")

# vocoder ã‚’ CPU ã§å®Ÿè¡Œã™ã‚‹ãŸã‚ã®ãƒ©ãƒƒãƒ‘ãƒ¼ã‚¯ãƒ©ã‚¹
class VocoderCPUWrapper(torch.nn.Module):
    def __init__(self, vocoder):
        super().__init__()
        self.vocoder = vocoder  # ã“ã® vocoder ã¯å…¨ãƒ‘ãƒ©ãƒ¡ãƒ¼ã‚¿ãŒ CPU ä¸Šã«ã‚ã‚‹å¿…è¦ãŒã‚ã‚Šã¾ã™
    def forward(self, x):
        # å…¥åŠ›ã‚’ CPU ã«ç§»å‹•ã—ã¦ã‹ã‚‰ vocoder ã‚’å®Ÿè¡Œ
        x_cpu = x.cpu()
        return self.vocoder(x_cpu)

model_name = "esnya/japanese_speecht5_tts"
with torch.no_grad():
    # SpeechT5ForTextToSpeech ã‚’ float32 ã§ãƒãƒ¼ãƒ‰ã—ã€device ã«ç§»å‹•
    model = SpeechT5ForTextToSpeech.from_pretrained(
        model_name, torch_dtype=torch.float32
    )
    model.to(device)

    tokenizer = SpeechT5OpenjtalkTokenizer.from_pretrained(model_name)
    feature_extractor = SpeechT5FeatureExtractor.from_pretrained(model_name)
    processor = SpeechT5Processor(feature_extractor, tokenizer)
    
    # SpeechT5HifiGan (vocoder) ã¯ MPS ã®åˆ¶é™ãŒã‚ã‚‹ãŸã‚ã€æ˜Žç¤ºçš„ã« CPU ã«ãƒãƒ¼ãƒ‰
    vocoder = SpeechT5HifiGan.from_pretrained(
        "microsoft/speecht5_hifigan", torch_dtype=torch.float32
    )
    vocoder.to("cpu")  # ã“ã“ã§ CPU ã«ç§»å‹•
    vocoder_wrapper = VocoderCPUWrapper(vocoder)

    input_text = "å¾è¼©ã¯çŒ«ã§ã‚ã‚‹ã€‚åå‰ã¯ã¾ã ç„¡ã„ã€‚ã©ã“ã§ç”Ÿã‚ŒãŸã‹ã¨ã‚“ã¨è¦‹å½“ãŒã¤ã‹ã¬ã€‚"
    # processor ã«ã‚ˆã‚Š input_ids ã‚’ç”Ÿæˆã—ã€device ã«è»¢é€
    input_ids = processor(text=input_text, return_tensors="pt").input_ids.to(device)

    speaker_embeddings = np.random.uniform(-1, 1, (1, 16))
    speaker_embeddings = torch.FloatTensor(speaker_embeddings).to(device=device, dtype=model.dtype)

    # generate_speech å‘¼ã³å‡ºã—æ™‚ã« vocoder_wrapper ã‚’æŒ‡å®š
    waveform = model.generate_speech(
        input_ids,
        speaker_embeddings,
        vocoder=vocoder_wrapper,
    )

    waveform = waveform / waveform.abs().max()  # æ£è¦åŒ–
    waveform = waveform.reshape(-1).cpu().float().numpy()

    soundfile.write(
        "output.wav",
        waveform,
        vocoder.config.sampling_rate,
    )

2025-02-19

microsoft/speecht5_ttsã‚’å‹•ã‹ã—ã¦éŸ³å£°åˆæˆã‚’è¡Œã†

AI Python

åˆã‚ã«

ä»¥ä¸‹ã®TTSãƒ¢ãƒ‡ãƒ«ã‚’å‹•ã‹ã—ã¦ã„ãã¾ã™ã€‚éŸ³å£°ã¨ãƒ†ã‚ã‚¹ãƒˆã®ä¸¡æ–¹ã®ãƒ‡ãƒ¼ã‚¿ã‚’ç”¨ã„ãŸæ–°ã—ã„äº‹å‰å¦ç¿’ãƒ¢ãƒ‡ãƒ«ã§ã™

huggingface.co

ä»¥ä¸‹ã«ã¦è¨˜äº‹ã®å†…å®¹ã‚’ãƒªãƒã‚¸ãƒˆãƒªã§å…¬é–‹ã—ã¦ã„ã¾ã™ã€‚

github.com

é–‹ç™ºç’°å¢ƒ

macOS : Apple M1

ç’°å¢ƒä½œæˆ

ã¾ãšã¯ä»®æƒ³ç’°å¢ƒã‚’ä½œæˆã—ã¾ã™

uv venv -p 3.11
source venv/bin/activate

uv pip install transformers sentencepiece datasets torch soundfile

å®Ÿè¡Œ

æŽ¨è«–æ–¹æ³•ã¯ï¼Œã€Œ(TTS) pipelineã€ã‚’ä½¿ã†æ–¹æ³•ã¨ã€Œtransformers modelling codeã€ã‚’ä½¿ã†æ–¹æ³•ãŒã‚ã‚Šã¾ã™ã€‚

TTS pipelineã‚’ä½¿ã†æ–¹æ³•

ä»¥ä¸‹ã®ã‚³ãƒ¼ãƒ‰ã§å®Ÿè¡Œã§ãã¾ã™

from transformers import pipeline
from datasets import load_dataset
import soundfile as sf
import torch

synthesiser = pipeline("text-to-speech", "microsoft/speecht5_tts")

embeddings_dataset = load_dataset("Matthijs/cmu-arctic-xvectors", split="validation")
speaker_embedding = torch.tensor(embeddings_dataset[7306]["xvector"]).unsqueeze(0)
# You can replace this embedding with your own as well.

speech = synthesiser("Hello, my dog is cooler than you!", forward_params={"speaker_embeddings": speaker_embedding})

sf.write("speech_pipeline.wav", speech["audio"], samplerate=speech["sampling_rate"])

transformers modelling codeã‚’ä½¿ã†æ–¹æ³•

ä»¥ä¸‹ã®ã‚³ãƒ¼ãƒ‰ã§å®Ÿè¡Œã§ãã¾ã™

from transformers import SpeechT5Processor, SpeechT5ForTextToSpeech, SpeechT5HifiGan
from datasets import load_dataset
import torch
import soundfile as sf
from datasets import load_dataset

processor = SpeechT5Processor.from_pretrained("microsoft/speecht5_tts")
model = SpeechT5ForTextToSpeech.from_pretrained("microsoft/speecht5_tts")
vocoder = SpeechT5HifiGan.from_pretrained("microsoft/speecht5_hifigan")

inputs = processor(text="Hello, my dog is cute.", return_tensors="pt")

# load xvector containing speaker's voice characteristics from a dataset
embeddings_dataset = load_dataset("Matthijs/cmu-arctic-xvectors", split="validation")
speaker_embeddings = torch.tensor(embeddings_dataset[7306]["xvector"]).unsqueeze(0)

speech = model.generate_speech(inputs["input_ids"], speaker_embeddings, vocoder=vocoder)

sf.write("speech_modelling.wav", speech.numpy(), samplerate=16000)

2025-02-17

sbintuitions/modernbert-ja-130mã«è¿½åŠ å¦ç¿’ã‚’ã—ã¦æ–‡ç« ã‹ã‚‰VTuberã‹ã©ã†ã‹ã‚’åˆ¤æ–ã™ã‚‹æ•™å¸«ã‚ã‚Šå¦ç¿’ã«ã‚ˆã‚‹2å€¤åˆ†é¡žãƒ¢ãƒ‡ãƒ«ã‚’ä½œæˆã™ã‚‹

AI Python

åˆã‚ã«

1é€±é–“ã»ã©å‰ã« sbintuitions/modernbert-ja-130mãŒå…¬é–‹ã•ã‚ŒãŸã®ã§éŠã‚“ã§ã„ãã¾ã™ã€‚

ä»Šå›žã¯ bertãƒ¢ãƒ‡ãƒ«ãªã®ã§ãƒ†ã‚ã‚¹ãƒˆã‚¯ãƒ©ã‚¹ã‚¿ãƒªãƒ³ã‚°ã‚’ã‚„ã£ã¦ã¿ã¾ã™.æ–‡ç« ã‚’å…¥ã‚ŒãŸã‚‰ã€ãã®æ–‡ç« ãŒVTuberã£ã½ã„ã®ã‹ã©ã†ã‹ã‚’åˆ¤å®šã™ã‚‹ãƒ¢ãƒ‡ãƒ«ã‚’ä½œã£ã¦ã¿ã¾ã™ã€‚ (25/02/17æ™‚ç‚¹ã§ã¯ã€ãƒ‡ãƒ¼ã‚¿ã‚»ãƒƒãƒˆãŒyoutube apiã®åˆ¶é™ä¸Š ã‚ã¾ã‚Šé›†ã‚ã‚‰ã‚Œã¦ã„ãªã„ã®ã§ç²¾åº¦ã¯æ‚ªã„ã§ã™)

ã“ã®è¨˜äº‹ã®å¦ç¿’ColobãŠã‚ˆã³æŽ¨è«–ã®ãƒªãƒã‚¸ãƒˆãƒªã¯ä»¥ä¸‹ã§å…¬é–‹ã—ã¦ã„ã¾ã™

å¦ç¿’Colob

colab.research.google.com

æŽ¨è«–

github.com

ãƒ‡ãƒ¼ã‚¿ã‚»ãƒƒãƒˆ

huggingface.co

å¦ç¿’æ¸ˆã¿ãƒ¢ãƒ‡ãƒ«

huggingface.co

é–‹ç™ºç’°å¢ƒ

å¦ç¿’ç’°å¢ƒ : Google Colob (T4)
æŽ¨è«–ç’°å¢ƒ : Windows 11

Google Colobã®æº–å‚™

ä»¥ä¸‹ã®APIã‚ãƒ¼ã‚’ä½¿ã†ãŸã‚ ã‚·ãƒ¼ã‚¯ãƒ¬ãƒƒãƒˆã‚ãƒ¼ã‚’ç™»éŒ²ã—ã¾ã™

huggingface
youtube api(ãƒ‡ãƒ¼ã‚¿ã‚»ãƒƒãƒˆã‚’ç”¨æ„ã•ã‚Œã¦ã„ã‚‹ã‚‚ã®ã‚’ä½¿ã†å ´åˆã¯å¿…è¦ãªã„)
wandb(ä½¿ç”¨ã—ãªã„å ´åˆã¯ä¸è¦)

ãƒ‡ãƒ¼ã‚¿ã‚»ãƒƒãƒˆã®ä½œæˆ

ã¾ãšã¯å¦ç¿’ã‚’ã™ã‚‹ãŸã‚ã®youtubeã‹ã‚‰VTuberã¨éžVTuberã®ãƒãƒ£ãƒ³ãƒãƒ«ã®æƒ…å ±ã‚’å–å¾—ã—ã¾ã™ã€‚ (youtubeAPIã®åˆ¶é™ã«ã‚ˆã‚Šå¤šãã¯å–å¾—ã§ããªã„ã§ã™)

# å¿…è¦ãªãƒ©ã‚¤ãƒ–ãƒ©ãƒªã®ã‚¤ãƒ³ã‚¹ãƒˆãƒ¼ãƒ«ï¼ˆåˆå›žã®ã¿ï¼‰
!pip install -U google-api-python-client huggingface_hub

# APIã‚ãƒ¼ã¯Google Colabã®ã‚·ãƒ¼ã‚¯ãƒ¬ãƒƒãƒˆå€¤ã‹ã‚‰å–å¾—
import os
from google.colab import userdata
API_KEY = userdata.get('YOUTUBE_API_KEY')
if API_KEY is None:
    raise ValueError("YOUTUBE_API_KEYãŒç’°å¢ƒå¤‰æ•°ã«è¨å®šã•ã‚Œã¦ã„ã¾ã›ã‚“ã€‚Colabã®ã‚·ãƒ¼ã‚¯ãƒ¬ãƒƒãƒˆã«APIã‚ãƒ¼ã‚’ç™»éŒ²ã—ã¦ãã ã•ã„ã€‚")

from googleapiclient.discovery import build

# YouTube Data APIã®ã‚¯ãƒ©ã‚¤ã‚¢ãƒ³ãƒˆã‚’ä½œæˆ
youtube = build('youtube', 'v3', developerKey=API_KEY)

def fetch_channels(query, max_results=50, page_limit=3):
    """æŒ‡å®šã—ãŸæ¤œç´¢ã‚¯ã‚¨ãƒªã§ãƒãƒ£ãƒ³ãƒãƒ«æƒ…å ±ã‚’å–å¾—ã™ã‚‹é–¢æ•°"""
    channels = []
    next_page_token = None
    for _ in range(page_limit):
        request = youtube.search().list(
            q=query,
            type="channel",
            part="id,snippet",
            maxResults=max_results,
            pageToken=next_page_token
        )
        response = request.execute()
        for item in response.get("items", []):
            channel_id = item["id"]["channelId"]
            title = item["snippet"]["title"]
            description = item["snippet"]["description"]
            channels.append({"channel_id": channel_id, "title": title, "description": description})
        next_page_token = response.get("nextPageToken")
        if not next_page_token:
            break
    return channels

# VTuberå€™è£œã®ãƒãƒ£ãƒ³ãƒãƒ«æƒ…å ±ã‚’å–å¾—ï¼ˆä¾‹ï¼š"VTuber"ã§æ¤œç´¢ï¼‰
vtuber_channels = fetch_channels(query="VTuber", max_results=500, page_limit=10)
print("VTuberå€™è£œã®ãƒãƒ£ãƒ³ãƒãƒ«æ•°:", len(vtuber_channels))

# éžVTuberå€™è£œã®ãƒãƒ£ãƒ³ãƒãƒ«æƒ…å ±ã‚’å–å¾—ï¼ˆä¾‹ï¼š"æ–™ç†"ã§æ¤œç´¢ï¼‰
non_vtuber_channels = fetch_channels(query="æ–™ç†", max_results=10, page_limit=10)
print("éžVTuberå€™è£œã®ãƒãƒ£ãƒ³ãƒãƒ«æ•°:", len(non_vtuber_channels))

ãƒ‡ãƒ¼ã‚¿ã‚’huggingfaceã«ã‚¢ãƒƒãƒ—ãƒãƒ¼ãƒ‰

ä½œæˆã—ãŸãƒ‡ãƒ¼ã‚¿ã‚’æ•´ç†ã—ã¦ï¼Œhuggingfaceã«ã‚¢ãƒƒãƒ—ãƒãƒ¼ãƒ‰ã—ã¾ã™

def add_label_and_text(item, label):
    # "title"ã¨"description"ã‚’çµåˆã—ã¦"text"ã‚’ä½œæˆã—ã€ãƒ©ãƒ™ãƒ«ã‚’è¿½åŠ 
    item["text"] = item["title"] + " " + item["description"]
    item["label"] = label
    return item

# VTuberå€™è£œã«ã¯ãƒ©ãƒ™ãƒ«1ã‚’ä»˜ä¸Ž
vtuber_channels_labeled = [add_label_and_text(item, 1) for item in vtuber_channels]
# éžVTuberå€™è£œã«ã¯ãƒ©ãƒ™ãƒ«0ã‚’ä»˜ä¸Ž
non_vtuber_channels_labeled = [add_label_and_text(item, 0) for item in non_vtuber_channels]

# ä¸¡æ–¹ã®ãƒªã‚¹ãƒˆã‚’é€£çµã—ã¦1ã¤ã®ãƒªã‚¹ãƒˆã«ã™ã‚‹
all_channels = vtuber_channels_labeled + non_vtuber_channels_labeled

# JSONLå½¢å¼ã§ä¿å˜ã™ã‚‹
import json
def save_to_jsonl(data, filename):
    with open(filename, "w", encoding="utf-8") as f:
        for item in data:
            f.write(json.dumps(item, ensure_ascii=False) + "\n")

save_to_jsonl(all_channels, "vtuber_youtube_list.jsonl")


# Hugging Face CLIã®ã‚¤ãƒ³ã‚¹ãƒˆãƒ¼ãƒ«ï¼ˆå¿…è¦ãªå ´åˆï¼‰
!pip install huggingface_hub

# Hugging Faceã«ãƒã‚°ã‚¤ãƒ³ï¼ˆã‚¢ã‚¯ã‚»ã‚¹ãƒˆãƒ¼ã‚¯ãƒ³ã‚’å…¥åŠ›ã™ã‚‹ãƒ—ãƒãƒ³ãƒ—ãƒˆãŒè¡¨ç¤ºã•ã‚Œã¾ã™ï¼‰
!huggingface-cli login

# å¿…è¦ãªãƒ©ã‚¤ãƒ–ãƒ©ãƒªã®ã‚¤ãƒ³ã‚¹ãƒˆãƒ¼ãƒ«ï¼ˆåˆå›žã®ã¿ï¼‰
!pip install huggingface_hub

from huggingface_hub import HfApi, upload_file
from google.colab import userdata
import time

# Colabã®ã‚·ãƒ¼ã‚¯ãƒ¬ãƒƒãƒˆã‹ã‚‰ã‚¢ã‚¯ã‚»ã‚¹ãƒˆãƒ¼ã‚¯ãƒ³ã‚’å–å¾—ï¼ˆ"HF_TOKEN"ã¨ã—ã¦ç™»éŒ²æ¸ˆã¿ï¼‰
hf_token = userdata.get('HF_TOKEN')
if hf_token is None:
    raise ValueError("HF_TOKENãŒã‚·ãƒ¼ã‚¯ãƒ¬ãƒƒãƒˆã«ç™»éŒ²ã•ã‚Œã¦ã„ã¾ã›ã‚“ã€‚")

# ã‚¢ãƒƒãƒ—ãƒãƒ¼ãƒ‰å…ˆã®ãƒªãƒã‚¸ãƒˆãƒªIDï¼ˆ"your_username" ã‚’ã‚ãªãŸã®Hugging Faceãƒ¦ãƒ¼ã‚¶ãƒ¼åã«ç½®ãæ›ãˆã¦ãã ã•ã„ï¼‰
repo_id = "ayousanz/vtuber-youtube-list-dataset"

# HfApiã‚’åˆ©ç”¨ã—ã¦ãƒªãƒã‚¸ãƒˆãƒªã‚’ä½œæˆï¼ˆæ—¢ã«å˜åœ¨ã™ã‚‹å ´åˆã¯ã‚¹ã‚ãƒƒãƒ—ï¼‰
api = HfApi()
try:
    api.create_repo(repo_id=repo_id, repo_type="dataset", exist_ok=True, token=hf_token)
    print(f"ãƒªãƒã‚¸ãƒˆãƒª '{repo_id}' ãŒä½œæˆæ¸ˆã¿ã€ã¾ãŸã¯æ—¢ã«å˜åœ¨ã—ã¾ã™ã€‚")
except Exception as e:
    print("ãƒªãƒã‚¸ãƒˆãƒªä½œæˆæ™‚ã®ã‚¨ãƒ©ãƒ¼:", e)

# Hubä¸Šã«åæ˜ ã•ã‚Œã‚‹ã¾ã§å¾…æ©Ÿï¼ˆä¾‹ï¼š10ç§’ï¼‰
print("Hubä¸Šã«åæ˜ ã•ã‚Œã‚‹ã¾ã§10ç§’å¾…ã¡ã¾ã™...")
time.sleep(10)

# JSONLãƒ•ã‚¡ã‚¤ãƒ«ï¼ˆä¾‹ï¼švtuber_channels.jsonl, non_vtuber_channels.jsonlï¼‰ã®ã‚¢ãƒƒãƒ—ãƒãƒ¼ãƒ‰
for filename in ["vtuber_youtube_list.jsonl"]:
    try:
        upload_file(
            path_or_fileobj=filename,
            path_in_repo=filename,
            repo_id=repo_id,
            repo_type="dataset",
            token=hf_token
        )
        print(f"{filename} ã®ã‚¢ãƒƒãƒ—ãƒãƒ¼ãƒ‰ãŒå®Œäº†ã—ã¾ã—ãŸã€‚")
    except Exception as e:
        print(f"{filename} ã®ã‚¢ãƒƒãƒ—ãƒãƒ¼ãƒ‰æ™‚ã«ã‚¨ãƒ©ãƒ¼ãŒç™ºç”Ÿã—ã¾ã—ãŸ:", e)

print("ã™ã¹ã¦ã®ãƒ•ã‚¡ã‚¤ãƒ«ã®ã‚¢ãƒƒãƒ—ãƒãƒ¼ãƒ‰ãŒå®Œäº†ã—ã¾ã—ãŸã€‚")

wandbã®æº–å‚™(å¿…è¦ãªã‘ã‚Œã°ã‚¹ã‚ãƒƒãƒ—å¯)

!pip install -U transformers>=4.48.0 datasets evaluate wandb

# wandbã®ãƒã‚°ã‚¤ãƒ³ï¼ˆåˆå›žã®ã¿å®Ÿè¡Œï¼‰
import wandb
from google.colab import userdata
wandb_api_key = userdata.get('WANDB_API_KEY')
!wandb login $wandb_api_key

å¦ç¿’ãƒ»è©•ä¾¡

# -------------------------------
# 0. Flash Attention ã®ç„¡åŠ¹åŒ–ï¼ˆGPUãŒAmpereæœªæº€ã®å ´åˆï¼‰
# -------------------------------
import os
os.environ["FLASH_ATTN_DISABLE"] = "1"

# -------------------------------
# 1. å¿…è¦ãªãƒ©ã‚¤ãƒ–ãƒ©ãƒªã®ã‚¤ãƒ³ã‚¹ãƒˆãƒ¼ãƒ«ï¼ˆåˆå›žã®ã¿ï¼‰
# -------------------------------
!pip install -U transformers datasets evaluate wandb huggingface_hub

# -------------------------------
# 2. å¿…è¦ãªãƒ¢ã‚¸ãƒ¥ãƒ¼ãƒ«ã®ã‚¤ãƒ³ãƒãƒ¼ãƒˆ
# -------------------------------
import torch
import numpy as np
from transformers import AutoTokenizer, AutoModelForSequenceClassification, TrainingArguments, Trainer
from datasets import load_dataset, DatasetDict, Features, Value
import evaluate
import wandb
from wandb import Settings
import time

# -------------------------------
# 3. wandb ã®åˆæœŸåŒ–ï¼ˆproject ã¨ entity ã‚’é©åˆ‡ã«è¨å®šï¼‰
# -------------------------------
wandb.init(
    project="modernbert-vtuber",
    entity="yousan",  # ã”è‡ªèº«ã® wandb ãƒ¦ãƒ¼ã‚¶ãƒ¼åã«å¤‰æ›´ã—ã¦ãã ã•ã„
    config={
        "model_name": "sbintuitions/modernbert-ja-130m",
        "epochs": 3,
        "batch_size": 4,
        "learning_rate": 2e-5
    },
    settings=Settings(init_timeout=210)
)

# -------------------------------
# 4. Hugging Face Hub ã‹ã‚‰ãƒ‡ãƒ¼ã‚¿ã‚»ãƒƒãƒˆã®èªã¿è¾¼ã¿
# -------------------------------
# JSONL ãƒ•ã‚¡ã‚¤ãƒ«ã¯ã€å„ãƒ¬ã‚³ãƒ¼ãƒ‰ãŒ "channel_id", "title", "description", "text", "label" ã‚’æŒã¤å‰æ
features = Features({
    "channel_id": Value("string"),
    "title": Value("string"),
    "description": Value("string"),
    "text": Value("string"),
    "label": Value("int64")
})

# ã“ã“ã§ã¯ã€ã‚¢ãƒƒãƒ—ãƒãƒ¼ãƒ‰æ¸ˆã¿ã®ãƒ‡ãƒ¼ã‚¿ã‚»ãƒƒãƒˆåï¼ˆä¾‹ï¼š"ayousanz/vtuber-youtube-list-dataset"ï¼‰ã‚’åˆ©ç”¨ã—ã¾ã™
dataset = load_dataset("ayousanz/vtuber-youtube-list-dataset", features=features)

# ã‚‚ã—ãƒ‡ãƒ¼ã‚¿ã‚»ãƒƒãƒˆã« "train" ã¨ "validation" ã® split ãŒå˜åœ¨ã—ãªã„å ´åˆã¯ã€å˜ä¸€ã® split ã‹ã‚‰åˆ†å‰²
if not ("train" in dataset and "validation" in dataset):
    single_split = list(dataset.keys())[0]
    split_dataset = dataset[single_split].train_test_split(test_size=0.2, seed=42)
    dataset = DatasetDict({
        "train": split_dataset["train"],
        "validation": split_dataset["test"]
    })

# JSONL ã« "text" ãƒ•ã‚£ãƒ¼ãƒ«ãƒ‰ãŒæ—¢ã«å˜åœ¨ã™ã‚‹å‰æã§ã™ãŒã€å¿µã®ãŸã‚ title ã¨ description ã‚’é€£çµã™ã‚‹å‡¦ç†ã‚’è¿½åŠ 
def add_text_field(example):
    if not example.get("text"):
        example["text"] = example["title"] + " " + example["description"]
    return example

dataset = dataset.map(add_text_field)

# â˜… å¿µã®ãŸã‚ã€ãƒ©ãƒ™ãƒ«ãŒ None ã§ãªã„ãƒ¬ã‚³ãƒ¼ãƒ‰ã®ã¿æ®‹ã™
dataset = dataset.filter(lambda x: x["label"] is not None)

print("ã‚µãƒ³ãƒ—ãƒ«ãƒ‡ãƒ¼ã‚¿ï¼ˆtrainï¼‰:")
print(dataset["train"][0])
print("ã‚µãƒ³ãƒ—ãƒ«ãƒ‡ãƒ¼ã‚¿ï¼ˆvalidationï¼‰:")
print(dataset["validation"][0])

# -------------------------------
# 5. ãƒ¢ãƒ‡ãƒ«ã¨ãƒˆãƒ¼ã‚¯ãƒŠã‚¤ã‚¶ãƒ¼ã®èªã¿è¾¼ã¿ãƒ»å‰å‡¦ç†
# -------------------------------
model_name = "sbintuitions/modernbert-ja-130m"
tokenizer = AutoTokenizer.from_pretrained(model_name)
# ãƒ¢ãƒ‡ãƒ«ã¯ãƒ‡ãƒ•ã‚©ãƒ«ãƒˆï¼ˆFP32ï¼‰ã§ãƒãƒ¼ãƒ‰ã™ã‚‹ï¼ˆfp16ã¯Trainerã§ç®¡ç†ï¼‰
model = AutoModelForSequenceClassification.from_pretrained(
    model_name, num_labels=2
)

# GPUãŒåˆ©ç”¨å¯èƒ½ãªå ´åˆã€ãƒ¢ãƒ‡ãƒ«ã‚’GPUã«ç§»å‹•
device = "cuda" if torch.cuda.is_available() else "cpu"
model.to(device)

# å‰å‡¦ç†ï¼šå„ãƒ¬ã‚³ãƒ¼ãƒ‰ã® "text" ã‚’ãƒˆãƒ¼ã‚¯ãƒŠã‚¤ã‚ºï¼ˆæœ€å¤§é•·128ã€paddingï¼‰
def preprocess_function(examples):
    return tokenizer(examples["text"], truncation=True, max_length=128, padding="max_length")

tokenized_datasets = dataset.map(preprocess_function, batched=True)

# -------------------------------
# 6. è©•ä¾¡æŒ‡æ¨™ãŠã‚ˆã³ãƒˆãƒ¬ãƒ¼ãƒ‹ãƒ³ã‚°è¨å®šï¼ˆwandbé€£æºï¼‰
# -------------------------------
accuracy_metric = evaluate.load("accuracy")
def compute_metrics(eval_pred):
    logits, labels = eval_pred
    predictions = np.argmax(logits, axis=-1)
    return accuracy_metric.compute(predictions=predictions, references=labels)

training_args = TrainingArguments(
    output_dir="./modernbert_vtuber_model",
    evaluation_strategy="epoch",   # å°†æ¥çš„ã«ã¯ eval_strategy ã«å¤‰æ›´
    learning_rate=2e-5,
    per_device_train_batch_size=4,
    per_device_eval_batch_size=4,
    num_train_epochs=3,
    weight_decay=0.01,
    save_strategy="epoch",
    logging_dir="./logs",
    report_to=["wandb"],
    run_name="modernbert_vtuber_finetuning",
    fp16=True  # Trainer ã«ã‚ˆã‚‹æ··åˆç²¾åº¦ãƒˆãƒ¬ãƒ¼ãƒ‹ãƒ³ã‚°ã‚’æœ‰åŠ¹åŒ–
)

trainer = Trainer(
    model=model,
    args=training_args,
    train_dataset=tokenized_datasets["train"],
    eval_dataset=tokenized_datasets["validation"],
    compute_metrics=compute_metrics,
)

# -------------------------------
# 7. ãƒ•ã‚¡ã‚¤ãƒ³ãƒãƒ¥ãƒ¼ãƒ‹ãƒ³ã‚°å®Ÿè¡Œ
# -------------------------------
trainer.train()

# å¦ç¿’æ¸ˆã¿ãƒ¢ãƒ‡ãƒ«ã¨ãƒˆãƒ¼ã‚¯ãƒŠã‚¤ã‚¶ãƒ¼ã®ä¿å˜
model.save_pretrained("./modernbert_vtuber_model")
tokenizer.save_pretrained("./modernbert_vtuber_model")

wandb.finish()

# -------------------------------
# 8. æŽ¨è«–é–¢æ•°ã®å®šç¾©ã¨ä½¿ç”¨ä¾‹
# -------------------------------
def classify_vtuber(text, threshold=50.0):
    """
    å…¥åŠ›æ–‡ç« ã«å¯¾ã—ã¦ VTuber åˆ¤å®šã‚’è¡Œã„ã€VTuber ã§ã‚ã‚‹ç¢ºä¿¡åº¦ (rate) ã‚’ç®—å‡ºã—ã¾ã™ã€‚
    threshold ä»¥ä¸Šãªã‚‰ VTuber ã¨åˆ¤å®šã—ã¾ã™ã€‚
    """
    inputs = tokenizer(text, return_tensors="pt", truncation=True, max_length=128, padding="max_length")
    inputs = {k: v.to(device) for k, v in inputs.items()}
    outputs = model(**inputs)
    logits = outputs.logits
    probabilities = torch.softmax(logits, dim=-1).squeeze().tolist()  # [éžVTuberç¢ºçŽ‡, VTuberç¢ºçŽ‡]
    vtuber_rate = probabilities[1] * 100
    is_vtuber = vtuber_rate >= threshold
    return {"isVTuber": is_vtuber, "rate": round(vtuber_rate, 3)}

# ä½¿ç”¨ä¾‹
input_text = "ã“ã®å‹•ç”»ã§ã¯ã€ãƒãƒ¼ãƒãƒ£ãƒ«ãªã‚ãƒ£ãƒ©ã‚¯ã‚¿ãƒ¼ãŒãƒªã‚¢ãƒ«ã‚¿ã‚¤ãƒ ã«å‹•ãæ§˜åã‚’é…ä¿¡ã—ã¦ã„ã¾ã™ã€‚"
result = classify_vtuber(input_text)
print("å…¥åŠ›æ–‡ç« ã®åˆ¤å®šçµæžœ:")
print(result)

æŽ¨è«–ã®çµæžœã¯ä»¥ä¸‹ã®ã‚ˆã†ã«ãªã‚Šã¾ã™

å…¥åŠ›æ–‡ç« ã®åˆ¤å®šçµæžœ:
{'isVTuber': True, 'rate': 100.0}

å¦ç¿’ã—ãŸãƒ¢ãƒ‡ãƒ«ã‚’huggingfaceã«ã‚¢ãƒƒãƒ—ãƒãƒ¼ãƒ‰

ä»¥ä¸‹ã§å¦ç¿’ã—ãŸãƒ¢ãƒ‡ãƒ«ã‚’huggingfaceã«ã‚¢ãƒƒãƒ—ãƒãƒ¼ãƒ‰ã—ã¾ã™

# huggingface_hub ãƒ©ã‚¤ãƒ–ãƒ©ãƒªã‹ã‚‰ãƒªãƒã‚¸ãƒˆãƒªä½œæˆç”¨ã®é–¢æ•°ã‚’ã‚¤ãƒ³ãƒãƒ¼ãƒˆ
from huggingface_hub import create_repo

# ã‚¢ãƒƒãƒ—ãƒãƒ¼ãƒ‰å…ˆã®ãƒªãƒã‚¸ãƒˆãƒªåã‚’æŒ‡å®šï¼ˆæ—¢ã«ä½œæˆæ¸ˆã¿ãªã‚‰ã“ã®ã‚¹ãƒ†ãƒƒãƒ—ã¯ã‚¹ã‚ãƒƒãƒ—å¯èƒ½ï¼‰
repo_id = "ayousanz/modernbert-vtuber-finetuned-1"  # ã”è‡ªèº«ã®ãƒ¦ãƒ¼ã‚¶ãƒ¼åã¨ãƒªãƒã‚¸ãƒˆãƒªåã«å¤‰æ›´ã—ã¦ãã ã•ã„
create_repo(repo_id, exist_ok=True)

# å¦ç¿’æ¸ˆã¿ãƒ¢ãƒ‡ãƒ«ã¨ãƒˆãƒ¼ã‚¯ãƒŠã‚¤ã‚¶ãƒ¼ã‚’ã‚¢ãƒƒãƒ—ãƒãƒ¼ãƒ‰
model.push_to_hub(repo_id)
tokenizer.push_to_hub(repo_id)

ãƒ¢ãƒ‡ãƒ«ã‚’Windowsã§æŽ¨è«–ã™ã‚‹

(Colobã®T4ã‚’ä½¿ã„åˆ‡ã£ã¦ã—ã¾ã£ãŸã®ã§) Windowsã§æŽ¨è«–ã‚’è¡Œãªã£ã¦ã„ãã¾ã™ã€‚æŽ¨è«–ã ã‘è©¦ã—ãŸã„æ–¹ã¯ã“ã¡ã‚‰ã®ã¿ã§è‰¯ã•ãã†ã§ã™

ç’°å¢ƒä½œæˆ

uv venv -p 3.11
source venv/bin/activate
uv pip install -r requirements.txt

æŽ¨è«–

ä»¥ä¸‹ã®ã‚³ãƒ¼ãƒ‰ã‚’å®Ÿè¡Œã—ã¾ã™

import torch
from transformers import AutoTokenizer, AutoModelForSequenceClassification, pipeline

# GPU ãŒåˆ©ç”¨å¯èƒ½ã‹ç¢ºèª
device = "cuda" if torch.cuda.is_available() else "cpu"
print("Using device:", device)

# Hugging Face Hub ä¸Šã®ãƒªãƒã‚¸ãƒˆãƒªã‹ã‚‰ãƒ¢ãƒ‡ãƒ«ã¨ãƒˆãƒ¼ã‚¯ãƒŠã‚¤ã‚¶ãƒ¼ã‚’ãƒãƒ¼ãƒ‰
model_name = "ayousanz/modernbert-vtuber-finetuned"
tokenizer = AutoTokenizer.from_pretrained(model_name)
model = AutoModelForSequenceClassification.from_pretrained(model_name)
model.to(device)  # GPU ãŒåˆ©ç”¨å¯èƒ½ãªã‚‰ GPU ã«ç§»å‹•

# æŽ¨è«–ç”¨ãƒ‘ã‚¤ãƒ—ãƒ©ã‚¤ãƒ³ã®ä½œæˆ
vtuber_classifier = pipeline("text-classification", model=model, tokenizer=tokenizer, device=0 if device=="cuda" else -1)

# 5ã¤ã®ã‚µãƒ³ãƒ—ãƒ«ãƒ†ã‚ã‚¹ãƒˆã§æŽ¨è«–ä¾‹ã‚’å®Ÿè¡Œ
sample_texts = [
    "ã“ã®å‹•ç”»ã§ã¯ã€ãƒãƒ¼ãƒãƒ£ãƒ«ãªã‚ãƒ£ãƒ©ã‚¯ã‚¿ãƒ¼ãŒãƒªã‚¢ãƒ«ã‚¿ã‚¤ãƒ ã«å‹•ãæ§˜åã‚’é…ä¿¡ã—ã¦ã„ã¾ã™ã€‚",
    "ã“ã®ãƒãƒ£ãƒ³ãƒãƒ«ã¯ã€æ–™ç†ãƒ¬ã‚·ãƒ”ã®å‹•ç”»ã‚’æŠ•ç¨¿ã—ã¦ã„ã¾ã™ã€‚",
    "æœ€æ–°ã®VTuberãŒãƒ©ã‚¤ãƒ–é…ä¿¡ã‚’è¡Œã£ã¦ãŠã‚Šã€è¦–è´è€…ã¨ã®äº¤æµãŒç››ã‚“ã§ã™ã€‚",
    "æ—…è¡Œå‹•ç”»ã‚’ä¸å¿ƒã«ã€ä¸–ç•Œå„åœ°ã®è¦³å…‰åœ°ã‚’ç´¹ä»‹ã—ã¦ã„ã¾ã™ã€‚",
    "ã“ã“ã§ã¯ã€3Dãƒ¢ãƒ‡ãƒ«ã‚’ä½¿ã£ãŸã‚¢ãƒ‹ãƒ¡ãƒ¼ã‚·ãƒ§ãƒ³å‹•ç”»ã‚’é…ä¿¡ã—ã¦ã„ã¾ã™ã€‚"
]

for text in sample_texts:
    result = vtuber_classifier(text)
    print("å…¥åŠ›:", text)
    print("æŽ¨è«–çµæžœ:", result)
    print("-" * 50)

å®Ÿè¡Œçµæžœã¯ä»¥ä¸‹ã®ã‚ˆã†ã«ãªã‚Šã¾ã™

Using device: cuda
Device set to use cuda:0
å…¥åŠ›: ã“ã®å‹•ç”»ã§ã¯ã€ãƒãƒ¼ãƒãƒ£ãƒ«ãªã‚ãƒ£ãƒ©ã‚¯ã‚¿ãƒ¼ãŒãƒªã‚¢ãƒ«ã‚¿ã‚¤ãƒ ã«å‹•ãæ§˜åã‚’é…ä¿¡ã—ã¦ã„ã¾ã™ã€‚
æŽ¨è«–çµæžœ: [{'label': 'LABEL_1', 'score': 1.0}]
--------------------------------------------------
å…¥åŠ›: ã“ã®ãƒãƒ£ãƒ³ãƒãƒ«ã¯ã€æ–™ç†ãƒ¬ã‚·ãƒ”ã®å‹•ç”»ã‚’æŠ•ç¨¿ã—ã¦ã„ã¾ã™ã€‚
æŽ¨è«–çµæžœ: [{'label': 'LABEL_0', 'score': 1.0}]
--------------------------------------------------
å…¥åŠ›: æœ€æ–°ã®VTuberãŒãƒ©ã‚¤ãƒ–é…ä¿¡ã‚’è¡Œã£ã¦ãŠã‚Šã€è¦–è´è€…ã¨ã®äº¤æµãŒç››ã‚“ã§ã™ã€‚
æŽ¨è«–çµæžœ: [{'label': 'LABEL_1', 'score': 1.0}]
--------------------------------------------------
å…¥åŠ›: æ—…è¡Œå‹•ç”»ã‚’ä¸å¿ƒã«ã€ä¸–ç•Œå„åœ°ã®è¦³å…‰åœ°ã‚’ç´¹ä»‹ã—ã¦ã„ã¾ã™ã€‚
æŽ¨è«–çµæžœ: [{'label': 'LABEL_0', 'score': 1.0}]
--------------------------------------------------
å…¥åŠ›: ã“ã“ã§ã¯ã€3Dãƒ¢ãƒ‡ãƒ«ã‚’ä½¿ã£ãŸã‚¢ãƒ‹ãƒ¡ãƒ¼ã‚·ãƒ§ãƒ³å‹•ç”»ã‚’é…ä¿¡ã—ã¦ã„ã¾ã™ã€‚
æŽ¨è«–çµæžœ: [{'label': 'LABEL_1', 'score': 0.8205193877220154}]
--------------------------------------------------

2025-02-17

Dockerç’°å¢ƒã§JETSãƒ¢ãƒ‡ãƒ«ã®éŸ³å£°åˆæˆãŠã‚ˆã³å¦ç¿’ã‚’è¡Œã†

AI Python

åˆã‚ã«

TTSã®ãƒ¢ãƒ‡ãƒ«ã®ä¸ã«jetsãŒã‚ã‚Šã¾ã™ã€‚2å¹´ã»ã©å‰ã®ãƒ¢ãƒ‡ãƒ«ãªã®ã§ç’°å¢ƒæ§‹ç¯‰ãŒã‹ãªã‚Šå¤§å¤‰ã ã£ãŸã®ã§Dockerã‚’ä½¿ã£ã¦å‹•ã‹ã›ã‚‹ç’°å¢ƒã‚’ä½œã‚Šã¾ã™

ä»Šå›žã®è¨˜äº‹ã«é–¢ã™ã‚‹å†…å®¹ã¯ä»¥ä¸‹ã®ãƒªãƒã‚¸ãƒˆãƒªã«ã¾ã¨ã‚ã¦ã„ã¾ã™ã€‚

github.com

é–‹ç™ºç’°å¢ƒ

Windows11

å¿…è¦ãªãƒªãƒã‚¸ãƒˆãƒªã‚’clone

ãã®ãŸã‚ä»¥ä¸‹ã®ã‚ˆã†ãªæ§‹é€ ã«ãªã‚‹ã‚ˆã†ã«ãƒªãƒã‚¸ãƒˆãƒªã‚’cloneã—ã¦ã„ãã¾ã™ã€‚ ãã‚Œãžã‚Œã®ãƒªãƒã‚¸ãƒˆãƒªã¯ã€ä»Šå›žã®ãŸã‚ã«æ•´ç†ã—ãŸãƒªãƒã‚¸ãƒˆãƒªã‚’ä½œæˆã—ã¾ã—ãŸã€‚

project/
â”œâ”€â”€ espnet/
   â”œâ”€â”€ tools
      â”œâ”€â”€ kaldi

Dockerç’°å¢ƒã‚’ä½œã‚‹

jetsã®å½“æ™‚ã®ç’°å¢ƒãŒå®‰å®šã—ã¦ã„ãŸãŸã€ä»¥ä¸‹ã®æ¡ä»¶ã§dockerç’°å¢ƒã‚’æ§‹ç¯‰ã—ã¾ã™

cuda 11.x
python 3.8
torch 1.10

ä»¥ä¸‹ãŒå®Ÿéš›ã«ä½œæˆã—ãŸDockerfileã§ã™

FROM nvidia/cuda:11.3.1-cudnn8-runtime-ubuntu20.04

# éžå¯¾è©±ãƒ¢ãƒ¼ãƒ‰ã¨ã‚¿ã‚¤ãƒ ã‚¾ãƒ¼ãƒ³ã®è¨å®š
ENV DEBIAN_FRONTEND=noninteractive
ENV TZ=Asia/Tokyo

# tzdata ã‚’å…ˆã«ã‚¤ãƒ³ã‚¹ãƒˆãƒ¼ãƒ«ã—ã¦ã‚¿ã‚¤ãƒ ã‚¾ãƒ¼ãƒ³ã®è¨å®šã€ãã®å¾Œå¿…è¦ãªãƒ‘ãƒƒã‚±ãƒ¼ã‚¸ã‚’ã‚¤ãƒ³ã‚¹ãƒˆãƒ¼ãƒ«
RUN apt-get update && \
    apt-get install -y tzdata && \
    ln -fs /usr/share/zoneinfo/Asia/Tokyo /etc/localtime && \
    dpkg-reconfigure --frontend noninteractive tzdata && \
    apt-get install -y software-properties-common && \
    add-apt-repository universe && \
    apt-get update && \
    apt-get install -y git \
                       python3.8 python3.8-dev python3.8-venv python3-pip wget \
                       libfreetype6-dev libpng-dev pkg-config && \
    python3.8 -m pip install --upgrade pip

# PyTorch 1.10.1 (CUDA 11.3 å¯¾å¿œç‰ˆ) ã®ã‚¤ãƒ³ã‚¹ãƒˆãƒ¼ãƒ«
RUN python3.8 -m pip install torch==1.10.1+cu113 torchvision==0.11.2+cu113 torchaudio==0.10.1+cu113 \
    -f https://download.pytorch.org/whl/torch_stable.html

# python ã‚³ãƒžãƒ³ãƒ‰ã§ python3.8 ã‚’åˆ©ç”¨ã§ãã‚‹ã‚ˆã†ã«ã‚·ãƒ³ãƒœãƒªãƒƒã‚¯ãƒªãƒ³ã‚¯ã‚’ä½œæˆ
RUN ln -sf /usr/bin/python3.8 /usr/bin/python

WORKDIR /work/espnet

ENV PYTHONPATH=/work/espnet:$PYTHONPATH

# ã“ã“ã§ ESPnet ã®ä¾å˜ãƒ©ã‚¤ãƒ–ãƒ©ãƒªã‚’ã‚¤ãƒ³ã‚¹ãƒˆãƒ¼ãƒ«
RUN python -m pip install \
    kaldiio==2.18.0 \
    humanfriendly==10.0 \
    numpy==1.24.4 \
    resampy==0.4.3 \
    soundfile==0.13.1 \
    nltk==3.9.1 \
    tqdm==4.67.1 \
    matplotlib==3.7.5 \
    typeguard==2.7.1 \
    inflect==5.0.3 \
    espnet_model_zoo==0.1.7

# å¿…è¦ãª NLTK ãƒªã‚½ãƒ¼ã‚¹ã®ãƒ€ã‚¦ãƒ³ãƒãƒ¼ãƒ‰ï¼ˆåŒã˜ Python ç’°å¢ƒå†…ã§å®Ÿè¡Œï¼‰
RUN python -c "import nltk; nltk.download('averaged_perceptron_tagger_eng')"

CMD ["/bin/bash"]

project/
â”œâ”€â”€ espnet/
â”‚  â”œâ”€â”€ tools
â”‚     â”œâ”€â”€ kaldi
â”œâ”€â”€Dockerfile

ã“ã®Dockerfileã‚’ä»¥ä¸‹ã§ãƒ“ãƒ«ãƒ‰ã—ã¦ã€ã‚³ãƒ³ãƒ†ãƒŠå†…ã«å…¥ã‚Šã¾ã™ã€‚ã“ã®ã¨ãã«ãƒœãƒªãƒ¥ãƒ¼ãƒ ã¯ãƒžã‚¦ãƒ³ãƒˆã—ã¦å®Ÿè¡Œã—ã¾ã™

docker build -t espnet-jets .
docker run -it --rm -v "${PWD}:/work" espnet-jets bash

å‰å‡¦ç†

ã‚³ãƒ³ãƒ†ãƒŠå†…ã«å…¥ã£ãŸå¾Œã«espnetãŒæ£ã—ãã‚¤ãƒ³ã‚¹ãƒˆãƒ¼ãƒ«ã•ã‚Œã‚‹ã‚ˆã†ã«ä»¥ä¸‹ã‚’å®Ÿè¡Œã—ã¦ã‚¤ãƒ³ã‚¹ãƒˆãƒ¼ãƒ«ã‚’è¡Œã„ã¾ã™

pip install -e .

éŸ³å£°åˆæˆã®å®Ÿè¡Œ

cd egs2/ljspeech/tts1

æ¬¡ã«éŸ³å£°åˆæˆã‚’è¡Œã†ãŸã‚ã«ä»¥ä¸‹ã‚’å®Ÿè¡Œã—ã¾ã™ã€‚ ãƒ‡ãƒ¼ã‚¿ã®å‰å‡¦ç†ã€ãƒ¢ãƒ‡ãƒ«ã®ãƒ€ã‚¦ãƒ³ãƒãƒ¼ãƒ‰ã‚’ä¸€æ‹¬ã§è¡Œã„ã¾ã™ (å°‘ã—æ™‚é–“ãŒã‹ã‹ã‚‹ã®ã§æ”¾ç½®ã—ã¦ãã ã•ã„)

./run.sh --skip_data_prep false --skip_train true --download_model imdanboy/jets

éŸ³å£°åˆæˆã®çµæžœ

ä»¥ä¸‹ã®ãƒ‘ã‚¹ã«å‡¦ç†ãŒçµ‚ã‚ã£ãŸå¾Œã«wavãƒ•ã‚¡ã‚¤ãƒ«ãŒä¿å˜ã•ã‚Œã¦ã„ã¾ã™ã€‚

exp/imdanboy/jets/decode_train.loss.ave/dev/wav/

root@a895d360c83b:/work/espnet/egs2/ljspeech/tts1# ls -l exp/imdanboy/jets/decode_train.loss.ave/dev/wav/
total 69404
-rw-r--r-- 1 root root 235052 Feb 17 15:21 LJ049-0008.wav
-rw-r--r-- 1 root root 421420 Feb 17 15:22 LJ049-0009.wav
-rw-r--r-- 1 root root 138284 Feb 17 15:22 LJ049-0010.wav
-rw-r--r-- 1 root root 394284 Feb 17 15:22 LJ049-0011.wav

ä»¥ä¸‹ã¯æŽ¨è«–å®Ÿè¡Œæ™‚ã®ãƒã‚°ã§ã™

root@a895d360c83b:/work/espnet/egs2/ljspeech/tts1# ./run.sh --skip_data_prep false --skip_train true --download_model imdanboy/jets
2025-02-17T15:11:01 (tts.sh:211:main) ./tts.sh --lang en --feats_type raw --fs 22050 --n_fft 1024 --n_shift 256 --token_type phn --cleaner tacotron --g2p g2p_en_no_space --train_config conf/train.yaml --inference_config conf/decode.yaml --train_set tr_no_dev --valid_set dev --test_sets dev eval1 --srctexts data/tr_no_dev/text --audio_format wav --skip_data_prep false --skip_train true --download_model imdanboy/jets
2025-02-17T15:11:02 (tts.sh:307:main) Stage 1: Data preparation for data/tr_no_dev, data/dev, etc.
2025-02-17T15:11:02 (data.sh:16:main) local/data.sh 
2025-02-17T15:11:02 (data.sh:39:main) stage -1: Data Download
already exists. skipped.
2025-02-17T15:11:03 (data.sh:44:main) stage 0: Data Preparation
utils/validate_data_dir.sh: WARNING: you have only one speaker.  This probably a bad idea.
   Search for the word 'bold' in http://kaldi-asr.org/doc/data_prep.html
   for more information.
utils/validate_data_dir.sh: Successfully validated data-directory data/train
2025-02-17T15:20:07 (data.sh:77:main) stage 2: utils/subset_data_dir.sg
utils/subset_data_dir.sh: reducing #utt from 13100 to 500
utils/subset_data_dir.sh: reducing #utt from 500 to 250
utils/subset_data_dir.sh: reducing #utt from 500 to 250
utils/subset_data_dir.sh: reducing #utt from 13100 to 12600
2025-02-17T15:20:10 (data.sh:86:main) Successfully finished. [elapsed=548s]
2025-02-17T15:20:10 (tts.sh:323:main) Stage 2: Format wav.scp: data/ -> dump/raw/
utils/copy_data_dir.sh: copied data from data/tr_no_dev to dump/raw/org/tr_no_dev
utils/validate_data_dir.sh: WARNING: you have only one speaker.  This probably a bad idea.
   Search for the word 'bold' in http://kaldi-asr.org/doc/data_prep.html
   for more information.
utils/validate_data_dir.sh: Successfully validated data-directory dump/raw/org/tr_no_dev
2025-02-17T15:20:12 (format_wav_scp.sh:42:main) scripts/audio/format_wav_scp.sh --nj 8 --cmd run.pl --audio-format wav --fs 22050 data/tr_no_dev/wav.scp dump/raw/org/tr_no_dev
2025-02-17T15:20:13 (format_wav_scp.sh:110:main) [info]: without segments
2025-02-17T15:20:34 (format_wav_scp.sh:142:main) Successfully finished. [elapsed=22s]
utils/copy_data_dir.sh: copied data from data/dev to dump/raw/org/dev
utils/validate_data_dir.sh: WARNING: you have only one speaker.  This probably a bad idea.
   Search for the word 'bold' in http://kaldi-asr.org/doc/data_prep.html
   for more information.
utils/validate_data_dir.sh: Successfully validated data-directory dump/raw/org/dev
2025-02-17T15:20:35 (format_wav_scp.sh:42:main) scripts/audio/format_wav_scp.sh --nj 8 --cmd run.pl --audio-format wav --fs 22050 data/dev/wav.scp dump/raw/org/dev
2025-02-17T15:20:36 (format_wav_scp.sh:110:main) [info]: without segments
2025-02-17T15:20:39 (format_wav_scp.sh:142:main) Successfully finished. [elapsed=4s]
utils/copy_data_dir.sh: copied data from data/dev to dump/raw/org/dev
utils/validate_data_dir.sh: WARNING: you have only one speaker.  This probably a bad idea.
   Search for the word 'bold' in http://kaldi-asr.org/doc/data_prep.html
   for more information.
utils/validate_data_dir.sh: Successfully validated data-directory dump/raw/org/dev
2025-02-17T15:20:40 (format_wav_scp.sh:42:main) scripts/audio/format_wav_scp.sh --nj 8 --cmd run.pl --audio-format wav --fs 22050 data/dev/wav.scp dump/raw/org/dev
2025-02-17T15:20:41 (format_wav_scp.sh:110:main) [info]: without segments
2025-02-17T15:20:44 (format_wav_scp.sh:142:main) Successfully finished. [elapsed=4s]
utils/copy_data_dir.sh: copied data from data/eval1 to dump/raw/eval1
utils/validate_data_dir.sh: WARNING: you have only one speaker.  This probably a bad idea.
   Search for the word 'bold' in http://kaldi-asr.org/doc/data_prep.html
   for more information.
utils/validate_data_dir.sh: Successfully validated data-directory dump/raw/eval1
2025-02-17T15:20:45 (format_wav_scp.sh:42:main) scripts/audio/format_wav_scp.sh --nj 8 --cmd run.pl --audio-format wav --fs 22050 data/eval1/wav.scp dump/raw/eval1
2025-02-17T15:20:45 (format_wav_scp.sh:110:main) [info]: without segments
2025-02-17T15:20:49 (format_wav_scp.sh:142:main) Successfully finished. [elapsed=4s]
2025-02-17T15:20:49 (tts.sh:468:main) Stage 3: Remove long/short data: dump/raw/org -> dump/raw
utils/copy_data_dir.sh: copied data from dump/raw/org/tr_no_dev to dump/raw/tr_no_dev
utils/validate_data_dir.sh: WARNING: you have only one speaker.  This probably a bad idea.
   Search for the word 'bold' in http://kaldi-asr.org/doc/data_prep.html
   for more information.
utils/validate_data_dir.sh: Successfully validated data-directory dump/raw/tr_no_dev
fix_data_dir.sh: kept all 12600 utterances.
fix_data_dir.sh: old files are kept in dump/raw/tr_no_dev/.backup
utils/copy_data_dir.sh: copied data from dump/raw/org/dev to dump/raw/dev
utils/validate_data_dir.sh: WARNING: you have only one speaker.  This probably a bad idea.
   Search for the word 'bold' in http://kaldi-asr.org/doc/data_prep.html
   for more information.
utils/validate_data_dir.sh: Successfully validated data-directory dump/raw/dev
fix_data_dir.sh: kept all 250 utterances.
fix_data_dir.sh: old files are kept in dump/raw/dev/.backup
2025-02-17T15:20:55 (tts.sh:523:main) Stage 4: Generate token_list from data/tr_no_dev/text
[nltk_data] Downloading package averaged_perceptron_tagger to
[nltk_data]     /root/nltk_data...
[nltk_data]   Unzipping taggers/averaged_perceptron_tagger.zip.
[nltk_data] Downloading package cmudict to /root/nltk_data...
[nltk_data]   Unzipping corpora/cmudict.zip.
/usr/bin/python3 /work/espnet/espnet2/bin/tokenize_text.py --token_type phn -f 2- --input dump/raw/srctexts --output dump/token_list/phn_tacotron_g2p_en_no_space/tokens.txt --non_linguistic_symbols none --cleaner tacotron --g2p g2p_en_no_space --write_vocabulary true --add_symbol '<blank>:0' --add_symbol '<unk>:1' --add_symbol '<sos/eos>:-1'
2025-02-17 15:21:10,513 (tokenize_text:174) INFO: OOV rate = 0.0 %
2025-02-17T15:21:10 (tts.sh:907:main) Skip training stages
2025-02-17T15:21:10 (tts.sh:912:main) Use imdanboy/jets for decoding and evaluation
(â€¦)2p_en_no_space%2Ftrain%2Fpitch_stats.npz: 100%|â–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆ| 770/770 [00:00<00:00, 266kB/s]
(â€¦)e%2Fimages%2Fdiscriminator_fake_loss.png: 100%|â–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆ| 75.2k/75.2k [00:00<00:00, 4.79MB/s]
(â€¦)p_en_no_space%2Ftrain%2Fenergy_stats.npz: 100%|â–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆ| 770/770 [00:00<00:00, 238kB/s]
(â€¦)images%2Fdiscriminator_backward_time.png: 100%|â–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆ| 73.7k/73.7k [00:00<00:00, 5.66MB/s]
README.md: 100%|â–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆ| 11.6k/11.6k [00:00<00:00, 4.72MB/s]
(â€¦)n_tacotron_g2p_en_no_space%2Fconfig.yaml: 100%|â–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆ| 9.54k/9.54k [00:00<00:00, 3.15MB/s]
(â€¦)2p_en_no_space%2Ftrain%2Ffeats_stats.npz: 100%|â–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆ| 1.40k/1.40k [00:00<00:00, 481kB/s]
.gitattributes: 100%|â–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆ| 1.17k/1.17k [00:00<00:00, 426kB/s]
(â€¦)ages%2Fdiscriminator_optim_step_time.png: 100%|â–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆ| 36.0k/36.0k [00:00<00:00, 11.1MB/s]
(â€¦)_space%2Fimages%2Fdiscriminator_loss.png: 100%|â–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆ| 75.1k/75.1k [00:00<00:00, 16.8MB/s]
(â€¦)%2Fimages%2Fdiscriminator_train_time.png: 100%|â–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆ| 74.1k/74.1k [00:00<00:00, 19.7MB/s]
(â€¦)es%2Fgenerator_align_forwardsum_loss.png: 100%|â–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆ| 32.7k/32.7k [00:00<00:00, 26.1MB/s]
(â€¦)%2Fimages%2Fgenerator_align_bin_loss.png: 100%|â–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆ| 32.8k/32.8k [00:00<00:00, 23.1MB/s]
(â€¦)pace%2Fimages%2Fgenerator_align_loss.png: 100%|â–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆ| 31.7k/31.7k [00:00<00:00, 23.5MB/s]
(â€¦)e%2Fimages%2Fgenerator_backward_time.png: 100%|â–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆ| 76.1k/76.1k [00:00<00:00, 29.8MB/s]
(â€¦)ce%2Fimages%2Fgenerator_forward_time.png: 100%|â–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆ| 27.8k/27.8k [00:00<00:00, 25.9MB/s]
(â€¦)Fimages%2Fdiscriminator_forward_time.png: 100%|â–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆ| 76.3k/76.3k [00:00<00:00, 533kB/s]
(â€¦)e%2Fimages%2Fdiscriminator_real_loss.png: 100%|â–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆ| 75.7k/75.7k [00:00<00:00, 505kB/s]
(â€¦)pace%2Fimages%2Fgenerator_g_adv_loss.png: 100%|â–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆ| 65.5k/65.5k [00:00<00:00, 45.3MB/s]
(â€¦)no_space%2Fimages%2Fgenerator_g_loss.png: 100%|â–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆ| 36.8k/36.8k [00:00<00:00, 40.3MB/s]
(â€¦)pace%2Fimages%2Fgenerator_g_mel_loss.png: 100%|â–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆ| 33.9k/33.9k [00:00<00:00, 28.1MB/s]
(â€¦)images%2Fgenerator_g_feat_match_loss.png: 100%|â–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆ| 44.5k/44.5k [00:00<00:00, 21.5MB/s]
(â€¦)n_no_space%2Fimages%2Fgenerator_loss.png: 100%|â–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆ| 33.2k/33.2k [00:00<00:00, 28.5MB/s]
(â€¦)2Fimages%2Fgenerator_optim_step_time.png: 100%|â–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆ| 39.0k/39.0k [00:00<00:00, 35.3MB/s]
(â€¦)2Fimages%2Fgenerator_var_energy_loss.png: 100%|â–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆ| 31.1k/31.1k [00:00<00:00, 27.1MB/s]
(â€¦)ce%2Fimages%2Fgenerator_var_dur_loss.png: 100%|â–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆ| 39.5k/39.5k [00:00<00:00, 30.8MB/s]
(â€¦)ace%2Fimages%2Fgpu_max_cached_mem_GB.png: 100%|â–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆ| 32.8k/32.8k [00:00<00:00, 22.4MB/s]
(â€¦)_space%2Fimages%2Fgenerator_var_loss.png: 100%|â–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆ| 30.9k/30.9k [00:00<00:00, 10.4MB/s]
(â€¦)%2Fimages%2Fgenerator_var_pitch_loss.png: 100%|â–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆ| 35.4k/35.4k [00:00<00:00, 14.0MB/s]
(â€¦)pace%2Fimages%2Fgenerator_train_time.png: 100%|â–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆ| 30.3k/30.3k [00:00<00:00, 33.5MB/s]
(â€¦)2p_en_no_space%2Fimages%2Foptim0_lr0.png: 100%|â–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆ| 25.2k/25.2k [00:00<00:00, 22.6MB/s]
(â€¦)2p_en_no_space%2Fimages%2Foptim1_lr0.png: 100%|â–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆ| 25.0k/25.0k [00:00<00:00, 19.9MB/s]
(â€¦)2p_en_no_space%2Fimages%2Ftrain_time.png: 100%|â–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆ| 36.2k/36.2k [00:00<00:00, 27.2MB/s]
(â€¦)g2p_en_no_space%2Fimages%2Fiter_time.png: 100%|â–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆ| 85.4k/85.4k [00:00<00:00, 592kB/s]
meta.yaml: 100%|â–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆ| 326/326 [00:00<00:00, 319kB/s]
train.total_count.ave_5best.pth: 100%|â–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆ| 334M/334M [00:09<00:00, 33.6MB/s]
Fetching 36 files: 100%|â–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆ| 36/36 [00:12<00:00,  2.90it/s]
2025-02-17T15:21:24 (tts.sh:933:main) Stage 7: Decoding: training_dir=exp/imdanboy/jets
2025-02-17T15:21:24 (tts.sh:956:main) Generate 'exp/imdanboy/jets/decode_train.loss.ave/run.sh'. You can resume the process from stage 7 using this script
2025-02-17T15:21:25 (tts.sh:1010:main) Decoding started... log: 'exp/imdanboy/jets/decode_train.loss.ave/dev/log/tts_inference.*.log'

2025-02-17T15:30:33 (tts.sh:1010:main) Decoding started... log: 'exp/imdanboy/jets/decode_train.loss.ave/eval1/log/tts_inference.*.log'

2025-02-17T15:40:02 (tts.sh:1180:main) Skip the uploading stage
2025-02-17T15:40:02 (tts.sh:1232:main) Skip the uploading to HuggingFace stage
2025-02-17T15:40:02 (tts.sh:1235:main) Successfully finished. [elapsed=1741s]

JETSã®å¦ç¿’

å¦ç¿’ã‚’ã™ã‚‹å ´åˆã¯ã€ä»¥ä¸‹ã®ã‚³ãƒžãƒ³ãƒ‰ã«ã¦ä¸€ã‹ã‚‰å¦ç¿’ã‚’é–‹å§‹ã§ãã¾ã™

./run.sh --train_config conf/tuning/train_jets.yaml --tts_task gan_tts --stage 1 --stop_stage 7 --ngpu 1

--train_args "--max_epoch 1 --num_iters_per_epoch 30"

åˆã‚ã«

é–‹ç™ºç’°å¢ƒ

Dockerç’°å¢ƒã®ä½œæˆ

å®Ÿè¡Œ

åˆã‚ã«

ãƒ‡ãƒ¢

é–‹ç™ºç’°å¢ƒ

ç’°å¢ƒæ§‹ç¯‰

å¼•æ•°ã«URLã‚’æŒ‡å®šã—ã¦å®Ÿè¡Œã™ã‚‹

åˆã‚ã«

toioã¨ã¯

é–‹ç™ºç’°å¢ƒ

midiãƒ•ã‚¡ã‚¤ãƒ«ã‹ã‚‰toio-jsonã«å¤‰æ›ã™ã‚‹

ç’°å¢ƒæ§‹ç¯‰

midiãƒ•ã‚¡ã‚¤ãƒ«ã‹ã‚‰jsonã«å¤‰æ›

Unityã§midi-jsonã‹ã‚‰toioã‚’å‹•ã‹ã™

ã‚»ãƒƒãƒˆã‚¢ãƒƒãƒ—

untiyã‹ã‚‰ã‚­ãƒ¥ãƒ¼ãƒ–ã«æŽ¥ç¶šã™ã‚‹

toioã§ç‰¹å®šã®éŸ³ã‚’å†ç”Ÿã™ã‚‹

midi-jsonã‚’ãƒ­ãƒ¼ãƒ‰ã™ã‚‹

midi-jsonã‹ã‚‰toioã§ã‚¯ãƒ©ã‚·ãƒƒã‚¯éŸ³æ¥½ã‚’é³´ã‚‰ã™

cubeã«ç§»å‹•ã®å‘½ä»¤ã‚’é€ã‚‹

midiæƒ…å ±ã‹ã‚‰å‹•ãã‚’æ±ºã‚ã‚‹

åˆã‚ã«

é–‹ç™ºç’°å¢ƒ

ç’°å¢ƒä½œæˆ

æŽ¨è«–ã®æº–å‚™

æŽ¨è«–

åˆã‚ã«

é–‹ç™ºç’°å¢ƒ

ç’°å¢ƒä½œæˆ

å®Ÿè¡Œ

TTS pipelineã‚’ä½¿ã†æ–¹æ³•

transformers modelling codeã‚’ä½¿ã†æ–¹æ³•

åˆã‚ã«

é–‹ç™ºç’°å¢ƒ

Google Colobã®æº–å‚™

ãƒ‡ãƒ¼ã‚¿ã‚»ãƒƒãƒˆã®ä½œæˆ

ãƒ‡ãƒ¼ã‚¿ã‚’huggingfaceã«ã‚¢ãƒƒãƒ—ãƒ­ãƒ¼ãƒ‰

wandbã®æº–å‚™(å¿…è¦ãªã‘ã‚Œã°ã‚¹ã‚­ãƒƒãƒ—å¯)

å­¦ç¿’ãƒ»è©•ä¾¡

å­¦ç¿’ã—ãŸãƒ¢ãƒ‡ãƒ«ã‚’huggingfaceã«ã‚¢ãƒƒãƒ—ãƒ­ãƒ¼ãƒ‰

ãƒ¢ãƒ‡ãƒ«ã‚’Windowsã§æŽ¨è«–ã™ã‚‹

ç’°å¢ƒä½œæˆ

æŽ¨è«–

åˆã‚ã«

é–‹ç™ºç’°å¢ƒ

å¿…è¦ãªãƒªãƒã‚¸ãƒˆãƒªã‚’clone

Dockerç’°å¢ƒã‚’ä½œã‚‹

å‰å‡¦ç†

éŸ³å£°åˆæˆã®å®Ÿè¡Œ

éŸ³å£°åˆæˆã®çµæžœ

JETSã®å­¦ç¿’

åˆã‚ã«

Dockerç’°å¢ƒã®ä½œæˆ

åˆã‚ã«

å¼•æ•°ã«URLã‚’æŒ‡å®šã—ã¦å®Ÿè¡Œã™ã‚‹

åˆã‚ã«

toioã¨ã¯

midiãƒ•ã‚¡ã‚¤ãƒ«ã‹ã‚‰toio-jsonã«å¤‰æ›ã™ã‚‹

midiãƒ•ã‚¡ã‚¤ãƒ«ã‹ã‚‰jsonã«å¤‰æ›

Unityã§midi-jsonã‹ã‚‰toioã‚’å‹•ã‹ã™

untiyã‹ã‚‰ã‚ãƒ¥ãƒ¼ãƒ–ã«æŽ¥ç¶šã™ã‚‹

toioã§ç‰¹å®šã®éŸ³ã‚’å†ç”Ÿã™ã‚‹

midi-jsonã‚’ãƒãƒ¼ãƒ‰ã™ã‚‹

midi-jsonã‹ã‚‰toioã§ã‚¯ãƒ©ã‚·ãƒƒã‚¯éŸ³æ¥½ã‚’é³´ã‚‰ã™

cubeã«ç§»å‹•ã®å‘½ä»¤ã‚’é€ã‚‹

midiæƒ…å ±ã‹ã‚‰å‹•ãã‚’æ±ºã‚ã‚‹

åˆã‚ã«

ç’°å¢ƒä½œæˆ

æŽ¨è«–ã®æº–å‚™

åˆã‚ã«

ç’°å¢ƒä½œæˆ

TTS pipelineã‚’ä½¿ã†æ–¹æ³•

transformers modelling codeã‚’ä½¿ã†æ–¹æ³•

åˆã‚ã«

Google Colobã®æº–å‚™

ãƒ‡ãƒ¼ã‚¿ã‚»ãƒƒãƒˆã®ä½œæˆ

ãƒ‡ãƒ¼ã‚¿ã‚’huggingfaceã«ã‚¢ãƒƒãƒ—ãƒãƒ¼ãƒ‰

wandbã®æº–å‚™(å¿…è¦ãªã‘ã‚Œã°ã‚¹ã‚ãƒƒãƒ—å¯)

å¦ç¿’ãƒ»è©•ä¾¡

å¦ç¿’ã—ãŸãƒ¢ãƒ‡ãƒ«ã‚’huggingfaceã«ã‚¢ãƒƒãƒ—ãƒãƒ¼ãƒ‰

ãƒ¢ãƒ‡ãƒ«ã‚’Windowsã§æŽ¨è«–ã™ã‚‹

ç’°å¢ƒä½œæˆ

åˆã‚ã«

å¿…è¦ãªãƒªãƒã‚¸ãƒˆãƒªã‚’clone

å‰å‡¦ç†

éŸ³å£°åˆæˆã®å®Ÿè¡Œ

éŸ³å£°åˆæˆã®çµæžœ

JETSã®å¦ç¿’