2024-12-17

talkbank/callhomeã®æ—¥æœ¬èªžéŸ³å£°ã‚’wavå½¢å¼ã§ä¿å˜ã™ã‚‹

é–‹ç™ºç’°å¢ƒ

python 3.9
uv

ã‚»ãƒƒãƒˆã‚¢ãƒƒãƒ—

ãƒ©ã‚¤ãƒ–ãƒ©ãƒªã‚’ã‚¤ãƒ³ã‚¹ãƒˆãƒ¼ãƒ«ã—ã¾ã™

uv pip install datasets[audio] soundfile pydub

å®Ÿè¡Œ

ä»¥ä¸‹ã§ãƒ‡ãƒ¼ã‚¿ã‚»ãƒƒãƒˆã‚’ãƒ€ã‚¦ãƒ³ãƒãƒ¼ãƒ‰ã—ã¦ã€wavå½¢å¼ã§ä¿å˜ã—ã¾ã™

from datasets import load_dataset
import soundfile as sf  # wavãƒ•ã‚¡ã‚¤ãƒ«ã®ä¿å˜ã«ä½¿ç”¨
from pydub import AudioSegment  # mp3ãƒ•ã‚¡ã‚¤ãƒ«ã®ä¿å˜ã«ä½¿ç”¨
import os

# æ—¥æœ¬èªžã®ãƒ‡ãƒ¼ã‚¿ã‚»ãƒƒãƒˆã‚’ãƒãƒ¼ãƒ‰
ds = load_dataset("diarizers-community/callhome", "jpn", split='data')

# ä¿å˜å…ˆã®ãƒ‡ã‚£ãƒ¬ã‚¯ãƒˆãƒªã‚’æŒ‡å®š
output_dir = "callhome_japanese_audio"
os.makedirs(output_dir, exist_ok=True)

# éŸ³å£°ãƒ‡ãƒ¼ã‚¿ã‚’ãƒ«ãƒ¼ãƒ—ã—ã¦ä¿å˜
for idx, example in enumerate(ds):
    # éŸ³å£°ãƒ‡ãƒ¼ã‚¿ã®å–å¾—
    audio = example['audio']
    array = audio['array']
    sampling_rate = audio['sampling_rate']

    # ãƒ•ã‚¡ã‚¤ãƒ«åã‚’ä½œæˆ
    filename_base = f"callhome_jpn_{idx}"

    # wavãƒ•ã‚¡ã‚¤ãƒ«ã¨ã—ã¦ä¿å˜
    wav_path = os.path.join(output_dir, f"{filename_base}.wav")
    sf.write(wav_path, array, sampling_rate)
    print(f"Saved WAV file: {wav_path}")

2024-12-16

pyannote + whisperã§è©±è€…ãƒ€ã‚¤ã‚¢ãƒ©ã‚¤ã‚¼ãƒ¼ã‚·ãƒ§ãƒ³ã‚’è¡Œã†

åˆã‚ã«

ä»Šå›žã¯å®šç•ªã®pyanonoteã¨whisperã§è©±è€…ãƒ€ã‚¤ã‚¢ãƒ©ã‚¤ã‚¼ãƒ¼ã‚·ãƒ§ãƒ³ã‚’è¡Œã£ã¦ã¿ã¾ã™

ä»¥ä¸‹ã§è¨˜äº‹ã®ã‚µãƒ³ãƒ—ãƒ«ãƒªãƒã‚¸ãƒˆãƒªã‚’å…¬é–‹ã—ã¦ã„ã¾ã™

github.com

éŽåŽ»ã«ã¯ã»ã‹ã®ãƒ©ã‚¤ãƒ–ãƒ©ãƒªã§ã‚‚è©¦ã—ã¦ã„ã‚‹ã®ã§ã€ã»ã‹ã«ã©ã®ã‚ˆã†ãªãƒ©ã‚¤ãƒ–ãƒ©ãƒªãŒã‚ã‚‹ã®ã‹æ°—ã«ãªã‚‹å ´åˆã¯ã”è¦§ãã ã•ã„

ayousanz.hatenadiary.jp

é–‹ç™ºç’°å¢ƒ

Windows11
python 3.9
uv

ã‚»ãƒƒãƒˆã‚¢ãƒƒãƒ—

uv ã§python 3.9ã®ç’°å¢ƒã‚’ä½œã‚Šã¾ã™. pyanonoteãŒä¾å˜ã—ã¦ã„ã‚‹ numbaãŒ3.10ä»¥ä¸Šã¯å¯¾å¿œã—ã¦ã„ã¾ã›ã‚“ã§ã—ãŸ

uv venv -p 3.9
source venv/bin/activate

å¿…è¦ãªãƒ©ã‚¤ãƒ–ãƒ©ãƒªã‚’å…¥ã‚Œã¦ã„ãã¾ã™

uv pip install pyannote.audio

torchã‚’gpuç‰ˆã‚’å…¥ã‚Œã¾ã™

uv pip install torch==2.5.1 torchaudio==2.5.1 --index-url https://download.pytorch.org/whl/cu121 --force-reinstall

mp3ã®ãƒ•ã‚¡ã‚¤ãƒ«ã‚’æ‰±ãˆã‚‹ã‚ˆã†ã« è¿½åŠ ã®ãƒ©ã‚¤ãƒ–ãƒ©ãƒªã‚’å…¥ã‚Œã¾ã™

uv pip install pydub

æ–‡å—ãŠè¶Šã—ã‚ˆã†ã«whisperã‚’å…¥ã‚Œã¾ã™

uv pip install - U openai-whisper

å®Ÿè¡Œ

ä»¥ä¸‹ã®ã‚¹ã‚¯ãƒªãƒ—ãƒˆã‚’å®Ÿè¡Œã™ã‚‹ã“ã¨ã§è©±è€…ãƒ€ã‚¤ã‚¢ãƒ©ã‚¤ã‚¼ãƒ¼ã‚·ãƒ§ãƒ³ãŠã‚ˆã³æ–‡å—èµ·ã“ã—ã‚’è¡Œã†ã“ã¨ãŒã§ãã¾ã™

# å¿…è¦ãªãƒ©ã‚¤ãƒ–ãƒ©ãƒªã®ã‚¤ãƒ³ãƒãƒ¼ãƒˆ
from pyannote.audio import Pipeline
import whisper
import numpy as np
from pydub import AudioSegment

# è©±è€…åˆ†é›¢ãƒ¢ãƒ‡ãƒ«ã®åˆæœŸåŒ–
pipeline = Pipeline.from_pretrained("pyannote/speaker-diarization-3.1")

# Whisperãƒ¢ãƒ‡ãƒ«ã®ãƒãƒ¼ãƒ‰
model = whisper.load_model("large-v3")

# éŸ³å£°ãƒ•ã‚¡ã‚¤ãƒ«ã‚’æŒ‡å®š
audio_file = "JA_B00000_S00529_W000007.mp3"  # MP3ãƒ•ã‚¡ã‚¤ãƒ«ã‚’æŒ‡å®šã—ã¾ã™

# è©±è€…åˆ†é›¢ã®å®Ÿè¡Œ
diarization = pipeline(audio_file)

# MP3ãƒ•ã‚¡ã‚¤ãƒ«ã‚’AudioSegmentã§èªã¿è¾¼ã‚€
audio_segment = AudioSegment.from_file(audio_file, format="mp3")

# éŸ³å£°ãƒ•ã‚¡ã‚¤ãƒ«ã‚’16kHzã€ãƒ¢ãƒŽãƒ©ãƒ«ã«å¤‰æ›
audio_segment = audio_segment.set_frame_rate(16000).set_channels(1)

# è©±è€…åˆ†é›¢ã®çµæžœã‚’ãƒ«ãƒ¼ãƒ—å‡¦ç†
for segment, _, speaker in diarization.itertracks(yield_label=True):
    # è©±è€…ã”ã¨ã®ç™ºè©±åŒºé–“ã®éŸ³å£°ã‚’åˆ‡ã‚Šå‡ºã—ï¼ˆãƒŸãƒªç§’å˜ä½ï¼‰
    start_ms = int(segment.start * 1000)
    end_ms = int(segment.end * 1000)
    segment_audio = audio_segment[start_ms:end_ms]

    # éŸ³å£°ãƒ‡ãƒ¼ã‚¿ã‚’numpyé…åˆ—ã«å¤‰æ›
    waveform = np.array(segment_audio.get_array_of_samples()).astype(np.float32)

    # éŸ³å£°ãƒ‡ãƒ¼ã‚¿ã‚’[-1.0, 1.0]ã®ç¯„å›²ã«æ£è¦åŒ–
    waveform = waveform / np.iinfo(segment_audio.array_type).max

    # Whisperã«ã‚ˆã‚‹æ–‡å—èµ·ã“ã—
    # éŸ³å£°ãƒ‡ãƒ¼ã‚¿ã‚’ã‚µãƒ³ãƒ—ãƒªãƒ³ã‚°ãƒ¬ãƒ¼ãƒˆ16kHzã«åˆã‚ã›ã¦ã€ãƒ†ãƒ³ã‚½ãƒ«ã«å¤‰æ›
    result = model.transcribe(waveform,fp16=False)

    # è©±è€…ãƒ©ãƒ™ãƒ«ä»˜ãã§çµæžœã‚’ãƒ•ã‚©ãƒ¼ãƒžãƒƒãƒˆã—ã¦å‡ºåŠ›
    for data in result["segments"]:
        start_time = segment.start + data["start"]
        end_time = segment.start + data["end"]
        print(f"{start_time:.2f},{end_time:.2f},{speaker},{data['text']}")

çµæžœã¯ä»¥ä¸‹ã«ãªã‚Šã¾ã™

0.03,4.15,SPEAKER_00,ç‰©äº‹ã«å¯¾ã—ã¦ã‚‚ã€çœŸã£ç›´ãã«å–ã‚Šçµ„ã‚ã‚‹ã‚ˆã†ãªå§¿å‹¢ã¨ã‹ã€

2024-12-15

Wespeaker/wespeaker-voxceleb-resnet34-LMã§è©±è€…ãƒ€ã‚¤ã‚¢ãƒ©ã‚¤ã‚¼ãƒ¼ã‚·ãƒ§ãƒ³ã‚’è¡Œã†

åˆã‚ã«

wespeakerã§è©±è€…ãƒ€ã‚¤ã‚¢ãƒ©ã‚¤ã‚¼ãƒ¼ã‚·ãƒ§ãƒ³ã‚’è¡Œã£ã¦ã¿ã¾ã™ã€‚

ãƒ¢ãƒ‡ãƒ«ã¯ä»¥ä¸‹ã§ã™

huggingface.co

ä»¥ä¸‹ã«è¨˜äº‹ã®å†…å®¹ã®Repositoryã‚’å…¬é–‹ã—ã¦ã„ã¾ã™

github.com

é–‹ç™ºç’°å¢ƒ

windows11
python 3.11
uv

ã‚»ãƒƒãƒˆã‚¢ãƒƒãƒ—

ã¾ãšã¯ uvç’°å¢ƒã‚’ä½œæˆã—ã¾ã™

uv venv -p 3.11
.venv\Scripts\activate

æ¬¡ã«å¿…è¦ãªãƒ©ã‚¤ãƒ–ãƒ©ãƒªã‚’å…¥ã‚Œã¦ã„ãã¾ã™

uv pip install git+https://github.com/wenet-e2e/wespeaker.git
uv pip install PyYAML setuptools requests soundfile

torchã®gpuç‰ˆã‚’ã‚¤ãƒ³ã‚¹ãƒˆãƒ¼ãƒ«ã—ã¾ã™

uv pip install torch --index-url https://download.pytorch.org/whl/cu121 --force-reinstall

ãƒ¢ãƒ‡ãƒ«ã®ãƒ€ã‚¦ãƒ³ãƒãƒ¼ãƒ‰ã‚’è¡Œã„ã¾ã™

huggingface-cliã®ã‚¤ãƒ³ã‚¹ãƒˆãƒ¼ãƒ«ã‚’è¡Œã„ã€ãƒã‚°ã‚¤ãƒ³ã‚’æ¸ˆã¾ã›ã¦ãŠãã¾ã™

uv pip install -U "huggingface_hub[cli]"
huggingface-cli login

ä»¥ä¸‹ã§ãƒ¢ãƒ‡ãƒ«ã®ãƒ€ã‚¦ãƒ³ãƒãƒ¼ãƒ‰ã‚’è¡Œã†ã“ã¨ãŒã§ãã¾ã™

huggingface-cli download --repo-type model Wespeaker/wespeaker-voxceleb-resnet34-LM --local-dir ResNet34_download_dir

CLIã‹ã‚‰å®Ÿè¡Œ

ãƒ‡ãƒ•ã‚©ãƒ«ãƒˆã§ã¯wavãƒ•ã‚¡ã‚¤ãƒ«ã®ã¿ã®å¯¾å¿œã«ãªã£ã¦ã„ã‚‹ãŸã‚ã€mp3ç‰ã®å ´åˆã¯ ffmpegç‰ã§ä»¥ä¸‹ã®ã‚ˆã†ã«å¤‰æ›ã‚’ã—ã¾ã™

ffmpeg -i JA_B00000_S00529_W000007.mp3 JA_B00000_S00529_W000007.wav

wavã«å¤‰æ›ãŒã§ããŸã‚‰ã€ä»¥ä¸‹ã®ã‚³ãƒžãƒ³ãƒ‰ã‚’å®Ÿè¡Œã—ã¾ã™

 wespeaker -p ResNet34_download_dir --task diarization --audio_file .\JA_B00000_S00529_W000007.wav

çµæžœã¯ä»¥ä¸‹ã®ã‚ˆã†ã«ãªã‚Šã¾ã™

0.000   4.500   0

Pythonã®ã‚³ãƒ¼ãƒ‰ã§å®Ÿè¡Œ

Pythonã®ã‚¹ã‚¯ãƒªãƒ—ãƒˆã§ã‚‚CLIã®ã‚³ãƒžãƒ³ãƒ‰ã¨åŒæ§˜ã®ã“ã¨ã‚’è¡Œã£ã¦ã¿ã¾ã™

ä»¥ä¸‹ã®ã‚¹ã‚¯ãƒªãƒ—ãƒˆã‚’å®Ÿè¡Œã—ã¾ã™

import wespeaker

# ãƒ¢ãƒ‡ãƒ«ã®ãƒ‘ã‚¹ã‚’æŒ‡å®š
model_dir = 'ResNet34_download_dir'
model = wespeaker.load_model_local(model_dir)
# model.set_gpu(0)

# éŸ³å£°ãƒ•ã‚¡ã‚¤ãƒ«ã®ãƒ‘ã‚¹ã‚’æŒ‡å®š
audio_file = 'JA_B00000_S00529_W000007.mp3'

# è©±è€…ãƒ€ã‚¤ã‚¢ãƒªã‚¼ãƒ¼ã‚·ãƒ§ãƒ³ã®å®Ÿè¡Œ
diarization_result = model.diarize(audio_file)

# çµæžœã®è¡¨ç¤º
for segment in diarization_result:
    # segmentã®å†…å®¹ã‚’ç¢ºèªï¼ˆãƒ‡ãƒãƒƒã‚°ç”¨ï¼‰
    print(f"Segment content: {segment}, Type: {type(segment)}")
    start_time = float(segment[1])
    end_time = float(segment[2])
    speaker_label = segment[3]
    print(f"{start_time:.3f}\t{end_time:.3f}\t{speaker_label}")

çµæžœã¯ä»¥ä¸‹ã®ã‚ˆã†ã«ãªã‚Šã¾ã™

Segment content: ('unk', 0.0, 4.5, 0), Type: <class 'tuple'>
0.000   4.500   0

Segmetã®ä¸€ã¤ç›®ã®ãƒ‡ãƒ¼ã‚¿ã¯ã€ä»Šå›žå¿…è¦ãªã„ãŸã‚è¡¨ç¤ºã¯ã—ãªã„ã‚ˆã†ã«ã—ã¦ã„ã¾ã™

å‚™è€ƒ

ä»¥ä¸‹ã®ãƒ¢ãƒ‡ãƒ«ã®ã»ã†ãŒæ—¥æœ¬èªžã®ç²¾åº¦ã¯é«˜ã„ã¿ãŸã„ã§ã™

huggingface.co

ã˜ã¤ã¯cncerebãƒ¢ãƒ‡ãƒ«ã®ã»ã†ãŒæ—¥æœ¬èªžæ€§èƒ½ã¯é«˜ã‹ã£ãŸã‚Šã™ã‚‹ã€‚ https://t.co/yTH2eQFv4S
— æœ¨æ‘å„ªå¿—: Convergence Lab. (@orcinus_orca) 2024å¹´12æœˆ15æ—¥

2024-12-15

powerset_calibrationã‚’ä½¿ã£ã¦è©±è€…ãƒ€ã‚¤ã‚¢ãƒ©ã‚¤ã‚¼ãƒ¼ã‚·ãƒ§ãƒ³ã‚’è¡Œã†

åˆã‚ã«

powerset_calibrationã‚’ä½¿ã£ã¦éŸ³å£°å†…ã®è©±è€…ãƒ€ã‚¤ã‚¢ãƒ©ã‚¤ã‚¼ãƒ¼ã‚·ãƒ§ãƒ³ã‚’è¡Œã£ã¦ã¿ã¾ã™ã€‚è«–æ–‡ã«ã‚ˆã‚Šãƒ‡ãƒ¼ã‚¿ã‚»ãƒƒãƒˆã«ã¯æ—¥æœ¬èªžãŒå«ã¾ã‚Œã¦ã„ãªã„ãŸã‚ã€æ—¥æœ¬èªžã®éŸ³å£°ã«ä½¿ã†å ´åˆã¯è‡ªåˆ†ã§å¦ç¿’ã‚’è¡Œã†å¿…è¦ãŒã‚ã‚Šãã†ã§ã™

github.com

ä»¥ä¸‹ã§å‹•ã‹ã—ãŸãƒªãƒã‚¸ãƒˆãƒªã‚’å…¬é–‹ã—ã¦ã„ã¾ã™

github.com

é–‹ç™ºç’°å¢ƒ

Windows 11
python 3.9

ã‚»ãƒƒãƒˆã‚¢ãƒƒãƒ—

ç’°å¢ƒã‚’ä½œã£ã¦ã„ãã¾ã™

uv venv -p 3.9
.venv\Scripts\activate

ãƒ©ã‚¤ãƒ–ãƒ©ãƒªã‚’ã‚¤ãƒ³ã‚¹ãƒˆãƒ¼ãƒ«ã—ã¾ã™ã€‚ãƒªãƒã‚¸ãƒˆãƒªã§ pyproject.toml ãŒæä¾›ã•ã‚Œã¦ã„ã‚‹ã®ã§ã€ãã®ã¾ã¾ä½¿ã£ã¦ã„ãã¾ã™

uv sync

torchãŒcpuç‰ˆã«ãªã£ã¦ã„ã‚‹ã®ã§ã€GPUç‰ˆã‚’ã‚¤ãƒ³ã‚¹ãƒˆãƒ¼ãƒ«ã—ã¾ã™

uv pip install torch==2.5.1 --index-url https://download.pytorch.org/whl/cu121 --force-reinstall

è©±è€…ãƒ€ã‚¤ã‚¢ãƒ©ã‚¤ã‚¼ãƒ¼ã‚·ãƒ§ãƒ³ã‚’å®Ÿè¡Œ

from pyannote.audio import Pipeline

# ãƒ—ãƒªãƒˆãƒ¬ãƒ¼ãƒ‹ãƒ³ã‚°æ¸ˆã¿ãƒ¢ãƒ‡ãƒ«ã®ãƒãƒ¼ãƒ‰
pipeline = Pipeline.from_pretrained("pyannote/speaker-diarization")

# éŸ³å£°ãƒ•ã‚¡ã‚¤ãƒ«ã®ãƒ‘ã‚¹ï¼ˆã”è‡ªèº«ã®ãƒ•ã‚¡ã‚¤ãƒ«ãƒ‘ã‚¹ã«å¤‰æ›´ã—ã¦ãã ã•ã„ï¼‰
AUDIO_FILE = "test.mp3"

# ãƒ€ã‚¤ã‚¢ãƒªã‚¼ãƒ¼ã‚·ãƒ§ãƒ³ã®å®Ÿè¡Œ
diarization = pipeline(AUDIO_FILE)

# çµæžœã®è¡¨ç¤º
for turn, _, speaker in diarization.itertracks(yield_label=True):
    print(f"start={turn.start:.1f}s stop={turn.end:.1f}s speaker_{speaker}")

ä¸Šè¨˜ã®ã‚³ãƒ¼ãƒ‰ã§å®Ÿè¡Œã‚’ã—ã¾ã™

çµæžœã¯ä»¥ä¸‹ã®ã‚ˆã†ã«ãªã‚Šã¾ã™

start=0.0s stop=5.0s speaker_SPEAKER_00

2024-12-15

nvidia/parakeet-tdt_ctc-0.6b-jaã‚’Windowsã§å‹•ã‹ã™éš›ã®AttributeError: module 'signal' has no attribute 'SIGKILL'. Did you mean: 'SIGILL'?ã®å¯¾å¿œ

åˆã‚ã«

NVIDIAãŒå…¬é–‹ã—ã¦ã„ã‚‹æ—¥æœ¬èªžéŸ³å£°å‘ã‘ã®éŸ³å£°èªè˜ãƒ¢ãƒ‡ãƒ« nvidia/parakeet-tdt_ctc-0.6b-jaã‚’ Windowsã§å‹•ã‹ã™éš›ã«ä»¥ä¸‹ã®ã‚¨ãƒ©ãƒ¼ãŒå‡ºãŸå¤šãŸã‚ã€å¯¾å¿œæ–¹æ³•ã‚’è¨˜è¼‰ã—ã¾ã™

packages\nemo\collections\asr\models\configs\asr_models_config.py", line 27, in <module>
    from nemo.core.config import modelPT as model_cfg
  File "C:\Users\.venv\Lib\site-packages\nemo\core\config\modelPT.py", line 22, in <module>
    from nemo.utils import exp_manager
  File "C:\Users\.venv\Lib\site-packages\nemo\utils\exp_manager.py", line 160, in <module>
    class FaultToleranceParams:
  File "C:\Users\.venv\Lib\site-packages\nemo\utils\exp_manager.py", line 169, in FaultToleranceParams
    rank_termination_signal: signal.Signals = signal.SIGKILL
                                              ^^^^^^^^^^^^^^
AttributeError: module 'signal' has no attribute 'SIGKILL'. Did you mean: 'SIGILL'?

é–‹ç™ºç’°å¢ƒ

Windows11
powershell
python 3.11

åŽŸå›

ã“ã®ã‚¨ãƒ©ãƒ¼ã¯ã€Pythonã®signalãƒ¢ã‚¸ãƒ¥ãƒ¼ãƒ«ã§SIGKILLã‚·ã‚°ãƒŠãƒ«ãŒå®šç¾©ã•ã‚Œã¦ã„ãªã„ã“ã¨ãŒåŽŸå› ã§ã™ã€‚Windowsç’°å¢ƒã§ã¯ã€ä¸€éƒ¨ã®Unix/Linuxå›ºæœ‰ã®ã‚·ã‚°ãƒŠãƒ«ãŒã‚µãƒãƒ¼ãƒˆã•ã‚Œã¦ãŠã‚‰ãšã€SIGKILLã‚‚ãã®ä¸€ã¤ã§ã™ã€‚ãã®ãŸã‚ã€nemoãƒ©ã‚¤ãƒ–ãƒ©ãƒªãŒsignal.SIGKILLã‚’ä½¿ç”¨ã—ã‚ˆã†ã¨ã™ã‚‹ã¨ã€Windowsç’°å¢ƒã§ã¯AttributeErrorãŒç™ºç”Ÿã—ã¾ã™ã€‚

å¯¾å¿œæ–¹æ³•

.venv\Lib\site-packages\nemo\utils\exp_manager.py ã«ã‚ã‚‹ãƒ•ã‚¡ã‚¤ãƒ«ã®ä¸€éƒ¨ã‚’æ›¸ãæ›ãˆã¾ã™

class FaultToleranceParamså†…ã®rank_termination_signalã‚’ä»¥ä¸‹ã®ã‚ˆã†ã«å¤‰æ›´ã—ã¾ã™ã€‚

ä¿®æ£å‰

rank_termination_signal: signal.Signals = signal.SIGKILL

ä¿®æ£å¾Œ

import os
if os.name == 'nt':
    rank_termination_signal: int = signal.SIGTERM
else:
    rank_termination_signal: signal.Signals = signal.SIGKILL

å‚™è€ƒ

  File "C:\Users\.venv\Lib\site-packages\numpy\__init__.py", line 411, in __getattr__
    raise AttributeError(
AttributeError: `np.sctypes` was removed in the NumPy 2.0 release. Access dtypes explicitly instead.. Did you mean: 'dtypes'?

2024-12-15

reazonspeech-k2-v2ã‚’å‹•ã‹ã™

åˆã‚ã«

reazon-researchãŒæ–°ã—ã„éŸ³å£°èªè˜ãƒ¢ãƒ‡ãƒ«ã‚’å…¬é–‹ã•ã‚Œã¦ã„ãŸã®ã§è§¦ã£ã¦ã¿ã¾ã™

ðŸš€ReazonSpeech v2.1ã‚’ãƒªãƒªãƒ¼ã‚¹ã—ã¾ã—ãŸï¼
v2.1ã§è¿½åŠ ã—ãŸæ–°ã—ã„æ—¥æœ¬èªžASRãƒ¢ãƒ‡ãƒ«ã€ReazonSpeech-k2-v2ã¯ONNXãƒ•ã‚©ãƒ¼ãƒžãƒƒãƒˆã§æä¾›ã•ã‚Œã€ã•ã¾ã–ã¾ãªç’°å¢ƒã§å‹•ä½œã—ã¾ã™ã€‚è¨ˆç®—èƒ½åŠ›ã®é™ã‚‰ã‚ŒãŸãƒ‡ãƒã‚¤ã‚¹å‘ã‘ã«é‡ååŒ–ãƒãƒ¼ã‚¸ãƒ§ãƒ³ã‚‚æä¾›ã—ã¦ã„ã¾ã™ã€‚
è©³ç´°ã¯ã“ã¡ã‚‰ã®ãƒ–ãƒã‚°ã‚’ã”è¦§ãã ã•ã„ï¼https://t.co/lXDcR1ONu1
— Reazon Human Interaction Lab (@ReazonHILab) 2024å¹´8æœˆ1æ—¥

ä»¥ä¸‹ã«å‹•ã‹ã—ãŸRepositoryã‚’å…¬é–‹ã—ã¦ã„ã¾ã™

github.com

é–‹ç™ºç’°å¢ƒ

Windows11
python 3.11
uv

ã‚»ãƒƒãƒˆã‚¢ãƒƒãƒ—

å‹•ã‹ã™ãŸã‚ã®ç’°å¢ƒã‚’ä½œã‚Šã¾ã™

uv venv -p 3.11
source venv/bin/activate

git clone https://github.com/reazon-research/ReazonSpeech
uv pip install ReazonSpeech/pkg/k2-asr

æ–‡å—ãŠè¶Šã—ã®å®Ÿè¡Œ

from reazonspeech.k2.asr import load_model, transcribe, audio_from_path

audio = audio_from_path("JA_B00000_S00529_W000007.mp3")
model = load_model()
ret = transcribe(model, audio)
print(ret.text)

2024-12-13

S3Tokenizerã‚’å‹•ã‹ã™

åˆã‚ã«

CosyVoiceã®æ•™å¸«ã‚ã‚ŠéŸ³å£°ãƒˆãƒ¼ã‚¯ãƒŠã‚¤ã‚¶ãƒ¼ã«é–¢ã™ã‚‹ã‚³ãƒ¼ãƒ‰ãŒå‡ºã¦ã„ãªã‹ã£ãŸãŸã‚ issueã€ä»¥ä¸‹ã®Repositoryã«ã¦å†ç¾å®Ÿè£…ãŒè¡Œã‚ã‚Œã¾ã—ãŸã€‚ã“ã¡ã‚‰ã‚’å‹•ã‹ã—ã¦ã„ãã¾ã™

github.com

é–‹ç™ºç’°å¢ƒ

Windows
uv
python 3.11

ã‚»ãƒƒãƒˆã‚¢ãƒƒãƒ—

uvã®ç’°å¢ƒã‚’ä½œã‚Šã¾ã™

uv venv -p 3.11
.venv\Scripts\activate

uv pip install -r requirements.txt 
uv pip install torch==2.5.1 --index-url https://download.pytorch.org/whl/cu121 --reinstall-force 
uv pip install onnxruntime soundfile

cffi==1.17.1
colorama==0.4.6
coloredlogs==15.0.1
einops==0.8.0
filelock==3.13.1
flatbuffers==24.3.25
fsspec==2024.2.0
humanfriendly==10.0
jinja2==3.1.3
markupsafe==2.1.5
mpmath==1.3.0
networkx==3.2.1
numpy==2.2.0
onnx==1.17.0
onnxruntime==1.20.1
packaging==24.2
protobuf==5.29.1
pycparser==2.22
pyreadline3==3.5.4
s3tokenizer==0.0.8
soundfile==0.12.1
sympy==1.13.1
torch==2.5.1+cu121
tqdm==4.67.1
typing-extensions==4.9.0

å®Ÿè¡Œ

ã‚µãƒ³ãƒ—ãƒ«ã®éŸ³å£°ãŒå…¥ã£ã¦ã„ã‚‹ãŸã‚ã€ã“ã¡ã‚‰ã‚’ä½¿ã£ã¦å‹•ã‹ã—ã¦ã„ãã¾ã™

python .\test\test_onnx.py

çµæžœã¯ä»¥ä¸‹ã®ã‚ˆã†ã«ãªã‚Šã¾ã™

=========torch=============
mels.size: torch.Size([2, 128, 420]), mels_lens: tensor([420, 411], dtype=torch.int32)
codes.size: torch.Size([2, 210]), codes_lens: tensor([210, 206], dtype=torch.int32)
wav[0]
tensor([ 143,  602,  702,  473, 2530, 2530,  646,  646,  646,  279, 1145,  440,
         279,  279, 2530, 2530, 2530, 2530, 1019,  501,  501,  631,  287,  465,
         465,  478, 3766,  183,  391,  621,   11, 3480, 3480,   16,  402, 1037,
         253,   55,  720,  227,  227,  159,  110,  103,  103,  103,  110,  110,
        2386,   28,  704,  143,  371,  371,  224,  389,  295,  295,  323,  557,
         681,  455,    4,  386,  403,  629, 2989, 2782,  507, 3290,   57,  215,
         626,   55,  342,  375,  596,  502,   12,   39,   90,  344, 1593, 1593,
         170,  471,  170, 2299, 2299,  112,   94,  629,   33,   33,   33,  348,
         348,  199,  137,  715,  750,  119,  490,  357,    4,  648, 1700,  468,
         468,  422,   47,  732,  224,  224,  224, 2691,  389,  174,  174, 1381,
        1381,   74,  100,    6,  584,  363,  225,  214,  197,  621,  209,   59,
         284,   17,  538,  460,   87,  720,  227,  618,  594,  151,  173,  540,
        1923,  361,  361,   96,  355,  223,  341,  297,    1,  137,  123,  662,
           4,  386,  386,  225,  214,  427,  215,  477, 1405, 3108,  122,  122,
         310,  149, 1479,  314,  486,  946, 3945,  202, 3539, 3539, 3539,  568,
         312,  312,  121,  139,  530,  395,  607,  443,  443,  367,  367,   81,
         367,  367,  367,  367,  727,  367,  221,  508,  508,  508, 1145,  691,
         367,  367,  573,  221,  221, 2530])
wav[1]
tensor([ 644,  404,  329,  329, 1145, 1145, 1145, 1145, 1145, 1145, 1145,  221,
         508,  221,  221,    8,  650,   36,  501,  573,  443,  443, 1849,  435,
          19,  293,   27,  468,  468,   27,   27,  468,  247,  179,  184,  580,
        1593, 1593, 3539, 2299,  266,  344,  606, 2330,  401,   90,   95,  716,
           4, 1935,    4,    4,  160,  495, 2989, 2782, 2782, 2782,    7,    7,
          84,  342,  375,  584,  227,  452,  141,  488, 4013,  568,  312,  312,
         314,  312,   17,  595,   52,  465,  465,  483,  483,  173,  173,  628,
         628,   96,  455,  688,  153,  153,  527,  628, 1529,  612,  514,  304,
        2579, 2579,  173,   20, 2579,   20,  562,   15, 2828, 2828,  620,  261,
        3480,  188,   88,   33,   33,   27,   39,   39, 2031,  734,  158,   50,
          50,  661,  309,  704,  143,  371,  371,  224,  563,  563,  563,  277,
         300,  159,  445,  133,  343,  343, 2514,  318,  377,  584,  386,  448,
         366,  427,  562, 2828, 1006, 1006, 2185, 2299,  732,  100,  211,  504,
         100,  457,  570,  349,  349,  523,  523,   84,  342,  482,  704, 2386,
         498,  277,   92, 2185,  579,  579,  579,   41,   41,   41,  406, 1104,
         236,  607,  395,  395,  642,  607,  642,  607,  607,  368,  368, 3158,
         573, 1145,  367,  367, 1145,  367,  636,  367,  367,  367,  607, 1145,
         636, 2189])
=========onnx===============
wav[0]
tensor([ 143,  602,  702,  473, 2530, 2530,  646,  646,  646,  279, 1145,  440,
         279,  279, 2530, 2530, 2530, 2530, 1019,  501,  501,  631,  287,  465,
         465,  478, 3766,  183,  391,  621,   11, 3480, 3480,   16,  402, 1037,
         253,   55,  720,  227,  227,  159,  110,  103,  103,  103,  110,  110,
        2386,   28,  704,  143,  371,  371,  224,  389,  295,  295,  323,  557,
         681,  455,    4,  386,  403,  629, 2989, 2782,  507, 3290,   57,  215,
         626,   55,  342,  375,  596,  502,   12,   39,   90,  344, 1593, 1593,
         170,  471,  170, 2299, 2299,  112,   94,  629,   33,   33,   33,  348,
         348,  199,  137,  715,  750,  119,  490,  357,    4,  648, 1700,  468,
         468,  422,   47,  732,  224,  224,  224, 2691,  389,  174,  174, 1381,
        1381,   74,  100,    6,  584,  363,  225,  214,  197,  621,  209,   59,
         284,   17,  538,  460,   87,  720,  227,  618,  594,  151,  173,  540,
        1923,  361,  361,   96,  355,  223,  341,  297,    1,  137,  123,  662,
           4,  386,  386,  225,  214,  427,  215,  477, 1405, 3108,  122,  122,
         310,  149, 1479,  314,  486,  946, 3945,  202, 3539, 3539, 3539,  568,
         312,  312,  121,  139,  530,  395,  607,  443,  443,  367,  367,   81,
         367,  367,  367,  367,  727,  367,  221,  508,  508,  508, 1145,  691,
         367,  367,  573,  221,  221, 2530])
all equal: True
miss rate: 0.0%
wav[1]
tensor([ 644,  404,  329,  329, 1145, 1145, 1145, 1145, 1145, 1145, 1145,  221,
         508,  221,  221,    8,  650,   36,  501,  573,  443,  443, 1849,  435,
          19,  293,   27,  468,  468,   27,   27,  468,  247,  179,  184,  580,
        1593, 1593, 3539, 2299,  266,  344,  606, 2330,  401,   90,   95,  716,
           4, 1935,    4,    4,  160,  495, 2989, 2782, 2782, 2782,    7,    7,
          84,  342,  375,  584,  227,  452,  141,  488, 4013,  568,  312,  312,
         314,  312,   17,  595,   52,  465,  465,  483,  483,  173,  173,  628,
         628,   96,  455,  688,  153,  153,  527,  628, 1529,  612,  514,  304,
        2579, 2579,  173,   20, 2579,   20,  562,   15, 2828, 2828,  620,  261,
        3480,  188,   88,   33,   33,   27,   39,   39, 2031,  734,  158,   50,
          50,  661,  309,  704,  143,  371,  371,  224,  563,  563,  563,  277,
         300,  159,  445,  133,  343,  343, 2514,  318,  377,  584,  386,  448,
         366,  427,  562, 2828, 1006, 1006, 2185, 2299,  732,  100,  211,  504,
         100,  457,  570,  349,  349,  523,  523,   84,  342,  482,  704, 2386,
         498,  277,   92, 2185,  579,  579,  579,   41,   41,   41,  406, 1104,
         236,  607,  395,  395,  642,  607,  642,  607,  607,  368,  368, 3158,
         573, 1145,  367,  367, 1145,  367, 1145,  367,  367,  367,  367,  367,
         692,  404])
all equal: False
miss rate: 2.427184581756592%

é–‹ç™ºç’°å¢ƒ

ã‚»ãƒƒãƒˆã‚¢ãƒƒãƒ—

å®Ÿè¡Œ

åˆã‚ã«

é–‹ç™ºç’°å¢ƒ

ã‚»ãƒƒãƒˆã‚¢ãƒƒãƒ—

å®Ÿè¡Œ

åˆã‚ã«

é–‹ç™ºç’°å¢ƒ

ã‚»ãƒƒãƒˆã‚¢ãƒƒãƒ—

CLIã‹ã‚‰å®Ÿè¡Œ

Pythonã®ã‚³ãƒ¼ãƒ‰ã§å®Ÿè¡Œ

å‚™è€ƒ

åˆã‚ã«

é–‹ç™ºç’°å¢ƒ

ã‚»ãƒƒãƒˆã‚¢ãƒƒãƒ—

è©±è€…ãƒ€ã‚¤ã‚¢ãƒ©ã‚¤ã‚¼ãƒ¼ã‚·ãƒ§ãƒ³ã‚’å®Ÿè¡Œ

åˆã‚ã«

é–‹ç™ºç’°å¢ƒ

åŽŸå›

å¯¾å¿œæ–¹æ³•

å‚™è€ƒ

åˆã‚ã«

é–‹ç™ºç’°å¢ƒ

ã‚»ãƒƒãƒˆã‚¢ãƒƒãƒ—

æ–‡å­—ãŠè¶Šã—ã®å®Ÿè¡Œ

åˆã‚ã«

é–‹ç™ºç’°å¢ƒ

ã‚»ãƒƒãƒˆã‚¢ãƒƒãƒ—

å®Ÿè¡Œ

åˆã‚ã«

åˆã‚ã«

CLIã‹ã‚‰å®Ÿè¡Œ

Pythonã®ã‚³ãƒ¼ãƒ‰ã§å®Ÿè¡Œ

åˆã‚ã«

åˆã‚ã«

åˆã‚ã«

æ–‡å—ãŠè¶Šã—ã®å®Ÿè¡Œ

åˆã‚ã«