åˆã‚ã«

ä»Šå›žã¯å®šç•ªã®pyanonoteã¨whisperã§è©±è€…ãƒ€ã‚¤ã‚¢ãƒ©ã‚¤ã‚¼ãƒ¼ã‚·ãƒ§ãƒ³ã‚’è¡Œã£ã¦ã¿ã¾ã™

ä»¥ä¸‹ã§è¨˜äº‹ã®ã‚µãƒ³ãƒ—ãƒ«ãƒªãƒã‚¸ãƒˆãƒªã‚’å…¬é–‹ã—ã¦ã„ã¾ã™

éŽåŽ»ã«ã¯ã»ã‹ã®ãƒ©ã‚¤ãƒ–ãƒ©ãƒªã§ã‚‚è©¦ã—ã¦ã„ã‚‹ã®ã§ã€ã»ã‹ã«ã©ã®ã‚ˆã†ãªãƒ©ã‚¤ãƒ–ãƒ©ãƒªãŒã‚ã‚‹ã®ã‹æ°—ã«ãªã‚‹å ´åˆã¯ã”è¦§ãã ã•ã„

ayousanz.hatenadiary.jp

é–‹ç™ºç’°å¢ƒ

Windows11
python 3.9
uv

ã‚»ãƒƒãƒˆã‚¢ãƒƒãƒ—

uv ã§python 3.9ã®ç’°å¢ƒã‚’ä½œã‚Šã¾ã™. pyanonoteãŒä¾å˜ã—ã¦ã„ã‚‹ numbaãŒ3.10ä»¥ä¸Šã¯å¯¾å¿œã—ã¦ã„ã¾ã›ã‚“ã§ã—ãŸ

uv venv -p 3.9
source venv/bin/activate

å¿…è¦ãªãƒ©ã‚¤ãƒ–ãƒ©ãƒªã‚’å…¥ã‚Œã¦ã„ãã¾ã™

uv pip install pyannote.audio

torchã‚’gpuç‰ˆã‚’å…¥ã‚Œã¾ã™

uv pip install torch==2.5.1 torchaudio==2.5.1 --index-url https://download.pytorch.org/whl/cu121 --force-reinstall

mp3ã®ãƒ•ã‚¡ã‚¤ãƒ«ã‚’æ‰±ãˆã‚‹ã‚ˆã†ã« è¿½åŠ ã®ãƒ©ã‚¤ãƒ–ãƒ©ãƒªã‚’å…¥ã‚Œã¾ã™

uv pip install pydub

æ–‡å—ãŠè¶Šã—ã‚ˆã†ã«whisperã‚’å…¥ã‚Œã¾ã™

uv pip install - U openai-whisper

å®Ÿè¡Œ

# å¿…è¦ãªãƒ©ã‚¤ãƒ–ãƒ©ãƒªã®ã‚¤ãƒ³ãƒãƒ¼ãƒˆ
from pyannote.audio import Pipeline
import whisper
import numpy as np
from pydub import AudioSegment

# è©±è€…åˆ†é›¢ãƒ¢ãƒ‡ãƒ«ã®åˆæœŸåŒ–
pipeline = Pipeline.from_pretrained("pyannote/speaker-diarization-3.1")

# Whisperãƒ¢ãƒ‡ãƒ«ã®ãƒãƒ¼ãƒ‰
model = whisper.load_model("large-v3")

# éŸ³å£°ãƒ•ã‚¡ã‚¤ãƒ«ã‚’æŒ‡å®š
audio_file = "JA_B00000_S00529_W000007.mp3"  # MP3ãƒ•ã‚¡ã‚¤ãƒ«ã‚’æŒ‡å®šã—ã¾ã™

# è©±è€…åˆ†é›¢ã®å®Ÿè¡Œ
diarization = pipeline(audio_file)

# MP3ãƒ•ã‚¡ã‚¤ãƒ«ã‚’AudioSegmentã§èªã¿è¾¼ã‚€
audio_segment = AudioSegment.from_file(audio_file, format="mp3")

# éŸ³å£°ãƒ•ã‚¡ã‚¤ãƒ«ã‚’16kHzã€ãƒ¢ãƒŽãƒ©ãƒ«ã«å¤‰æ›
audio_segment = audio_segment.set_frame_rate(16000).set_channels(1)

# è©±è€…åˆ†é›¢ã®çµæžœã‚’ãƒ«ãƒ¼ãƒ—å‡¦ç†
for segment, _, speaker in diarization.itertracks(yield_label=True):
    # è©±è€…ã”ã¨ã®ç™ºè©±åŒºé–“ã®éŸ³å£°ã‚’åˆ‡ã‚Šå‡ºã—ï¼ˆãƒŸãƒªç§’å˜ä½ï¼‰
    start_ms = int(segment.start * 1000)
    end_ms = int(segment.end * 1000)
    segment_audio = audio_segment[start_ms:end_ms]

    # éŸ³å£°ãƒ‡ãƒ¼ã‚¿ã‚’numpyé…åˆ—ã«å¤‰æ›
    waveform = np.array(segment_audio.get_array_of_samples()).astype(np.float32)

    # éŸ³å£°ãƒ‡ãƒ¼ã‚¿ã‚’[-1.0, 1.0]ã®ç¯„å›²ã«æ£è¦åŒ–
    waveform = waveform / np.iinfo(segment_audio.array_type).max

    # Whisperã«ã‚ˆã‚‹æ–‡å—èµ·ã“ã—
    # éŸ³å£°ãƒ‡ãƒ¼ã‚¿ã‚’ã‚µãƒ³ãƒ—ãƒªãƒ³ã‚°ãƒ¬ãƒ¼ãƒˆ16kHzã«åˆã‚ã›ã¦ã€ãƒ†ãƒ³ã‚½ãƒ«ã«å¤‰æ›
    result = model.transcribe(waveform,fp16=False)

    # è©±è€…ãƒ©ãƒ™ãƒ«ä»˜ãã§çµæžœã‚’ãƒ•ã‚©ãƒ¼ãƒžãƒƒãƒˆã—ã¦å‡ºåŠ›
    for data in result["segments"]:
        start_time = segment.start + data["start"]
        end_time = segment.start + data["end"]
        print(f"{start_time:.2f},{end_time:.2f},{speaker},{data['text']}")

çµæžœã¯ä»¥ä¸‹ã«ãªã‚Šã¾ã™

0.03,4.15,SPEAKER_00,ç‰©äº‹ã«å¯¾ã—ã¦ã‚‚ã€çœŸã£ç›´ãã«å–ã‚Šçµ„ã‚ã‚‹ã‚ˆã†ãªå§¿å‹¢ã¨ã‹ã€

yousanã®ãƒ¡ãƒ¢

pyannote + whisperã§è©±è€…ãƒ€ã‚¤ã‚¢ãƒ©ã‚¤ã‚¼ãƒ¼ã‚·ãƒ§ãƒ³ã‚’è¡Œã†

åˆã‚ã«

é–‹ç™ºç’°å¢ƒ

ã‚»ãƒƒãƒˆã‚¢ãƒƒãƒ—

å®Ÿè¡Œ

åˆã‚ã«

é–‹ç™ºç’°å¢ƒ

ã‚»ãƒƒãƒˆã‚¢ãƒƒãƒ—

å®Ÿè¡Œ

åˆã‚ã«