ParselMouth: ãƒ”ãƒƒãƒæ“ä½œ

Audio

manipulation = call(sound, "To Manipulation", 0.01, 75, 600) pitch_tier = call(manipulation, "Extract pitch tier") call(pitch_tier, "Multiply frequencies", sound.xmin, sound.xmax, 2) call([pitch_tier, manipulation], "Replace pitch tier") sâ€¦

2021-11-13

è«–æ–‡ç´¹ä»‹: Liu (2020) Non-Parallel Voice Conversion with Autoregressive Conversion Model and Duration Adjustment

Audio AI ç§‘å¦

VCC2020 T10ãƒ¢ãƒ‡ãƒ«1 (top score). ASRãƒ™ãƒ¼ã‚¹ã®rec-synã§MOS 4.0 & similarity 3.6 ã‚’é”æˆ. Models ASR SI-ASR (N10ã¨ä¸€ç·’?) Conversion model Encoder-Decoderãƒ¢ãƒ‡ãƒ« (â‰ S2S). Encoder LSTM -> 2x time-compressing concat2 -> LSTM Decoder Attentionä»˜ãAR-â€¦

2021-11-11

å¾¹åº•è§£èª¬ï¼non-local operations / self-attention

AI ç§‘å¦

Non-local Neural Networks (2018) ãƒ¢ã‚¸ãƒ¥ãƒ¼ãƒ«ã®ãŠæ°—æŒã¡ ã€Œç§ãŒæ¬²ã—ã„ã‚‚ã®ã ã‘ãœãƒ¼ã‚“ã¶ãã ã•ã„ã€ FC: ã¨ã«ã‹ãå…¨è¦ç´ ã‚’å–ã‚Šã“ã‚€ Conv: æ±ºã‚æ‰“ã¡ã§å±€æ‰€ã ã‘å–ã‚Šã“ã‚€ RNN: hiddent-1ã ã‘ç›´æŽ¥å–ã‚Šã“ã‚€ => ç¾åœ¨å€¤ã«åŸºã¥ã„ã¦å‹•çš„ã«ã€å…¨é•·ã‹ã‚‰æ¬²ã—ã„è¦ç´ ã ã‘ã€å–â€¦

2021-11-10

è«–æ–‡è§£èª¬: FastPitch: Parallel Text-to-speech with Pitch Prediction

Audio AI ç§‘å¦

FastSpeechã«ãƒ”ãƒƒãƒæŽ¨å®šã‚‚å…¼ãã¦ã¿ã¾ã—ãŸè«–æ–‡. Durationã¨åŒã˜ãphonemeå˜ä½ã§PitchPredictorã‚’å¦ç¿’. Scalaräºˆæ¸¬ã—ãŸå€¤ã‚’latentã¨åŒã˜Featureæ¬¡å…ƒã«å¤‰æ›ã—ãŸã®ã¡ã€ãªã‚“ã¨ãŸã sumï¼ˆsegFCã§Featureæ¬¡å…ƒã«é£›ã°ã—ã¦ã„ã‚‹ã®ã§å¦ç¿’å¯ã«ãªã‚Šã€ãã®è¾ºã§éŸ³é«˜æ¬¡å…ƒã§ã‚‚æš—â€¦

2021-11-10

è«–æ–‡è§£èª¬: Ren (2019) FastSpeech: Fast, Robust and Controllable Text to Speech

Audio AI ç§‘å¦

é€Ÿã„ã€å·§ã„ã€ï¼ˆå®‰ã„ã‹ã¯å¾®å¦™ï¼‰FastSpeech æ¦‚è¦ Transformerã§éŸ³ç´ åˆ—ã‚’ç³»åˆ—å¤‰æ›ã€å‹•çš„ã«ã‚¢ãƒƒãƒ—ã‚µãƒ³ãƒ—ãƒªãƒ³ã‚°ã€Transformerã§â†‘ç³»åˆ—ã‚’mel-specã¸å¤‰æ›. ä»¥ä¸Š. å‹•çš„ã‚¢ãƒƒãƒ—ã‚µãƒ³ãƒ—ãƒªãƒ³ã‚°ã¯ LengthRegulator ã§å®Ÿè¡Œã•ã‚Œã€éŸ³ç´ ã”ã¨ã®å€çŽ‡ãŒ DurationPredictior ã§å‹•çš„â€¦

2021-11-10

æ„å›³ã—ãŸä¸é–“è¡¨ç¾ã®å¦ç¿’

AI ç§‘å¦

ãƒ¢ãƒ‡ãƒ«ãŒä¸é–“è¡¨ç¾ã¨ã—ã¦ç‰¹å®šã®å€¤ã‚’å–ã‚‹ã‚ˆã†ã«å¦ç¿’ã—ã¦ã»ã—ã„. A: ãƒ¢ãƒ‡ãƒ«ãƒã‚¤ã‚¢ã‚¹ã§è‡ªç„¶ã¨ãã†å¦ç¿’ã™ã‚‹ã‚ˆã†ã«ç¥ˆã‚‹ B: ãƒ¢ãƒ‡ãƒ«åˆ†å‰²ã‚’ã—ã¦å€‹åˆ¥å¦ç¿’ C: ãã®ä¸é–“è¡¨ç¾ã«å¯¾ã—ã¦Lossã‚’è¨å®š D: Lossã‚’è¨å®šã—ãŸã†ãˆã§æ¬¡ã®å±¤ã¸ã¯æ•™å¸«ãƒ‡ãƒ¼ã‚¿ã‚’æ¸¡ã™ï¼ˆteacher forcingçš„ï¼‰ â€¦

2021-11-10

multi-resolution Conv

é•ã†ã‚«ãƒ¼ãƒãƒ«ã‚µã‚¤ã‚ºã®Convã‚’ä¸¦åˆ—ã«ä¸¦ã¹ã‚‹ãƒ‘ã‚¿ãƒ¼ãƒ³. ãƒãƒ£ãƒãƒ«ã”ã¨ã«ã‚«ãƒ¼ãƒãƒ«ã‚µã‚¤ã‚ºãŒé•ã†ã¨è¦‹åšã™ã“ã¨ã‚‚ã§ãã‚‹. å‡ºåŠ›æ¬¡å…ƒã¯strideã¨channelæ•°ã§æ±ºã¾ã‚‹ã®ã§multi-resolutionã«ã™ã‚‹ã‹ã©ã†ã‹ã¨ã¯ç„¡é–¢ä¿‚. ã¡ã‚‡ã“ã¡ã‚‡ã“è‰²ã‚“ãªã¨ã“ã§å†é–‹ç™ºã•ã‚Œã¦ã‚‹ã‚¤ãƒ¡ãƒ¼ã‚¸. Tacotrâ€¦

2021-11-09

Tacotron 2

Audio AI ç§‘å¦

ä¸»å¼µã€ŒTTSã—ãŸã„ãªã‚‰WaveNetã‚’è¤‡é›‘ãªç‰¹å¾´é‡ã§ç›´æŽ¥æ¡ä»¶ä»˜ã‘ã‚‹ã‚ˆã‚Š "è‰¯ã„char2specãƒ¢ãƒ‡ãƒ«+spec2wave WaveNet" ãŒã„ã„ãœã€ æ¦‚è¦ Attention Seq-to-Seq ã§æ–‡å—åˆ—ã‹ã‚‰ãƒ¡ãƒ«ã‚¹ãƒšã‚¯ãƒˆãƒã‚°ãƒ©ãƒ ã‚’ç”Ÿæˆã€WaveNetã§æ³¢å½¢ç”Ÿæˆ. LSTM EncoderãŒæ–‡ç« ã‚’ä¸¸å‘‘ã¿ã€æœ€çµ‚å‡ºåŠ›ã‚’zã¨â€¦

2021-11-08

Vã®3Dã¯ã€Œæ¬ ã‹ã™ã“ã¨ã®ã§ããªã„ã€ã§ã¯ãªã„

3Dã¯VTuberã«ã¨ã£ã¦ã€Œã‚ã‚Œã°æ´»ã‹ã—ã†ã‚‹ç´ æ™´ã‚‰ã—ã„ã‚ªãƒ—ã‚·ãƒ§ãƒ³ã€ã ãŒã€å¿…è¦æ¡ä»¶ã§ã¯ãªã„. ã‚‚ã—3Dã“ããŒæœ¬è³ªãªã‚‰ã°ã€è«–ç†çš„ã«YouTuberã«å‹ã¦ãªã„. ãªãœãªã‚‰ç‰©ç†çš„ãªäººé–“ã®3Dåº¦ã¯ç©¶æ¥µã«é«˜ã„ã‹ã‚‰. ãã—ã¦å®Ÿéš›ã€VTuberã¯3Dã«ã“ã ã‚ã‚‰ãªã„é ˜åŸŸã¸ã‚‚çˆ†ç™ºçš„ã«æµ¸é€ã—ã¦â€¦

2021-11-06

è«–æ–‡è§£èª¬: RiviÃ¨re (2020) Unsupervised pretraining transfers well across languages

å¤šè¨€èªžASRã®äº‹å‰å¦ç¿’ã«CPCã‚’åˆ©ç”¨ã€æ—¢å˜ã®æ•™å¸«ã‚ã‚Šãƒ¢ãƒ‡ãƒ«ã¨åŒç‰ä»¥ä¸Šã®æ€§èƒ½ã‚’ç™ºæ®. èƒŒæ™¯ å°ãƒ‡ãƒ¼ã‚¿ã®æ™‚ã©ã†ã™ã‚‹ã‹ => è¿‘ã„ãƒ‰ãƒ¡ã‚¤ãƒ³ã®å¤§ãƒ‡ãƒ¼ã‚¿ã§pre-training & Transfer learning ASRã¯éŸ³ç´ ã£ã½ã„ã‚‚ã®ã‚’äº‹å‰å¦ç¿’ã§ãã‚Œã°ã‚ã‚Šã¨å…±ç”¨ã§ããã† => CPC æ‰‹æ³• CPCã®æ•™â€¦

2021-11-05

è«–æ–‡è§£èª¬: Multi-band MelGAN: Faster Waveform Generation for High-Quality Text-to-Speech

Audio AI ç§‘å¦

MelGANã«å¯¾ã—ã¦ãƒ¢ãƒ‡ãƒ«ãƒ»Lossã®æœ€é©åŒ–ã‚’ã—ãŸä¸Šã§ã€æœ€çµ‚å‡ºåŠ›ãƒãƒ£ãƒãƒ«ã‚’è¤‡æ•°ã«ã—ã¦ãã‚Œãžã‚Œã‚µãƒ–ãƒãƒ³ãƒ‰ã‚’äºˆæ¸¬. é€šç§° MB-MelGAN ãƒ¢ãƒ‡ãƒ« MelGANãƒ™ãƒ¼ã‚¹ã€ã™ãªã‚ã¡ConvT1dãƒ™ãƒ¼ã‚¹. ResBlockå°Žå…¥ã‚„DilatedConvã«ã‚ˆã‚‹å—å®¹é‡Žæ‹¡å¤§ã«ã‚ˆã‚Šã€ãƒ•ãƒ«ãƒãƒ³ãƒ‰ãƒ¢ãƒ‡ãƒ«ãã®ã‚‚ã®ã‚’ã¾ãšâ€¦

ãŸã‚Œã±ã‚“ã®ã³ã¼ãƒ¼ã‚ã

ã‚ãŸã—ã®å‚™å¿˜éŒ²ã€ç”Ÿç‰©å¦ã¨ãƒ—ãƒã‚°ãƒ©ãƒŸãƒ³ã‚°ãŒå¤šã„ã‹ã‚‚

2021-11-01ã‹ã‚‰1ãƒ¶æœˆé–“ã®è¨˜äº‹ä¸€è¦§

ParselMouth: ãƒ”ãƒƒãƒæ“ä½œ

è«–æ–‡ç´¹ä»‹: Liu (2020) Non-Parallel Voice Conversion with Autoregressive Conversion Model and Duration Adjustment

å¾¹åº•è§£èª¬ï¼non-local operations / self-attention

è«–æ–‡è§£èª¬: FastPitch: Parallel Text-to-speech with Pitch Prediction

è«–æ–‡è§£èª¬: Ren (2019) FastSpeech: Fast, Robust and Controllable Text to Speech

æ„å›³ã—ãŸä¸é–“è¡¨ç¾ã®å¦ç¿’

multi-resolution Conv

Tacotron 2

Vã®3Dã¯ã€Œæ¬ ã‹ã™ã“ã¨ã®ã§ããªã„ã€ã§ã¯ãªã„

è«–æ–‡è§£èª¬: RiviÃ¨re (2020) Unsupervised pretraining transfers well across languages

è«–æ–‡è§£èª¬: Multi-band MelGAN: Faster Waveform Generation for High-Quality Text-to-Speech

2021-11-01ã‹ã‚‰1ãƒ¶æœˆé–“ã®è¨˜äº‹ä¸€è¦§

2021-11-01ã‹ã‚‰1ãƒ¶æœˆé–“ã®è¨˜äº‹ä¸€è¦§