たれぱんのびぼーろく

わたしの備忘録、生物学とプログラミングが多いかも

論文解説: FastPitch: Parallel Text-to-speech with Pitch Prediction

FastSpeechにピッチ推定も兼ねてみました論文.

Durationと同じくphoneme単位でPitchPredictorを学習.
Scalar予測した値をlatentと同じFeature次元に変換したのち、なんとただsum(segFCでFeature次元に飛ばしているので学習可になり、その辺で音高次元でも暗示的に作ってるのか…?)

デモ有、pre-trained model有.
Energyも取り入れたFastPitch1.1が上記のレポジトリで公開.
古典手法のアライメントで動かせるようにしたりとか色々追加あるみたいなので、上記レポは後続論文だと思っておいたほうがいい.