Initial investigation of an encoder-decoder end-to-end TTS framework using marginalization of monotonic hard latent alignments

Authors: Yusuke Yasuda, Xin Wang, Junichi Yamagishi

Oral Session 6: Sequence to sequence model, SSW10, 2019

Paper: https://arxiv.org/abs/1908.11535

System Natural Analyisis by synthesis Self-attention Tacotron Tacotron SSNT (proposed)
1: 空中へ飛びだしかけた。
2: プレートは二年まえのままだった。
3: 依然として立ちつくしている。
4: 踊りにいきませんか。
5: 取り寄せはできますか。
6: 課題は山積している。