Lexical pitch accent and duration modeling for neural end-to-end text-to-speech synthesis(End-to-endニューラル音声合成のための構文的ピッチアクセントと音素継続長のモデル化)