FastSpeech2 论文笔记(不包含FastSpeech2s)

原文地址:https://arxiv.org/abs/2006.04558

1. 简介

FastSpeech 存在一些缺点:教师-学生蒸馏流程复杂且耗时;从教师模型中提取的持续时间不够准确;从教师模型蒸馏出的目标梅尔频谱图有信息丢失等。因此,FastSpeech2直接使用真实语音作为训练目标,而不是教师模型的简化输出;引入了更多的语音变化信息作为条件输入。实验结果表明,FastSpeech2相比FastSpeech实现了三倍的训练加速,推理更快,且合成质量优于FastSpeech。

TTS(文字到语音,Text-To-Speech)任务是一个典型的一对多合成问题。由于语音的变化,如音调、持续时间、音量、韵律,一个文本序列可能对应多个语音序列。在非自回归TTS模型中,文字序列是唯一的输入,导致模型无法预测语音的变化,可能导致过度拟合训练样本上的语音变化而降低泛化能力。FastSpeech2旨在解决这些问题。

2. FastSpeech2 模型宏观结构

c176ea07542bd184211a46bb71633567.png

如图所示为FastSpeech2的模型结构。其中FastSpeech2s是一个完全端到端模型(不包括生成的梅尔频谱图中间量以及后续的声码器)。

编码器(Encoder)将音素(Phoneme)嵌入序列转换为音素隐藏序列,然后“变化适配器(Variance Adaptor)”将不同的语音变化信息添加到隐藏序列中,如:持续时间(Duration),音高(Pitch)以及能量(Energy)。最后,解码器(Mel-spectrogram Decoder)将隐藏序列转为梅尔频谱序列。该模型使用前馈Transformer块作为编码器和解码器的基本结构,该块是自注意力层和1D卷积层的堆叠。该模型使用的Variance Adaptor中,持续时间预测器(Duration Predictor)通过强制对齐获得的音素持续时间作为训练目标。此外,额外的音高和能量预测器可以提供更多的变化信息,以缓解TTS中的一对多问题。

3. Variance Adaptor 变化适配器

Variance Adaptor的目标是向隐藏序列中添加变化信息。这些变化信息包括:**Duration:**表示语音声音的持续时间;**Pitch:**音调,是传达情感的关键特征,极大地影响语音韵律;**Energy:**能量,表示梅尔频谱图的帧级幅度,影响语音的音量和韵律。Variance Adaptor可以添加更多的方差信息,如说话人、情感、风格等。在训练中,模型从训练数据中提取持续时间、音调和能量的真实值作为输入,用于预测目标语音。同时,以这些真实的变化信息为目标,训练Duration Predictor、Pitch Predictor以及Energy Predictor组件。这些预测器组件在推理中用于合成目标语音。

如上图(c)所示,Duration/Pitch/Energy Predictor具有相同的模型结构(模型参数不同),包括一个ReLU激活函数的2层1D卷积网络,每个卷积网络后跟随曾归一化和Dropout层。最终,尾部有一个线形层将隐藏状态投影到输出向量。

3.1 Duration Predictor

Duration Predictor 以音素隐藏序列作为输入,并预测每个音素的持续时间,表示该音素对应的梅尔帧数。为了便于预测,将其转换为对数域。Duration Predictor使用均方误差损失(MSE)进行优化,以从训练样本中提取的持续时间作为训练目标。为了提高准确性,使用Montreal Forced Aligner(MFA)工具对原始数据进行强制对齐,并提取音素的持续时间。

3.2 Pitch Predictor

为了更好地预测音调轮廓的变化,FastSpeech2采用连续小波变换(Continuous wavelet transform,CWT)将连续音调分解为音调谱图,并将音调谱图作为音调预测器的训练目标。Pitch Predictor 采用MSE进行优化,在推理中,音调预测器预测音调谱图,然后使用逆CWT将其转换为音调轮廓。

为了在训练和推理中将音调轮廓作为输入,将每帧的音高F0量化为对数刻度上的256个可能值,并将其转换为音调嵌入向量p,添加到隐藏序列中。

3.3 Energy Predictor

通过计算每个短时傅里叶变换(Short-time Fourier Transform,STFT)帧的振幅的L2范数来计算能量,然后,将每帧的能量化为256个均匀分布的可能值,并将其编码为能量嵌入e,并将其类似地添加到扩展的隐藏序列中。Energy Predictor使用MSE进行优化。

4. 实验结果

在LJSpeech数据集上评估FastSpeech2,根据采样率22050设置帧大小(frame size)和跳跃大小(hop size)设置为1024和256。在Encoder和Decoder中包括4个前馈变换器(FFT)块。解码器中的输出线性层将隐藏状态转换为80维的梅尔频谱图。模型使用MAE进行优化,结果如下图:

6e67fd295eecc6c6259fec64c3c45d46.png

09a4853ed3b4d0fe3579bcd8313c73c1.png