PHONETIC POSTERIORGRAMS FOR MANY-TO-ONE VOICE CONVERSION WITHOUT PARALLEL DATA TRAINING
基于音素后验图不使用平行数据训练的多到一的声音转换
http://www1.se.cuhk.edu.hk/~lfsun/ICME2016_Lifa_Sun.pdf
0. 摘要
这篇文章提出了一种新颖的使用非平行训练数据的声音转换方法。这个想法通过使用由SI-ASR获得的PPGs的均值联系不同的说话者。方法假设PPGs可以代表说话者标准化空间中的语音发音,并且独立于说话者对应的语音内容。提议的方法首先获取目标说话者(target speech)的PPGs。随后使用基于深双向长短期记忆的递归神经网络(DBLSTM)对目标说话者的PPGs与声学特征之间的关系进行建模。为了转换任意的源语音,我们从相同的SI-ARS中获得PPGs,并将其输入一个已训练的DBLSTM中生成转换的语音。我们的方法有两个主要的优点:1)不需要平行的训练数据;2)一个训练模型可以应用在任意源说话者上转换为固定的目标说话者。实验表明,我们的方法与目前最好的系统相比在语音质量和与说话者的相似度上有相当或者更胜的表现。