球友会app-ios/安卓/手机app最新版本下载

半岛彩票上海交通大学俞凯教授团队文章——基于声学词嵌入的端到端语音合成方法 MDPI Applied Sciences
发布时间:2025-04-08
 主要研究方向为交互式人工智能、语音及自然语言处理和机器学习的研究和产业化工作。  语音合成是实现人机交互的关键问题之一,来自上海交通大学跨媒体语音智能实验室的俞凯团队近期在Applied Sciences上发表了一篇论文,研究了基于声学词嵌入的端到端语音合成方法。  近年来,基于序列到序列生成架构的端到端文本语音合成 (TTS) 模型,在生成自然语音方面取得了巨大成功。为了避免逐帧递减情况的出

  主要研究方向为交互式人工智能、语音及自然语言处理和机器学习的研究和产业化工作。

  语音合成是实现人机交互的关键问题之一,来自上海交通大学跨媒体语音智能实验室的俞凯团队近期在Applied Sciences上发表了一篇论文,研究了基于声学词嵌入的端到端语音合成方法。

  近年来,基于序列到序列生成架构的端到端文本语音合成 (TTS) 模型,在生成自然语音方面取得了巨大成功。为了避免逐帧递减情况的出现,提出了非自然生成的TTS模型,如FastSpeech和FastSpeech2,以提高语音生成速度。然而,词汇识别对于TTS系统生成高度自然的语音非常重要,但大多数端到端TTS系统只使用音素作为输入标记,而忽略了音素来自哪个词汇的信息。

  之前的研究使用预先设置的语言词汇嵌入音素序列作为TTS系统的输入,但由于语言信息与单词如何发音没有直接关系,这些词汇的嵌入几乎没有对TTS质量的提高产生影响。本文提出了一种与TTS系统联合训练的词声学嵌入方法。在LJSpeech数据集上的实验表明,词声学嵌入显著提高了音速级韵律预测在训练集和验证集上的似然度。对合成音频自然度的主观评价表明,加入声学词嵌入的系统明显优于纯TTS系统和其他使用预设置的词嵌入的TTS系统。

  本文将FastSpeech2选为声学模型,但并没有明确考虑韵律建模,使得在没有主观听力测试的情况下,很难客观评价TTS系统的韵律预测性能。基于此,本研究在模型中引入一个音素级的韵律预测模块,该模块可以自回归地预测每个音素的韵律嵌入分布。与标准的Fastspeech2系统相比,它不仅可以提高自然度,而且允许使用韵律嵌入的对数似然度来轻松客观地评估音素级韵律预测性能,如图1所示。

  现在流行的TTS系统大多使用音素作为声音输入标记,而忽略了音素来自哪个词汇的信息。然而,词汇识别对于TTS系统生成高度自然的语音非常重要。本文提出利用声学词嵌入来进行自然语音合成,在传统的TTS系统中引入词编码器和词音素对齐器,其架构如图2所示。

  本文TTS模型基于Fastspeech2 (GMM的韵律建模)。将GMM中的高斯分量个数设为20,Adam优化器与Noam学习率调度策略一起用于TTS训练。研究者使用320mel-spectrogram作为声学特征,帧移12.5ms,帧长50ms。采用MelGAN作为声码器进行波形重构。

  本文提出了一种在TTS系统中直接训练词声学嵌入的创新方法。音素序列和词序列分别通过两个编码器,共同作为TTS系统的输入半岛彩票,然后将两个输出隐藏状态拼接起来进行音素级韵律预测。本文在LJSpeech数据集上的实验表明,使用卷积与Transformer的叠加结构作为词编码器的效果最好。此外,词频阈值的选择应谨慎,阈值过大或过小都会导致性能下降。最后,本文将提出的系统与不使用词汇信息的基线和使用预训练的词嵌入的几个工作进行了比较。主观听力测试显示,在自然度方面,本文提出的系统优于其他所有系统。

  期刊主题涵盖了应用物理学、应用化学、工程、环境和地球科学以及应用生物学的各个方面。

  特别声明:本文转载仅仅是出于传播信息的需要,并不意味着代表本网站观点或证实其内容的真实性;如其他媒体、网站或个人从本网站转载使用,须保留本网站注明的“来源”半岛彩票,并自负版权等法律责任;作者如果不希望被转载或者联系转载稿费等事宜,请与我们接洽。

  周向高压剪切Bi-Sn (57/43) 合金的微观结构演变和拉伸测试 MDPI Crystals

  Processes:期刊专题推荐——聚焦“环境与绿色过程”研究前沿 MDPI 期刊推广

  Plants:南京农业大学宋爱萍副教授与陈煜副教授共同主持特刊“观赏植物分子生物学” MDPI 特刊征稿

  与脂肪肝指数有关的降秩回归衍生饮食模式与加纳及移民人群中II型糖尿病的关系:横断面研究 MDPI Nutrients

  家禽养殖信息系统的设计与实现——集约化家禽养殖管理 MDPI Animals

  MDPI 文章排版再次升级,三个改变只为给您带来更好体验 MDPI News半岛彩票半岛彩票半岛彩票