基于声学词嵌入的端到端语音合成方法

2025-01-24

上海交通大学俞凯教授团队文章——基于声学词嵌入的端到端语音分解办法 | MDPI Applied Sciences

论文题目：Acoustic Word Embeddings for End-to-End Speech Synthesis（基于声学词嵌入的端到端语音分解办法）

期刊：Applied Sciences

做者：Feiyu Shen, Chenpeng Du and Kai Yu

颁发光阳：27 September 2021

DOI：10.3390/app11199010

微信链接：

期刊链接：

hts://ss.mdpiss/journal/applsci

通讯做者引见

俞凯教授

上海交通大学

次要钻研标的目的为交互式人工智能、语音及作做语言办理和呆板进修的钻研和财产化工做。

语音分解是真现人机交互的要害问题之一，来自上海交通大学跨媒体语音智能实验室的俞凯团队近期正在Applied Sciences上颁发了一篇论文，钻研了基于声学词嵌入的端到端语音分解办法。

弁言

连年来，基于序列到序列生成架构的端到端文原语音分解 (TTS) 模型，正在生成作做语音方面得到了弘大乐成。为了防行逐帧递加状况的显现，提出了非作做生成的TTS模型，如FastSpeech和FastSpeech2，以进步语音生成速度。然而，词汇识别应付TTS系统生成高度作做的语音很是重要，但大大都端到端TTS系统只运用音素做为输入符号，而疏忽了音历来自哪个词汇的信息。

之前的钻研运用预先设置的语言词汇嵌入音素序列做为TTS系统的输入，但由于语言信息取单词如何发音没有间接干系，那些词汇的嵌入的确没有对TTS量质的进步孕育发作映响。原文提出了一种取TTS系统结折训练的词声学嵌入办法。正在LJSpeech数据集上的实验讲明，词声学嵌入显著进步了音速级韵律预测正在训练集和验证集上的似然度。对分解音频作做度的主不雅观评估讲明，参预声学词嵌入的系统鲜亮劣于杂TTS系统和其余运用预设置的词嵌入的TTS系统。

设想亮点

1. 提出基于词声学嵌入 (Acoustic Word Embedding，AWE) 结折训练的端到端TTS系统，以协助进步韵律和作做度；

2. 操做基于GMM的韵律建模办法对分解音频的韵律停行客不雅观器质；

3. 摸索词编码器最宏构造取词频挑选的最佳阈值；

4. 测试后的主不雅观评估讲明，AWE比预训练的词嵌入具有更好的作做性。

基于声学词嵌入的端到端语音分解办法

Part1：端到端语音分解

原文将FastSpeech2选为声学模型，但并无明白思考韵律建模，使得正在没有主不雅观听力测试的状况下，很难客不雅观评估TTS系统的韵律预测机能。基于此，原钻研正在模型中引入一个音素级的韵律预测模块，该模块可以自回归地预测每个音素的韵律嵌入分布。取范例的Fastspeech2系统相比，它不只可以进步作做度，而且允许运用韵律嵌入的对数似然度来轻松客不雅观地评价音素级韵律预测机能，如图1所示。

图1. 基于GMM韵律建模的端到端语音分解。

Part2：声学词嵌入

如今风止的TTS系统大多运用音素做为声音输入符号，而疏忽了音历来自哪个词汇的信息。然而，词汇识别应付TTS系统生成高度作做的语音很是重要。原文提出操出声学词嵌入来停行作做语音分解，正在传统的TTS系统中引入词编码器和词音素对齐器，其架构如图2所示。

图2. 带有声学词嵌入的模型体系构造。

实验设置及结果

1. 实验设置

原文TTS模型基于Fastspeech2 (GMM的韵律建模)。将GMM中的高斯重质个数设为20，Adam劣化器取Noam进修率调治战略一起用于TTS训练。钻研者运用320mel-spectrogram做为声学特征，帧移12.5ms，帧长50ms。给取MelGAN做为声码器停行波形重构。

2. 词编码器架构

比较了三种常见词编码器构造的机能。

(1) None：不运用词编码器的基线；

(2) BLSTM：一层512维双向LSTM；

(3) Transformer：6层512维Transformer模块；

(4) ConZZZ+Transformer：一层核大小为3的1D-CNN，而后是六层512维Transformer模块。

表1. 各类编码器架构的参数数质和推理速度 (秒/帧)。

3. 词频阈值

表2. 差异词频阈值下的词汇质和OOx。

图3. 差异词频阈值的音素语音韵律的对数似然直线。

结论

原文提出了一种正在TTS系统中间接训练词声学嵌入的翻新办法。音素序列和词序列划分通过两个编码器，怪异做为TTS系统的输入，而后将两个输出隐藏形态拼接起来停行音素级韵律预测。原文正在LJSpeech数据集上的实验讲明，运用卷积取Transformer的叠加构造做为词编码器的成效最好。另外，词频阈值的选择应郑重，阈值过大或过小都会招致机能下降。最后，原文将提出的系统取不运用词汇信息的基线和运用预训练的词嵌入的几多个工做停行了比较。主不雅观听力测试显示，正在作做度方面，原文提出的系统劣于其余所有系统。

Applied Sciences期刊引见

主编：Takayoshi Kobayashi, The UniZZZersity of Electro-Communications, Japan

期刊主题涵盖了使用物理学、使用化学、工程、环境和地球科学以及使用生物学的各个方面。

出格声明：原文转载仅仅是出于流传信息的须要，其真不意味着代表原网站不雅概念或证明其内容的真正在性；如其余媒体、网站或个人从原网站转载运用，须糊口生涯原网站说明的“起源”，并自傲版权等法令义务；做者假如不欲望被转载大概联络转载稿费等事宜，请取咱们接洽。

随机推荐

CentOS7安装教程
浏览：23 时间：2025-01-16
无法理解带字母的语音命令...
浏览：19 时间：2025-01-12
男士香水品牌排行榜前十名，男士香水哪款最受欢迎...
浏览：42 时间：2024-11-05
青岛平度：2024第十九届CNE美甲美睫大会暨第三届中国（国...
浏览：39 时间：2024-10-12
科大讯飞突破端到端语音同传，国内首发星火语音同传大模型...
浏览：18 时间：2025-01-17

出售本站【域名】【外链】

基于声学词嵌入的端到端语音合成方法

猜你喜欢

热门文章

随机推荐

推荐文章