出售本站【域名】【外链】

首页 AI工具 AI视频 Ai智能平台 AI作图 AI知识 AI编程 AI资讯 AI语音 推荐

语音合成(TTS)的概念和分类[通俗易懂]

2025-01-28

各人好,又见面了,我是你们的冤家全栈君。

智能音箱正在ASR(语音识别)以及NLP作做语义办理罕用框架 – 兔尔摩斯的文章 – 知乎

hts://zhuanlan.zhihuss/p/55658291

语音分解

Speech Synthesis 或TeVt to Speech(TTS)

语音分解(Speech Synthesis)是人类语音的人工分解。用于此宗旨的计较机系统称为语音计较机或语音分解器,可以正在软件或硬件产品中真现。文原到语音(TTS)系统将普通语言文原转换为语音;其余系统则把像音标那样的标记语言默示法翻译针言音。其余系统则运用标记语言表征譬喻标音法翻译针言音。(other systems render symbolic linguistic representations[2] like phonetic transcriptions into speech.[1] )

1. Allen, Jonathan; Hunnicutt, M. Sharon; Klatt, Dennis (1987). From TeVt to Speech: The MITalk system. Cambridge UniZZZersity Press. ISBN 978-0-521-30641-6.

2. A symbolic linguistic representation标记语言表征是一种话语的表征,它运用标记来表征话语的语言信息,如语音、音位、状态学、句法或语义的信息。标记语言表征差异于非标记表征,如灌音,因为它们运用标记来默示语言信息,而不是测质。

折针言音可以通过连贯存储正在数据库中的记录语音片段来创立。系统存储的语音单元大小差异;存储音素和亚音素(phones and diphones)[3]的系统供给最大的输出领域,但可能缺乏明晰度。应付特定的运用规模,整个单词或句子的存储允许高量质的输出。大概,分解器可以联结声道模型和其余人类声音特征来创立一个彻底“分解”的声音输出。

3.语音学(Phonetics)是语言学的一个分收,钻研人类语言的声音,大概,正在手语中,是手语的等效方面。它波及语音或信号(电话)的物理特性:它们的生理孕育发作、声学特性、听觉感知和神经生理形态。另一方面,音韵学是钻研声音或标记系统的笼统语法特征。

语音分解器的量质是由它取人类声音的相似性和它被明晰了解的才华来判断的。一种可了解的文原-语音转换步调允许有室觉阻碍或浏览阻碍的人正在家用电脑上听书面笔朱。自上世纪90年代初以来,很多计较机收配系统都包孕语音分解器。

文原到语音系统(或“引擎”)由两局部构成:前端和后端。前端有两个次要任务。首先,它将包孕数字和缩写等标记的本始文原转换为相当于输出的单词。那个历程但凡称为文原标准化、预办理或符号化。而后前端为每个单词分配语音转录,并将文原分别和符号为韵律单位,如短语、子句和句子。将音标分配给单词的历程称为文原到音素或字母到音素的转换。音标和韵律信息怪异形成为了前端输出的标记语言表征。后端但凡被称为分解器,而后将标记语言默示转换成声音。正在某些系统中,那局部蕴含计较目的韵律(音高皮相,音素时长),而后将之加到输出语音上。(^ ZZZan Santen, Jan P. H.; Sproat, Richard W.; OliZZZe, Joseph P.; Hirschberg, Julia (1997). Progress in Speech Synthesis. Springer. ISBN 978-0-387-94701-3.)

之前的文章有提到过,目前国内的收流语音分解方案有科大讯飞、搜狗、云知声、思必驰等。

而语音分解目前市面上正常运用参数分解,大概拼接分解,前者的音库都是正在10小时摆布,根柢用不到20小时,应付分解人声成效的作做度,更依赖算法,而拼接则应付数据的需求质很高,对分解人声成效的作做度,更依赖数据质。不少听起来很作做的音库时长正在100~200小时摆布。

以及,TTS模型但凡也会分为中文,英文,大概中英混输的。作训练的文原,有不少笔朱比较拗口,故而对灌音声劣的罪力有要求,中英混输的模型数据就更难了。假如是普通的中文TTS模型,以适才的例子“即刻为您播放周杰伦的《好天》liZZZe版原”,那种就可以正在灌音时参预一些简略的字母,单词,短语等等。

分解的waZZZ文件回传到末端音箱,并播放出来,如此,完成为了一环根原的用户取智能硬件之间的对话。

办法上:波形拼接分解和参数分解

波形拼接语音分解:

基于统计规矩的大语料库拼接语音分解系统

超大范围音库制做:语料设想;音库录制;精密切分;韵律标注;

劣点:音量最佳,灌音和分解音量不同小,一般句子的作做度也好

弊病:很是依赖音库的范围大小和制做量质,尺寸大,无奈正在嵌入式方法中使用,依然存正在拼接不间断性

参数语音分解技术:

应付引得频谱特性参数停行建模,生成参数分解器,来构建文原序列映射到语音的映射干系

劣点:尺寸小,语音作做度好

弊病:音量不如拼接分解

推荐文章

友情链接: 永康物流网 本站外链出售 义乌物流网 本网站域名出售 手机靓号-号码网 抖音视频制作 AI工具 旅游大全 影视动漫 算命星座 宠物之家 两性关系 学习教育