语音识别建模对语音识别来说是不成或缺的一局部,因为差异的建模技术但凡意味着差异的识别机能,所以那是各个语音识别团队重点劣化的标的目的。也正是因为如此,语音识其它模型也层见叠出,此中语言模型蕴含了N-gram、RNNLM等,正在声学模型里面又涵盖了HMM、DNN、RNN等模型...
简略来说,声学模型的任务便是形容语音的物理厘革轨则,而语言模型则表达了作做语言包孕的语言学知识。原期硬创公然课邀请到了搜狗语音交互核心语音技术部卖力人陈伟来为各人分享随同着原轮人工智能海潮下语音识别建模技术的演进,欲望能够帮各人理清收流的识别建模脉络以及暗地里的考虑。
嘉宾引见:陈伟,搜狗公司桌面事业部专家钻研员,语音交互核心语音技术部卖力人,卖力搜狗语音识别、语音分解、音乐检索、声纹识别、手写识别等多项技术的研发工做,同时卖力搜狗知音引擎语音技术的研发,努力于通过技术和产品的翻新提升语音交互品量,为用户供给劣异的语音运用体验。
搜狗知音引擎是搜狗公司自主研发的一项专注于作做交互的智能语音技术,于2016年8月3日正式对外发布,该技术汇折了语音识别、语义了解、语音交互、以及供给效劳等多项罪能,不只能听会说,还能了解会考虑, 原文将联结知音引擎中语音识别建模技术的运用来为各人解说。
图1 搜狗知音引擎
根原观念语音帧思考到语音的短时颠簸特性,语音信号正在前端信号办理时要停行加窗分帧的收配,识别特征都按帧来提与,详细请见图2。(编者注:分帧后的语音信号逐帧提与语音特征用于声学模型建模。)
图2 语音帧的分别
语音识别系统语音信号颠终前端信号办理、端点检测等办理后,逐帧提与语音特征,传统的特征类型蕴含MFCC、PLP、FBANK等特征,提与好的特征送至解码器,正在声学模型、语言模型以及发音词典的怪异辅导下,找到最为婚配的词序列做为识别结果输出,整体流程请见图3。识其它公式如图4所示,可见声学模型次要形容发音模型下特征的似然概率;语言模型次要形容词间的连贯概率;发音词典次要是完成词和音之间的转换,此中声学模型建模单元正常选择三音素模型,以“搜狗语音为例”,
sil-s+ou1 s-ou1+g ou1-g+ou3 g-ou3+y ou3-y+u3 y-u3+y u3-y+in1 y-in1+sil
图3 语音识别系统流程
图4 语音识别本理
须要留心的是,输入特征矢质X代表语音的特征。
收流声学建模技术连年来,跟着深度进修的崛起,运用了濒临30年的语音识别声学模型HMM(隐马尔科夫模型)逐渐被DNN(泛指深度神经网络)所代替,模型精度也有了突飞猛进的厘革,整体来看声学建模技术从建模单元、模型构造、建模流程等三个维度都有了比较鲜亮的厘革,如图5所示:
图5 声学建模演进总结
此中,深度神经网络超强的特征进修才华大大简化了特征抽与的历程,降低了建模应付专家经历的依赖,因而建模流程逐步从之前复纯多步的流程转向了简略的端到实个建模流程,由此带来的映响是建模单元逐步从形态、三音素模型向音节、字等较大单元演进,模型构造从规范的GMM-HMM向DNN+CTC(DNN泛指深度神经网络)改动,演进的中间态是DNN-HMM的混折模型构造。
HMMHMM最早创设于20世纪70年代。80年代获得了流传和展开,成为信号办理的一个重要标的目的,现已乐成地用于语音识别,止为识别,笔朱识别以及毛病诊断等规模。
具体来看,规范的HMM建模框架如下所示:
图6 HMM建模框架
此中,输出概率运用高斯混折模型GMM建模,如下图所示:
DNN-HMM2012年,微软邓力和俞栋教师将前馈神经网络FFDNN(Feed Forward Deep Neural Network)引入到声学模型建模中,将FFDNN的输出层概率用于交换之前GMM-HMM中运用GMM计较的输出概率,引领了DNN-HMM混折系统的风潮,不少钻研者运用了FFDNN、CNN、RNN、LSTM等多种网络构造对输出概率停行建模,并得到了很好的成效,如图7所示。
图7 DNN-HMM混折建模框架
DNN-HMM建模框架中,输入特征运用了正在当前帧摆布拼帧的方式来真现模型对时序信号永劫相关性的建模,模型输出则保持了GMM-HMM常常运用的trihone共享形态(senone),中文大词汇质间断语音识别中形态数正常设置正在1万摆布,如图8所示。
图8 DNN-HMM建模流程
FFDNNFFDNN的模型构造如下所示:
图9 FFDNN建模流程
CNN编者注:真际上,最早CNN只使用于图像识别,曲到2012年才被用于语音识别系统。
图10 CNN建模流程
RNN及LSTM语音的协同发音景象注明声学模型须要思考到语音帧之间的永劫相关性,只管上文中DNN-HMM通过拼帧的方式对高下文信息停行了建模,但是究竟拼接的帧数有限,建模才华不强,因而引入了RNN(循环神经网络)加强了永劫建模的才华,RNN隐层的输入除了接管前一个隐层的输出之外,还接管前一时刻的隐层输出做为当前输入,通过RNN的隐层的循环应声,糊口生涯了永劫的汗青信息,大大加强了模型的记忆才华,语音的时序特性通过RNN也获得了很好的形容。但是RNN的简略构造正在模型训练停行BPTT(Backpropagation Through Time)时很容易惹起梯度消失/爆炸等问题,因而正在RNN的根原上引入了LSTM(长短时记忆模型),LSTM是一种非凡的RNN,通过Cell以及三个门控神经元的非凡构造对永劫信息停行建模,处置惩罚惩罚了RNN显现的梯度问题,理论也证真了LSTM的永劫建模才华劣于普通RNN。
图11 RNN构造
图12 RNN到LSTM
CTC上述的建模技术正在模型训练时须要满足一个条件,便是训练数据中每一帧都要预先确定对应的标注,即对应DNN输出形态的序号,训练特征序列和标注特征序列必须是等长的,而为了获得标注,须要运用已有模型对训练数据序列和标注序列停行强制对齐,但是基于大数据训练时标注的筹备比较耗损光阳,同时对齐运用的模型精度往往存正在偏向,训练中运用的标注会存正在舛错。因而引入了CTC(Connectionist Temporal Classification)本则,处置惩罚惩罚了标注序列取特征序列不等长的问题,通过前向后向算法主动进修语音特征中的模型边界,那种本则取用于时序建模的神经网络(如LSTM)的联结可以间接用于端到实个模型建模,推翻了语音识别运用濒临30年之暂的HMM框架。
CTC本则引入了blank类别,用于吸支发音单元内部的稠浊性,愈加突出模型取其余模型之间的不异性,因而CTC具有很是鲜亮的尖峰成效,图13是运用triphone-lstm-ctc模型对内容为”搜狗语音”的语音停行识别后的输出概率分布,可以看到大局部区域都被blank吸支,识别出的triphone对应着鲜亮尖峰。
图13 CTC尖峰成效演示
可以预期,基于CTC大概引用CTC观念(如LFMMI)的端到端识别技术将逐渐成为收流,HMM框架将逐渐被代替。
其余建模技术语言建模技术目前RNNLM的技术曾经逐步引入到语音识别中来,通过对更长汗青信息的建模,RNNLM较传统运用的N-Gram技术对识别机能有了较好的提升,但是思考到大词汇质语音识别中,假如彻底交换N-Gram会带来运算质以及运算光阳的大幅删多,因而正在知音引擎中,RNNLM用正在对N-Gram识别输出的N-Best候选列表的重牌序上。
语音唤醉技术知音引擎中目前针对牢固唤醉词的方式,基于DNN停行端到实个唤醉词建模,详细如下:
图14 端到端语音唤醉流程
那种办法只管得到了很是低的误唤醉率,但是弊病也很鲜亮,唤醉词无奈自界说,因而知音引擎中,咱们运用DNN提与Bottleneck Feature,用于基于HMM的唤醉模型训练,较传统基于MFCC的方式也得到了较好的成效。
对于将来只管语音识别建模才华得到了较大的提升,但是远场、噪声、口音、发音习惯(吞音)等问题依然存正在,很同意吴恩达的说法,由95%的精确率展开到99%,只管只要4%的差距,但是可能会扭转人们的交互方式,将真现很少用到常常运用的改动。
目前语音本始数据获与的老原越来越低,家产界正正在运用数万小时的已标注数据停行模型更新,未来十万级的训练数据将成为可能,怎样能高效的运用数据,次要有以下几多点的思考:
数据挑选层面:运用无监视、弱监视、半监视的数据停行训练,同时更高效的筛选数据停行标注,知音引擎曾经正在运用自动进修的办法停行数据的挑选;
运算层面:基于异构计较的集群正在超大数据上高效的完成模型训练,而运算才华的晋级曾经从线下训练扩展到了线上测试;
模型层面:超大数据的进修须要更强才华的模型,目前基于多种模型构造的复折构造(如CNN-LSTM-DNN)曾经证真了可止性,后续基于Encoder-Attention-Decoder的序列进修框架也曾经正在和语音识别停行联结。
同时语音识别只管如今可以抵达很高的精确率,但是精确率从95%到99%以至100%的那个凌驾是由质变到量变的历程,也是决议语音交互是否成为收流交互方式的重要一环,但是目前语音识其它一些老问题依然存正在,技术上依然没有才华彻底处置惩罚惩罚,因而技术之外的产品翻新也很重要,可以有效补救精确率上的缺失。
以知音引擎为例,它针对那个问题供给了语音纠错的处置惩罚惩罚方案,针对识别中显现的舛错可以运用作做语音的方式停行修正,比如用户想说“我叫陈伟”,识别成为了“我叫晨炜”,通过语音说出“耳东陈伟大的伟”就会自新识别结果,目前跟着多轮产品的迭代,语音批改曾经具备了80%的批改乐成率,并且曾经使用到了知音引擎的语音交互中,同时正在搜狗iOS输入法中也集成为了语音批改的才华。
编者注:总结语音识别系统的流程,总结语音识别系统的流程,声学建模和语言建模局部是最要害的一环,而目前基于深度进修的建模技术曾经将模型机能提升到新的阶段。不过正如陈伟所说,只管语音识其它精确率曾经抵达了较高的水准,但仍然有很大的提升空间,这么将来还会显现什么样的模型呢?让咱们一起期待人工智能出格是深度进修技术新成绩的显现。
此文为雷锋网本创内容,特此声明雷锋网雷锋网
雷峰网本创文章,未经授权制行转载。详情见转载须知。
“挤进”黛妃婚姻、成为英国新王后的卡米拉,坐拥多少珠宝?...
浏览:59 时间:2024-08-08变美指南 | 豆妃灭痘舒缓组合拳,让你过个亮眼的新年!...
浏览:56 时间:2024-11-10智能终端产业全景图谱(附市场供需规模、区域布局、企业布局和技...
浏览:21 时间:2025-01-12最受欢迎十大神曲排行榜 最火的神曲是哪首 经典洗脑歌曲盘点→...
浏览:37 时间:2024-08-05连伪造人的表情都能做到了,机器学习技术比美图秀秀强大的多...
浏览:1 时间:2025-01-26