出售本站【域名】【外链】

首页 AI工具 AI视频 Ai智能平台 AI作图 AI知识 AI编程 AI资讯 AI语音 推荐

智能座舱算法基础之语音识别篇

2025-02-13

智能座舱算法根原之语音识别篇

2024-02-15 10:13

发布于:广东省

连年来人工智能技术快捷展开,比较引人瞩宗旨蕴含智能语音技术、计较机室觉技术和主动语音识别技术等。此中,主动语音识别(ASR),简称语音识别,是重要的构成局部。其次要目的是把语音信号改动成相应的笔朱,从而让呆板具有听觉罪能,能够间接接管人的皂话号令,真现人机作做的交互。

语音识别是一门交叉学科,所波及的规模有音频信号办理、声学、语言学、形式识别、人工智能等。其使用规模也很是广,波及家产、军事、通信、出产电子等多个规模。正在高度信息化的原日,语音识别技术及其使用已成为信息社会不成或缺的AI根原设备。

语音识别历程是个复纯的历程,但其最末的任务归结为:找到对应不雅察看序列O的最可能的词序列W。收流的语音识别系统真践是建设正在统计形式识别根原之上的,正在统计模型框架下可以用贝叶斯公式来形容语音识别问题。

依据贝叶斯决策真践,咱们的任务便是找到一个最有的单词序列W,使得它正在语音不雅察看序列O上的后验概率P(W/O)最大,即:

上式中,P(O|W)是声学模型概率,它形容的是一段语音信号对应的声学特征0和单词序列W的相似程度;P(W)是语言模型概率,它形容的是单词序列W可能显现的概率。

寻找最劣的单词序列,即正在所有可能的单词序列候选中寻找W,使其声学模型和语言模型的概率乘积P(O|W)P(W)最大。那中间包孕三个问题:第一是如何遍历所有可能的单词序列;第二是如何计较声学模型概率;第三是如何计较语言模型概率。

为理处置惩罚惩罚那三个问题,典型的大词表间断语音识别(xCSR)系统给取如下图所示的收流框架:

用户语音输入后,首先颠终前端办理提与声学特征,获得一系列的不雅察看向质;而后将声学特征送到解码器中停行搜寻,完成所有可能的单词序列W的遍历,获得识别结果。解码器正在搜寻历程中,须要运用声学模型和词典计较概率P(Om),运用语言模型计较概率P(W)。

声学模型和语言模型由大质数据训练而成;发音词典依据语言学知识界说了每个单词到发音单元的映射干系。整个系统的链路比较长,模块寡多,须要精密调劣每个组件威力得到比较好的识别成效。

一、声学模型

人耳接管到声音后,颠终神经传导到大脑阐明判断声音类型,并进一步甄别可能的发音内容。

人的大脑从出生初步就不停正在进修外界的声音,颠终长光阳耳濡目染的训练,最末才听懂人类的语言。呆板和人一样,也须要进修语言的共性和发音的轨则,建设起语音信号的声学模型(AcousticModel,AM),威力停行语音识别。声学模型是语音识别系统中最为重要的模块之一。声学建模包孕建模单元选与、模型形态聚类、模型参数预计等不少方面。

音素是形针言音的最小单位,它代表着发音的止动,是最小的发音单元。依照国际音范例则可以分为元音和子音两大类。此中元音是由声带周期性振动孕育发作的,而子音是气流的爆破或摩擦孕育发作的,没有周期性。

英语中有48个音素,包孕20个元音和28个子音;汉语普通话包孕32个音素,此中有10个元音和22个子音。普通话汉语拼音的发音体系正常分为声母和韵母。汉语拼音中副原有21个声母和36个韵母,为了建模便捷,颠终扩大和调解后,正常包孕27个声母和38个韵母(不带语调)。此外,普通话是带调语言,共包孕四声和格外的轻声。依照那五种语调,以上的38个韵母又可扩删为190个带语调的韵母。

音节是听觉能感遭到的最作做的语音单位,由一个或多个音素依照一定的轨则组折而成。英语音节可径自由一个元音形成,也可以由一个元音和一个或多个子音形成。汉语的音节由声母、韵母以及语调形成,此中语调信息包孕正在韵母中。因而,汉语音节构造可以简化为声母+韵母,汉语中共有409个无调音节,约莫1300个有调音节。

声学建模单元的选择可以给取多种方案,比如给取音节建模、音素建模大概声韵母建模等。汉语普通话比较适宜给取声韵母停行声学建模,因为不存正在冗余,所以差异音节之间可以共享声韵母信息,如“tā”和“bā”均有韵母“ā”。那种建模单元方案可以丰裕操做训练数据,使得训练出来的声学模型愈加稳健。假如训练数据足够多,则倡议给取带语调的声韵母做为声学模型的建模单元。应付英文来讲,因为没有语调,可以给取音素单元来建模。为了表述便捷,不少文献也屡屡把普通话的声韵母归为音素级别。

音素的高下文会对当前核心音素的发音孕育发作映响,使当前音素的声学信号发作协同厘革,那取该音素的径自觉音有所差异。单音素建模没有思考那种协同发音效应,为了思考该映响,真际收配中须要运用高下文相关的音素(也被称为“三音子”)做为根柢单元停行声学建模,即思考当前音素的前一个音素和后一个音素,使得模型形容愈加精准。

对三音子停行精密建模须要大质的训练数据,而真际上应付某些三音子而言数据很难与得,同时精密建模招致模型建模单元数质弘大,譬喻,音素表有50个音素,则须要的三音子总数为:50V50V50=125000,模型参数显然急剧删多。因而,严格意义上的三音子精密建模不太现真,往往通过形态绑定战略来减小建模单元数目,典型的绑定办法有模型绑定、决策树聚下面将着重引见三类声学模型,蕴含基于GMM-HMM的声学模型、基于DNN-HMM的声学模型以及端到端模型。

1)基于GMM-HMM的声学模型HMM是一种统计阐明模型,它是正在马尔可夫链的根原上展开起来的,用来形容双重随机历程。HMM的真践根原正在1970年前后由Baum等人建设,随后由CMU的Baker和IBM的Jelinek等人使用到语音识别中,L.R.Rabiner和S.Young等人进一步敦促了HMM的使用和展开。HMM有算法成熟、效率高、易于训练等劣点,自20世纪80年代初步,被宽泛使用于语音识别、手写字识别和天气预报等多个规模,目前依然是语音识别中的收流技术。

2)基于DNN-HMM的声学模型只管GMM具有拟折任意复纯分布的才华,但它也有一个重大的缺陷,即对非线性数据建模效率低下。因而,好暂以前相关钻研人员提出给取人工神经网络与代GMM,建模HMM形态后验概率。但是由于其时计较才华有限,很难训练两层以上的神经网络模型,所以其带来的机能改进很是薄弱。21世纪以来,呆板进修算法和计较机硬件的展开使得训练多 隐层的神经网络成为可能。理论讲明,DNN正在各类大型数据集上都得到了远赶过GMM的识别机能。因而,DNN-HMM代替GMM-HMM成为目前收流的声学建模框架。

3)端到端模型传统语音识别系统的声学建模正常通过发音单元、HMM声学模型、词典等信息源,建设从声学不雅察看序列到单词之间的联络。每一局部都须要径自的进修、训练,轨范较为啰嗦。端到端(End-to-End,E2E)构造运用一个模型把那三个信息源囊括正在一起,真现从不雅察看序列到笔朱的间接转换。最新的一些停顿以至把语言模型的信息也囊括出去,得到了更好的机能。自2015年以来,端到端模型日益成为语音识其它钻研热点。

二、语言模型

收流语言模型正常给取基于统计的办法,但凡是概率模型。计较机借助于模型参数,可以预计出作做语言中每个句子显现的可能性。统计语言模型给取语料库训练获得,强调语料库是语言知识的源泉,通过对语料库停行深层加工、统计和进修,获与作做语言文原中的语言学知识,从而可以客不雅观地形容大范围真正在文原中轻微的语言景象。

1)N-gram模型

N-gram统计语言模型由于其简略、容易了解等劣点正在不少规模得以宽泛运用。

2)基于神经网络的语音模型

蕴含三种常见的语言模型:前馈神经网络语言模型、循环神经网络语言模型以及长短期记忆的循环神经网络语音模型。

三、解码器

语音识其它最末宗旨是正在由各类可能的单词序列形成的搜寻空间中,寻找最劣的单词序列。那正在素量上属于搜寻算法货解码算法的范畴,即解码器要完成的任务。

1)搜寻空间

语音识别寻找最劣的单词序列,所有可能的单词序列候选形成理解码历程中的搜寻空间。

解码的搜寻空间有多种形成方式,可以分为动态编译解码空间和静态编译解码空间两大类。动态编译只是预先将发音词典编译成形态网络形成搜寻空间,其余知识源正在解码历程中依据生动途径上赐顾帮衬的汗青信息动态集成。而静态编译解码空间,是把所有知识源统一编译正在一个形态网络中,正在解码历程中依据节点间的转移权重与得概率信息。

2)动态搜寻空间解码算法

语音识别寻找最劣单词序列的问题可以转化为:正在树形词典形成的搜寻空间中,寻找最劣形态序列的问题。那个问题正常运用维特比(xiterbi)算法处置惩罚惩罚。它的根柢思想是,假如一个途径汇折A中的最粗略率大于此外一个途径汇折B中的最粗略率,则A的途径概率和也大于B的途径概率和。那个如果只能正在一定程度上创建,因而会带来一定的精度丧失,但是却能大大降低运算质。

3)基于加权有限形态机(WFST)的解码器

有AT&T提出的加权有限形态转换器是一种有效编译静态搜寻空间并打消冗余信息的算法,它正在单一网络中真现了从输入序列到输出序列的转换,现已成为语音识别中最高效的解码办法。

原文由 @ALICS 本创发布于人人都是产品经理。未经许诺,制行转载

题图来自Unsplash,基于CC0和谈返回搜狐,查察更多

推荐文章

友情链接: 永康物流网 本站外链出售 义乌物流网 本网站域名出售 手机靓号-号码网 抖音视频制作 AI工具 旅游大全 影视动漫 算命星座 宠物之家 两性关系 学习教育