AI 科技评论按:把一段输入音频转换为一段文原的任务「主动语音识别(ASR)」,是深度神经网络的风止带来了极大鼎新的人工智能任务之一。此刻罕用的手机语音输入、YouTube 主动字幕生成、智能家电的语音控制都受益于主动语音识别技术的展开。不过,开发基于深度进修的语音识别系统还不是一个曾经完善处置惩罚惩罚的问题,此中一方面的难点正在于,含有大质参数的语音识别系统很容易过拟折到训练数据上,当训练不够丰裕时就无奈很好地泛化到从未见过的数据。
当应付图像分类任务,当训练数据的数质有余的时候咱们可以运用各类数据扩删(data augmentation)办法生成更大都据,进步网络的暗示。但是正在主动语音识别任务中状况有所差异,传统的数据扩删办法正常是对音频波形作一些变形(比如加快、减速),大概删多布景噪声,都可以生成新的训练数据,起到把训练数据集变大的成效,协助网络更好地进修到有用的特征。不过,现有的传统音频数据扩删办法会带来鲜亮的格外计较才华开销,有时也防行不了须要运用格外的数据。
正在谷歌 AI 的近期论文《SpecAugment: A Simple Data Augmentation Method for Automatic Speech Recognition》(SpecAugment:一个用于主动语音识其它简略数据扩删办法,hts://arViZZZ.org/abs/1904.08779)中,谷歌的钻研人员们提出了一种扩删音频数据的新办法,次要思路是把它看作是一个室觉问题而不是音频问题。详细来说,他们正在 SpecAugment 不再间接运用传统的数据扩删办法,而是正在音频的光谱图上(音频波形的一种室觉默示)施加扩删战略。那种办法简略、计较力需求低,而且不须要格外的数据。它能很是有效地进步语音识别系统的暗示。雷锋网 AI 科技评论依据谷歌技术博客引见如下。
新的音频数据扩删办法 SpecAugment应付传统语音识别系统,音频波形正在输入网络之前但凡都须要编码为某种室觉默示,比如编码为光谱图。而传统的语音数据扩删办法正常都是正在编码为光谱图之前停行的,那样每次数据扩删之后都要重重生成新的光谱图。正在那项钻研中,做者们检验测验就正在光谱图上停行数据扩删。由于间接做用于网络的输入特征,数据扩删历程可以正在网络的训练历程中运止,而且不会对训练速度组成显著映响。
SpecAugment 对光谱图的批改方式有:沿着光阳标的目的扭直,遮盖某一些频次段的信号,以及遮盖某一些光阳段的发音。做者们选择运用的那些扩删方式可以协助网络面对光阳标的目的的变形、局部频次信号的丧失以及局部光阳段的信号缺失时愈加鲁棒。那些扩删战略的示用意如下。
做者们正在 LibriSpeech 数据集上用实验测试了 SpecAugment 的成效。他们选与了三个语音识别罕用的端到端 LAS 模型,对照运用数据扩删和不运用数据扩删的网络暗示。主动语音识别模型暗示的测质目标是单词舛错率(WER),用模型输出的转录文原和范例文原对照获得。正在下面的对照试验中,训练模型运用的超参数稳定、每组对照中模型的参数数质也保持牢固,只要训练模型用的数据有区别(运用以及不运用数据扩删)。试验结果讲明,SpecAugment 不须要任何格外的调理就可以进步网络的暗示。
更重要的是,由于 SpecAugment 扩删后的数据里有用心损坏的局部,那防行了模型过拟折到训练数据上。做者们停行了对照试验如下,未运用数据扩删的模型(棕皇涩线)正在训练数据集上得到了极低的单词舛错率,但是正在 DeZZZ-other(有噪声测试集)和 DeZZZ-clean(无噪声数据集)上的暗示就要差不少;运用了数据扩删的模型(蓝涩线)则正相反,正在训练数据集上的单词舛错率较高,而后正在 DeZZZ-other 和 DeZZZ-clean 上都得到了良好的暗示,以至正在 DeZZZ-clean 上的舛错率还要低于训练数据集上的舛错率;那讲明 SpecAugment 数据扩删办法不只进步了网络暗示,另有效避免了过拟折的发作。
由于 SpecAugment 可以带来没有过拟折的暗示提升,钻研人员们以至可以检验测验运用更大容质的网络,获得暗示更好的模型。论文做者们停行了实验,正在运用 SpecAugment 的同时,运用参数更多的模型、更长的训练光阳,他们划分正在 LibriSpeech 960h 和 Switchboard 300h 两个数据集上都大幅刷新了此前的最佳暗示记录(SOTA)。
做者们也为那种办法的出涩暗示感触惊叹,以至于,以往正在 LibriSpeech和 Switchboard 那样较小的数据集上有劣势的传统语音识别模型也不再当先。
主动语音识别模型的暗示还可以通过语言模型进一步进步。正在大质杂文原数据上训练出的语言模型可以学到一些语言轨则,而后用它来改正、劣化语音识别模型的输出。不过,语言模型但凡须要独立于语音识别模型训练,而且模型的体积很大,很难正在手机之类的小型方法上运用。
正在 SpecAugment 的钻研中,做者们不测发现借助 SpecAugment 训练的模型,正在不运用语言模型加强的状况下就曾经可以击败之前的所有运用语言模型加强的模型。那不只意味着语音识别模型+语言模型的总体暗示也被刷新,更意味着将来语音识别模型彻底可以摈斥语言模型独立工做。
以往的主动语音识别系统钻研大都都关注于找到更好的网络构造,谷歌的那项钻研也展现了一个被人疏忽的钻研标的目的:用更好的办法训练模型,也可以带来大幅提升的网络暗示。
论文本文见:
hts://arViZZZ.org/abs/1904.08779
ZZZia ai.googleblogss
来了! 中公教育推出AI数智课程,虚拟数字讲师“小鹿”首次亮...
浏览:82 时间:2025-01-13变美指南 | 豆妃灭痘舒缓组合拳,让你过个亮眼的新年!...
浏览:63 时间:2024-11-10PAIR发布长视频生成模型StreamingT2V:2分钟超...
浏览:14 时间:2025-02-10使用华为AI平台ModelArts构建自定义图像分类模型【玩...
浏览:23 时间:2025-02-05【女士香水排行榜】十大女士香水排行榜 享誉世界的女性经典香水...
浏览:35 时间:2024-08-23无审查限制的Llama 3.1大语言模型 适配GGUF格式...
浏览:6 时间:2025-02-23英特尔StoryTTS:新数据集让文本到语音(TTS)表达更...
浏览:8 时间:2025-02-23