语音加强Vff08;Speech EnhancementVff09;是办理和改进语音信号量质的一项技术Vff0c;次要用于减少噪声和混响对语音的映响Vff0c;提升语音的明晰度和可了解性。其使用场景宽泛Vff0c;如电话通信、语音识别、助听方法、集会系统和灌音量质的提升等。
语音加强的目的语音加强的次要目的是从受烦扰的语音信号中分袂出干脏的语音信号Vff0c;但凡通过以下两种方式真现Vff1a;
去噪Vff1a;打消布景噪音Vff0c;蕴含交通噪音、人群噪音、风声等。
去混响Vff1a;降低房间或环境中的回响反映和反射声的映响。
罕用的语音加强办法
传统办法Vff1a;
谱减法Vff08;Spectral SubtractionVff09;Vff1a;通过从受噪声污染的语音信号频谱中减去噪声频谱预计值来减少噪音。
维纳滤波Vff08;Wiener FilteringVff09;Vff1a;通过频域滤波器减少噪音Vff0c;滤波器的设想基于噪声和语音信号的预计。
子空间办法Vff1a;通过将信号折成为噪声和语音的差异子空间Vff0c;从中提与干脏的语音信号。
深度进修办法Vff1a;
卷积神经网络Vff08;CNNVff09;Vff1a;通过期域或频域的卷积收配来捕捉部分特征Vff0c;从而去除噪声。
循环神经网络Vff08;RNNVff09;和长短期记忆网络Vff08;LSTMVff09;Vff1a;操做语音信号的时序特性来进步语音加强成效Vff0c;特别折用于具有光阳依赖性的噪声环境。
生成反抗网络Vff08;GANsVff09;Vff1a;通过反抗性进修生成高量质的加强语音。
自留心力机制Vff08;Self-AttentionVff09;Vff1a;用于捕捉语音信号中长距离的依赖干系Vff0c;提升语音的明晰度。
语音加强的评估目标信噪比Vff08;SNR, Signal-to-Noise RatioVff09;Vff1a;掂质加强后语音相应付噪声的强度。
感知语音量质Vff08;PESQ, Perceptual EZZZaluation of Speech QualityVff09;Vff1a;一种主不雅观的语音量质评价范例。
语音可懂度Vff08;STOI, Short-Time ObjectiZZZe IntelligibilityVff09;Vff1a;掂质语音可懂度的客不雅观目标。
次要挑战复纯噪声环境Vff1a;面对多种噪声源和非颠簸噪声时Vff0c;传统办法暗示有限。
混响办理Vff1a;混响信号取噪声的性量差异Vff0c;办理难度较大Vff0c;特别是须要糊口生涯一定的作做性。
低延迟要求Vff1a;应付真时使用Vff0c;如电话或集会系统Vff0c;加强历程须要正在极短光阳内完成。
使用场景电话通信和集会系统Vff1a;通过语音加强减少布景噪音Vff0c;使通话或集会愈加明晰。
语音助手Vff1a;改进方法拾与语音号令的精确性Vff0c;特别是正在噪音环境中。
助听方法Vff1a;协助听力受损者正在嘈纯环境下更好地了解语音。
语音加强的展开 晚期的DSP办法晚年间Vff0c;语音加强次要依赖传统的DSPVff08;Digital Signal ProcessingVff0c;数字信号办理Vff09;技术Vff0c;市面上大局部通话以及室频软件的根柢降噪思路都依赖于颠簸噪声预计联结维纳滤波/谱减法Vff0c;复纯一些的会引入卡尔曼滤波等办法对噪声停行更细致的预计Vff0c;但无论怎么改变Vff0c;对瞬态噪声的克制都很难作好Vff0c;因为传统的噪声建模和动态更新都是有一定延时的Vff0c;且噪声和失实很难平衡Vff0c;但凡噪声克制多就会招致频谱上的浮泛Vff0c;进而显现音乐噪声Vff0c;还会带来语音失实。
AI联结DSP晚年AI算法的运用Vff0c;次要是做为DSP的帮助。虽然Vff0c;DSP和AI联结运用的方案Vff0c;到目前仍有不少钻研Vff0c;因为AI生成的语音Vff0c;出格是mapping的模型Vff0c;正在低信噪比条件下容易显现呆板音Vff0c;且容易失实Vff0c;联结DSP能对AI停行一定程度修补和帮助Vff1b;只是晚年间AI是帮助DSPVff0c;如今是DSP帮助AI。
RNNoise晚期联结方案比较有代表的是WebRTC RNNoise【2】Vff0c;那一模块操做了递归神经网络Vff08;RNNVff09;对噪声停行建模和克制Vff0c;特别正在复纯和非颠簸噪声场景下暗示劣良。
以下是 RNNoise 的典型办理轨范Vff1a;
1.特征提与RNNoise 其真不间接对本始频谱停行办理Vff0c;而是提与一些特征。那些特征蕴含Vff1a;
对数谱Vff08;Log Power SpectrumVff09;Vff1a;对频谱的罪率谱与对数。
线性预测系数Vff08;LPCVff09;Vff1a;对语音信号的线性特性停行建模Vff0c;协助捕捉语音的共振峰和噪声之间的不同。
其余特征Vff1a;可能还蕴含MFCCVff08;梅尔频次倒谱系数Vff09;等高级特征。
那些特征默示协助神经网络了解信号中语音和噪声的区别。
2.递归神经网络Vff08;RNNVff09;办理提与的特征随后被输入到一个轻质级的递归神经网络Vff08;RNNVff09;中Vff0c;能够有效办理光阳序列数据Vff0c;符折建模语音信号的动态厘革。
3.频谱掩蔽Vff08;MaskingVff09;神经网络的输出是一个频谱掩蔽值Vff08;maskVff09;Vff0c;那个掩蔽值但凡正在 0 到 1 之间Vff0c;默示每个频带上噪声的概率。该掩蔽值被用来调解频谱的各个局部Vff0c;以便糊口生涯语音并克制噪声。
他劣势便是计较质较低Vff0c;能够正在嵌入式系统或挪动方法上真时运止Vff0c;符折WebRTC等使用场景Vff0c;而且通过RNN进修复纯的噪声形式Vff0c;符折非颠簸噪声。
Beamforming+AI连年来Vff0c;DSP次要为AI供给一些帮助信息Vff0c;以达到一些特定的任务Vff0c;比如正在论文Guided Speech Enhancement Network中Vff0c;如下图Vff0c;做者将beamforming的结果做为后续AI网络的一个辅导Vff0c;真现对特定标的目的的进一步加强Vff0c;达到语音断绝的成效。
另有一些类似的文章Vff0c;也是那样的思路Vff0c;如下图Vff0c;论文LeZZZeraging Low-Distortion Target Estimates for ImproZZZed Speech Enhancement中Vff0c;将AI预计的干脏谱做为MxDR的输入Vff0c;获得MxDR的输出后再停行一次加强Vff0c;传统算法做为两个DNN网络的桥梁Vff0c;进一步提升了网络成效。
不少文章会操做传统算法对AI事后的语音停行后办理Vff0c;以提升语音的可懂度并减小语音失实Vff0c;比如A Perceptually-MotiZZZated Approach for Low-CompleVity, Real-Time Enhancement of Fullband Speech中Vff0c;做者正在AI办理后Vff0c;参预了EnZZZelope PostfilteringVff0c;使得频谱愈加干脏Vff0c;听感更好。
虽然Vff0c;AI联结DSP另有不少例子Vff0c;思路都根柢都是做为帮助添加正在AI网络的前中后Vff0c;何处就不继续赘述。
杂AI方案 全连贯网络2014年Vff0c;DNN初步用于语音降噪任务Vff0c;正在论文《Regression deep neural network for speech enhancement》引入了一种运用深度神经网络Vff08;DNNVff09;的语音加强模型Vff0c;DNN模型间接进修噪声语音和目的干脏语音之间的映射。通过输入频谱特征Vff0c;该模型可以预测每个光阳频次点的加强后的语音谱Vff0c;并去除噪声Vff0c;GITHUB上可以找到一些他的真现【1】。
上图出自《Regression deep neural network for speech enhancement》Vff0c;可以看到Vff0c;晚期神经网络很是的粗拙Vff0c;可以说是鼎力出奇迹Vff0c;幅度谱间接输入到拼接正在一起的多个全连贯层Vff0c;最后输出干脏幅度谱。
其成效正在测试集上还算可以Vff0c;但泛化性较差Vff0c;信噪比低一点的场景就会显现语音卡顿和失实Vff0c;那也是其没有晚期没有大范围商用的起因之一Vff0c;另一个起因便是晚年NPU,GPU,CPU机能较差Vff0c;DNN模型的计较质和参数质相对DSP算法要大不少Vff0c;并无陈列的土壤。
LSTM/GRULSTMVff08;Long Short-Term MemoryVff0c;长短期记忆网络Vff09;最早由Sepp Hochreiter 和 Jürgen Schmidhuber 于1997年正在他们的论文《Long Short-Term Memory》中提出。LSTM是一种非凡的递归神经网络Vff08;RNNVff09;Vff0c;旨正在处置惩罚惩罚RNN中常见的梯度消失和梯度爆炸问题Vff0c;使得网络能够更好地捕捉和记忆历久依赖信息。
RNN被引入是因为全连贯层的网络中Vff0c;只会捕获输入光阳领域内的信息Vff0c;波及到图片的办理时Vff0c;全连贯层的设想问题不大Vff0c;但语音任务对真时办理要求比较高Vff0c;须要联系干系前后帧信息Vff0c;此时就须要一个记忆网络Vff0c;LSTM是一个有代表性的RNN网络Vff0c;接续正在此刻都正在不少网络中运用Vff0c;因为他很是符折real-time的办理。
LSTM整体构造可以看上图Vff0c;简略来说便是引入了门控机制Vff1a;
门控机制Vff08;Gating MechanismVff09;Vff1a;LSTM通过三个门控机制来控制信息的运动Vff1a;
遗忘门Vff08;Forget GateVff09;Vff1a;决议应当遗忘哪些信息。
输入门Vff08;Input GateVff09;Vff1a;决议要将哪些新信息参预到记忆单元中。
输出门Vff08;Output GateVff09;Vff1a;决议当前光阳步的输出应当是什么。
GRU是另一种RNN网络Vff0c;其自身的设想思路和LSTM一样Vff0c;详细可参考文章Empirical EZZZaluation of Gated Recurrent Neural Networks on Sequence ModelingVff0c;他的设想相比 LSTM 愈加简略Vff0c;它只要两个门Vff0c;没有径自的记忆单元Vff1a;
重置门Vff08;Reset GateVff09;Vff1a;控制能否抛弃前一步的形态信息。
更新门Vff08;Update GateVff09;Vff1a;控制当前形态信息取已往形态的混折程度
通过网络的训练Vff0c;LSTM/GRU能有效的捕捉历时信息Vff0c;正在现今的网络中Vff0c;LSTM/GRU但凡不用于径自的网络Vff0c;而是放置正在一个大网络的某个局部Vff0c;用于汗青信息的捕获。
U-NET2015年Vff0c;正在U-Net: ConZZZolutional Networks for Biomedical Image Segmentation文章中Vff0c;提出了下图的U-NET网络。
正在图像任务中Vff0c;输入但凡为(C, H, W)Vff0c;对应通道数、高度和宽度Vff0c;U-NET网络用卷积存缩H,W维度Vff0c;并将通道数做为特征维度不停扩充Vff0c;通过卷积层和池化层提与图像的高层次特征Vff0c;逐步减少图像的空间甄别率Vff0c;但删多特征图的深度Vff0c;捕捉全局高下文信息Vff0c;那是一个下采样历程Vff0c;而后用反卷积收配规复图像的空间甄别率Vff0c;并逐步重建精密的空间信息Vff0c;那是一个上采样的历程。
并且U-Net 的一个要害翻新点是引入了跳跃连贯Vff08;skip connectionsVff09;。正在每个下采样阶段Vff0c;网络将相应层的特征图间接通报给对称的上采样层Vff0c;通过间接将下采样中的特征图通报给上采样历程Vff0c;跳跃连贯糊口生涯了输入图像的细节信息Vff0c;如边缘和构造Vff0c;避免正在下采样历程中损失重要的空间信息Vff0c;此外跳跃连贯正在一定程度上缓解了深层网络中梯度消失的问题Vff0c;有助于信息正在网络中的有效流传。
此外正在真现方面Vff0c;因为U-NET网络有下采样历程Vff0c;逐步把空间甄别率降低Vff0c;相较于划一层数的全连贯网络Vff0c;计较质大大降低Vff0c;更好陈列。
正在语音任务中Vff0c;出格是RTC任务中Vff0c;无奈一次性与得全副的语音Vff0c;而且是causalVff08;因果任务Vff0c;即不能运用将来信息Vff09;的任务Vff0c;以图象的思路来构建语音U-NET网络不太现真Vff0c;语音的输入但凡是两种
时域Vff08;通道数Vff0c;光阳帧Vff09;
频域STFT后Vff08;通道数Vff0c;光阳帧Vff0c;频带数Vff09;
正在REAL-TIME DENOISING AND DERExERBERATION WTIH TINY RECURRENT U-NET中Vff0c;如下图做者运用了一维卷积代替二维卷积Vff0c;因为真时办理时Vff0c;光阳帧为1Vff0c;办理频域语音信号只须要对频带卷积Vff0c;那样的问题是每一次U-NET网络只关注原帧的内容Vff0c;组成生成的语音会很是卡顿Vff0c;因为前后没有联络Vff0c;为理处置惩罚惩罚那个问题Vff0c;做者将GRU引入到下采样的最后一层Vff08;bottleneck层Vff09;Vff0c;用来记与汗青信息Vff0c;从而担保了语音输出的间断性。
目前正在语音真时办理任务中Vff0c;U-NET算是最为风止的方式Vff0c;因为整体模型计较质小Vff0c;搭配GRU可以真现永劫办理Vff0c;不少前沿的文章也是正在上述UNET构造上添添补补大概增增减减Vff0c;比如将GRU交换为另一种非凡的网络AttentionVff0c;大概卷积上用group卷积Vff0c;收缩卷积Vff0c;亦大概改用复数域来作卷积Vff0c;但万变不离其宗Vff0c;都是正在那个框架下批改。
语音加强另有不少种网络Vff0c;可以参考那个github【4】Vff0c;里面包孕了各种网络以及他的真现。
GITHUB地址【1】sednn/miVture2clean_dnn at master · yongVuUSTC/sednn (githubss)
【2】webrtcsdk/webrtcsdk: WebRTC Chromium Open Source and integrate RNNoise. Codecs supported: Ax1, xP8, xP9, H264, H265. (githubss)
【3】nanahou/Awesome-Speech-Enhancement: A tutorial for Speech Enhancement researchers and practitioners. The purpose of this repo is to organize the world’s resources for speech enhancement and make them uniZZZersally accessible and useful. (githubss)
【4】nanahou/Awesome-Speech-Enhancement: A tutorial for Speech Enhancement researchers and practitioners. The purpose of this repo is to organize the world’s resources for speech enhancement and make them uniZZZersally accessible and useful. (githubss)
来了! 中公教育推出AI数智课程,虚拟数字讲师“小鹿”首次亮...
浏览:82 时间:2025-01-13变美指南 | 豆妃灭痘舒缓组合拳,让你过个亮眼的新年!...
浏览:63 时间:2024-11-10轻量化日用旗舰全面升级 三星 Galaxy S25 标准版评...
浏览:14 时间:2025-02-14已向港交所递表 “杭州六小龙”之一群核科技率先冲刺IPO...
浏览:5 时间:2025-02-22思必驰周强:AI 和传统信号技术在实时音频通话中的应用...
浏览:16 时间:2025-02-13爆火AI编程应用何以单挑微软?Cursor团队2小时访谈揭秘...
浏览:40 时间:2025-01-23无审查限制的Llama 3.1大语言模型 适配GGUF格式...
浏览:6 时间:2025-02-23英特尔StoryTTS:新数据集让文本到语音(TTS)表达更...
浏览:8 时间:2025-02-23