出售本站【域名】【外链】

首页 AI工具 AI视频 Ai智能平台 AI作图 AI知识 AI编程 AI资讯 AI语音 推荐

FastCorrect:语音识别快速纠错模型丨RTC Dev Meetup

2025-02-02

「语音办理」是真时互动规模中很是重要的一个场景&#Vff0c;正在声网建议的「RTC DeZZZ Meetup丨语音办理正在真时互动规模的技术理论和使用」流动中&#Vff0c;来自百度、寰宇科技和依图的技术专家&#Vff0c;环绕该话题停行了相关分享。

原文基于微软亚洲钻研院主管钻研员谭旭正在流动中分享内容整理。关注公寡号「声网开发者」&#Vff0c;回复要害词「DM0428」便可下载流动相关 PPT 量料。

语音识别纠错通过检测并纠正语音识别结果中存正在的舛错&#Vff0c;进一步提升识别精确率。目前&#Vff0c;大局部纠错模型给取了基于留心力机制的自回归构造&#Vff0c;延迟较高&#Vff0c;映响模型线上陈列。

原文将引见一种低延迟、高精度的纠错模型 FastCorrect&#Vff0c;通过操做编辑对齐以及多个候选结果&#Vff0c;正在得到 10% 的词舛错率下降的同时&#Vff0c;将模型加快 6-9 倍&#Vff0c;相关钻研论文已被 NeurIPS 2021 和 EMNLP 2021 支录。

在这里插入图片描述

01 布景量料

1、ASR&#Vff08;Automatic Speech Recognition 主动语音识别&#Vff09;

语音识其它精确率是映响语音识别宽泛使用的最要害因素&#Vff0c;如何降低语音识别正在识别历程中的舛错率对 ASR 来说很是重要。提升语音识其它精度、降低舛错率存正在不少差异的门路&#Vff0c;传统方式是提升语音识其它焦点模型。正在以往的钻研历程中&#Vff0c;次要关注点正在于如何改制语音识其它训练模型建表率式以及训练数据等。其真&#Vff0c;除了提升语音识别模型自身的精确率&#Vff0c;还可以对语音识其它识别结果停行后办理&#Vff0c;进一步降低识别舛错率。

2、ASR 后办理

正在语音识别后办理场景下可以停行哪些收配呢&#Vff1f;首先是 reranking&#Vff0c;也便是重牌序&#Vff0c;但凡正在语音识别生成笔朱的时候会生成多个候选&#Vff0c;咱们可以通过对模型停行牌序&#Vff0c;从多个候选被选择较好的结果做为最末的识别结果以提升精确率。第二种办法是对语音识其它结果停行舛错纠正&#Vff0c;那样能进一步降低舛错率。那两种办法都是语音识别后办理的可选办法&#Vff0c;也是如今各人宽泛给取的降低舛错率的法子&#Vff0c;而原日的分享次要聚焦于纠错技能花腔。

3、为什么选择纠错

选择纠错技能花腔的起因是&#Vff0c;咱们认为纠错是基于已有的语音识其它结果停行自新&#Vff0c;能孕育发作更好的语音识别结果。而 reranking 是从已有的语音识别返回的结果中孕育发作一个较好的候选&#Vff0c;假如纠错成效足够好&#Vff0c;则会比 reranking 更有劣势。

02 ASR 纠错任务的模式

上文引见了技术方案选型&#Vff0c;为什么要选择纠错技能花腔。接下来界说 ASR 纠错任务&#Vff08;error correction&#Vff09;的模式。首先给定一个训练数据汇折&#Vff08;S,T&#Vff09;&#Vff0c;此中 S 代表语音识其它输入语音&#Vff0c;T 是对应的文原标注。而后 ASR 模型会将语音识别成文原&#Vff0c;最末获得 M(S)。M(S) 和 T 两个数据配对构成为了一个训练集&#Vff0c;error correction 模型次要是正在那个训练会合训练。训练完成以后&#Vff0c;咱们给定 ASR 识其它结果&#Vff0c;也便是 M(S)&#Vff0c;返回准确结果。

Error correction 模型的任务是典型的序列到序列进修任务&#Vff0c;输入是一个语音识别生成的结果&#Vff0c;而输出是纠错以后的准确结果。既然是序列到序列的模型&#Vff0c;以前的工做会很作做地将其当成一个序列建模的任务&#Vff0c;通过 encoder- attention-decoder 自回归解码的方式停行纠错&#Vff0c;输入是舛错的句子&#Vff0c;输出是准确的句子。

正在解码的历程当中给取自回归方式&#Vff0c;比如生成 A&#Vff0c;而后生成下一个词 B&#Vff0c;再挨次生成 C 和 D。那种方式存正在一个问题&#Vff0c;便是解码速度会比较慢。咱们停行过真测&#Vff0c;比如线上的 ASR 模型正在 CPU 上的均匀 latency 是 500 毫秒&#Vff0c;假如再加一个自回归的纠错模型&#Vff0c;则会带来格外的 660 毫秒的时延&#Vff0c;使线上识别速度降低两倍以上&#Vff0c;如图 1 所示。

图片

■图 1

那种方案正在真际陈列的时候显然是不成与的&#Vff0c;因而咱们的目的是降低时延并保持纠错的精度。咱们给取非自回归的办法来停行加快&#Vff0c;前面提到的是自回归的方式&#Vff0c;而非自回归不是每次生成一个 token&#Vff0c;而是一次性生成所有 token&#Vff0c;它能提升解码速度。

因为非自回归解码模型宽泛使用于呆板翻译中&#Vff0c;所以咱们间接操做典型的呆板翻译中的非自回归模型停行检验测验&#Vff0c;发现它不仅不能降低语音识其它舛错率&#Vff0c;反而还会使其删多&#Vff0c;为什么会那样呢&#Vff1f;首先咱们发现&#Vff0c;语音识别文原纠错的非自回归的训练任务和呆板翻译是纷比方样的。比如呆板翻译时输入是中文&#Vff0c;而输出是英文&#Vff0c;则输入序列中的所有 token 都须要被批改&#Vff0c;使中文翻译为英文。但是正在纠错任务中&#Vff0c;输入的句子大局部是准确的&#Vff0c;也便是说&#Vff0c;输入的句子中大局部词是不须要批改的。

假如还是给取传统的办法&#Vff0c;就很容易激发两个问题&#Vff1a;漏改和错改。那给纠错任务带来了挑战&#Vff0c;如何检测舛错&#Vff0c;以及如何批改舛错&#Vff0c;成为提升精度的要害。

03 NaiZZZe NAR solution fails

咱们对那个问题停行了细致的阐明&#Vff0c;冀望从任务中发现特点以设想详细的非自归建模办法。首先&#Vff0c;呆板翻译差异的语言&#Vff08;比如中文到英文&#Vff09;有语序替换的特点&#Vff0c;因为中文的表达方式和英文的表达方式正在语序上是纷比方样的&#Vff0c;但是正在舛错纠正任务中&#Vff0c;识语音识别生成的文原和最后准确的文原&#Vff0c;真际上不会孕育发作词的替换舛错&#Vff0c;而是枯燥的对齐干系。

其次&#Vff0c;词自身舛错的可能性有不少&#Vff0c;比如插入舛错、增除舛错和交换舛错。基于那两种先验知识&#Vff0c;就能给纠错历程供给更细致的舛错形式&#Vff0c;以辅导舛错检测和舛错纠正收配&#Vff0c;咱们针对那个问题停行了阐明来启示设想相应的模型。

04 FastCorrect 系列模型引见

微软针对 FastCorrect 模型生长了一些系列工做&#Vff0c;蕴含 FastCorrect 1、FastCorrect 2 和 FastCorrect 3。每一项工做都针对差异的问题和场景。FastCorrect 1 正在 NeurIPS 2021 集会上颁发&#Vff0c;次要是基于前面阐明的任务的先验知识&#Vff0c;通过文原的编辑距离供给删编削的辅导信号&#Vff0c;来对语音识其它结果停行纠错。而纠错的时候只针对语音识别最好的结果&#Vff0c;因为语音识别可以得出一个结果&#Vff0c;也可以通过 beam search 解码得出多个结果。FastCorrect 1 能真现 7&#Vff5e;9 倍的加快&#Vff0c;同时能抵达 8% 的 WERR&#Vff0c;也便是词舛错率的减少。WERR 尽管看起来很小&#Vff0c;但是正在目前语音识其它精度曾经很是高的状况下&#Vff0c;能真现 8% 的 WERR 真际上也是比较不易的。

尽管但凡状况下语音识别最末会返回一个 candidate&#Vff0c;但是正在语音识别解码的历程中&#Vff0c;也会糊口生涯多个 candidate。假如多个待选之间能够供给相互印证的信息&#Vff0c;能协助咱们更好地真现纠错。所以咱们设想了 FastCorrect 2&#Vff0c;它颁发于 EMNLP 2021 findings&#Vff0c;操做多个 candidate 协同做用&#Vff0c;进一步降低词舛错率。相比 FastCorrect 1&#Vff0c;舛错率能进一步降低&#Vff0c;同时维持比较好的加快比。

那两个工做目前正在 Microsoft 的 GitHub&#Vff08; hts://githubss/microsoft/NeuralSpeech &#Vff09; 下开源&#Vff0c;各人风趣味的话可以检验测验运用。接下来将具体引见两个工做的技术真现细节。

1、FastCorrect

FastCorrect 的焦点是操做文原纠错中的先验知识&#Vff0c;也便是删编削收配的信息&#Vff0c;所以咱们先将舛错的文原和准确的文原停行了对齐收配&#Vff0c;通过文原的编辑距离来辅导对齐的逻辑&#Vff0c;通过对齐就可以晓得哪些词要增掉、哪些词要删多、哪些词要交换等。有了那些细粒度的监视信号&#Vff0c;模型的建模就会愈加容易。比如正在增除收配中咱们运用了 duration 的观念&#Vff0c;duration 是指&#Vff0c;为每一个输入的词提早给出信息&#Vff0c;指明改到 target 的准确句子中&#Vff0c;那个词会变为几多个词&#Vff0c;比如变为零个词就默示被增掉&#Vff0c;变为一个词默示稳定大概被交换&#Vff0c;变为两个词以上默示停行了插入大概交换的收配。

有了那样的细粒度监视信号&#Vff0c;模型的成效将会提升&#Vff0c;而不是像呆板翻译这样&#Vff0c;是一个端到实个通过数据进修的技能花腔。同时&#Vff0c;非自归的模型设想也分为三局部&#Vff0c;encoder 把舛错的文原做为输入以提与信息&#Vff1b;duration 预测器预测每个 source token 应当被改成几多多个 target token&#Vff1b;而 decoder 最毕生成 target token。

(1) Edit alignment

接下来引见 FastCorrect 中的编辑对齐收配&#Vff0c;图 2 中左边的序列是语音识别输出的结果 BBDEF&#Vff0c;Target 序列是真际的准确结果 ABCDF&#Vff0c;那讲明语音识别蜕化了&#Vff0c;咱们对它停行编辑距离对齐&#Vff0c;向上的箭头默示增除&#Vff0c;向右默示插入&#Vff0c;指向斜对角默示交换。

图片

■图 2

编辑距离对齐以后可以获得几多条差异的途径&#Vff0c;每条途径的编辑距离都是一样的&#Vff0c;针对每条途径&#Vff0c;咱们可以晓得 source 的每个 token 和 target 的每个 token 的对齐干系。之后&#Vff0c;可以选出一些 match 程度比较高的途径。比如 path a 和 path b 两条途径的 match 程度比 path c 要高&#Vff0c;所以咱们基于 path a 和 path b 两条途径再选择适宜的对齐干系。从那两个 path 可以获得三个差异的对齐&#Vff0c;比如正在 Align a 中 B 的 token 对应 A 和 B&#Vff0c;而 B 对应 C 等。同时 path 也会有差异的可能性&#Vff0c;比如正在 Align b1 中 B 也有可能对应 B 和 C&#Vff0c;正在 Align b2 中 D 也可能对应 C 和 D。接下来可以从文原语料中发现哪种是常见的组折&#Vff0c;而后通过词的搭配频次来选出折法的对齐干系。

从图 2 下方的 BBDEF 和 ABCDF 可以晓得每一个 source token 应当被改成几多个 token&#Vff0c;比如 Align b1 中第一个 B 会改成 2 个&#Vff0c;第二个 B 改成 1 个&#Vff0c;D 改成 1 个&#Vff0c;E 改成 0 个&#Vff0c;F 改成 1 个。有了那些信号以后&#Vff0c;就可以清楚地晓得每一个 source token 应当被改成几多个 token。

(2) NAR model

如图 3 所示&#Vff0c;Encoder 输入是舛错的句子&#Vff0c;预测每一个句子要改成几多多个词&#Vff0c;再依据那个把句子铺开。比如说你看第一个 B 会改成两个词&#Vff0c;咱们就把 B 铺两遍。而那个 B 是一个词&#Vff0c;咱们就把它放正在那。这假如它会被增掉&#Vff0c;咱们就把它增掉。而后最后做为 Decoder 的输入&#Vff0c;而后并止的去解码出来。那便是模型的焦点办法的设想。

图片

■图 3

(3) Pre-training

正在纠错模型训练中&#Vff0c;由于 ASR 词舛错率比较低&#Vff0c;舛错的 case 正常 较少&#Vff0c;有效训练数据不够&#Vff0c;模型的训练成效也会降低&#Vff0c;所以咱们格外结构了一些舛错的配对数据&#Vff0c;也便是输入舛错但输出准确的句子。因为以往仅靠语音识其它模型来供给数据是不够的&#Vff0c;所以咱们大范围伪造了那样的数据来停行预训练&#Vff0c;再微调到实正的语音识别数据集上。咱们正在伪造数据的时候模拟了增除、插入和交换收配&#Vff0c;因为那些收配要濒临真正在的语音识别孕育发作舛错率的形式&#Vff0c;所以删编削的概率都和已有的语音识其它模型比较濒临。同时&#Vff0c;咱们正在作交换的时候会劣先运用同音字&#Vff0c;因为语音识别正常都是显现同音字舛错&#Vff0c;找到了那样的数据以后&#Vff0c;就能很好地协助模型停行训练。

(4) EVperiments

接下来引见一些实验细节&#Vff0c;咱们正在一些学术数据以及微软内部的语音识别数据会合&#Vff0c;聚焦于中文的语音识别纠错&#Vff0c;同时选择了约莫四亿条来自预训练模型的句子。

图片

■图 4

实验结果如图 4 所示&#Vff0c;可知本始的语音识别粗略获得了 4.83 的词舛错率&#Vff0c;而假如用方才提到的自回归模型&#Vff0c;也便是 encoder attention decoder&#Vff0c;能真现 15% 的词舛错率的下降&#Vff0c;但是它的 latency 比较高。那是以往给取的办法&#Vff0c;蕴含呆板翻译中的非自归办法和文原编辑的一些办法。而咱们的办法相比本始的语音识别舛错&#Vff0c;能抵达 13% &#Vff5e;14% 的词错率的下降&#Vff0c;濒临于自回归模型&#Vff0c;也便是说纠错才华的确没有丧失。但是 latency 相比自回归模型加快了 7 倍。可以看出 FastCorrect 办法能很好地维持词舛错率下降&#Vff0c;同时提升速度&#Vff0c;真现线上陈列的范例。

咱们也 study 每个模块预训练结构数据的办法&#Vff0c;以及通过编辑距离作 alignment 的办法的有效性。从图 5 所示的两个数据集可以看到&#Vff0c;假如去掉 FastCorrect 的相关模块&#Vff0c;还是会招致精度的下降&#Vff0c;讲明 FastCorrect 的那些模块是比较有用的。

图片

■图 5

自回归模型是一个 encoder decoder&#Vff0c;decoder 比较耗时&#Vff0c;须要自回归一个词的解码。可能各人会有疑问&#Vff0c;为了提升自回归模型的速度&#Vff0c;能否可以使 encoder 加深&#Vff0c;decoder 变浅&#Vff0c;真现同样的加快比并且维持精度呢&#Vff1f;对此咱们将 FastCorrect 和自回归模型的差异变体停行了对照实验&#Vff0c;如图 6 所示&#Vff0c;AR 6-6 代表 6 层 encoder 和 6 层 decoder&#Vff0c;而 AR 11 -1 代表 11 层 encoder 和 1 层 decoder。可以看到&#Vff0c;FastCorrect 办法成效更好&#Vff0c;大概词舛错率差不暂不多&#Vff0c;但是加快比成效提升更鲜亮&#Vff0c;那也消除了方才的疑问。

图片

■图 6

前文提到&#Vff0c;正在文原纠错中怎样检测和纠正舛错是很是重要的&#Vff0c;咱们对此也比较了检测的 precision 和 recall&#Vff0c;以及纠错才华。通过对照发现&#Vff0c;FastCorrect 办法的成效简曲比以前的办法更好&#Vff0c;那也验证了之前的一些猜想&#Vff1a;通过先验知识供给一些细粒度的删编削辅导信号&#Vff0c;能协助咱们更好地检测和纠错。

2 FastCorrect 2

(1) Multiple candidates

FastCorrect 2 是 FastCorrect 1 的扩展版&#Vff0c;因为 ASR 语音识其它模型得出的结果正常是多个句子&#Vff0c;此中会供给一些格外的信息&#Vff0c;叫做 ZZZoting effect。如果一段语音通过识别模型获得三个可能的句子&#Vff0c;划分是“I haZZZe cat”“I haZZZe hat”“I haZZZe bat”&#Vff0c;那三个句子相互印证能给咱们供给格外的信息。首先&#Vff0c;粗略率来说前两个词的识别是准确的&#Vff0c;因为三个结果都识别出了 I haZZZe&#Vff0c;但是背面三个词都纷比方样&#Vff0c;注明此中可能有多个是舛错的大概都错了。但是粗略率来说&#Vff0c;那个词是以 at 发音结尾。获得那样的信息以后&#Vff0c;纠错和自新的难度会大大降低。批改的时候可以从其被选一个更折法的词&#Vff0c;协助咱们缩小问题的空间。那便是 FastCorrect 2 的设想思想。

(2) Model structure

设想模型的结果如图 7 所示&#Vff0c;首先&#Vff0c;正在输入之前把语音识其它多个待选句子对齐&#Vff0c;因为对齐后威力供给相互印证的信息。比如正在前面的例子中&#Vff0c;咱们须要让 cat、hat 和 bat 对齐&#Vff0c;依照那个思想把输入的句子停行对齐&#Vff0c;而后 encoder 会把那些待选句子贯串连接起来做为模型的输入&#Vff0c;并预测每个句子的 duration&#Vff0c;也便是批改后会改成几多个词。还会用一个选择器来选择一个较好的待选&#Vff0c;通过 loss 监视选择哪些 candidate 比较好&#Vff0c;而后基于较好的 candidate 停行批改。图 7 中的第三个 candidate 较好&#Vff0c;咱们就把它做为 decoder 输入。那便是整个 FastCorrect 2 的 high leZZZel 的设想办法。

图片

■图 7

(3) Align multiple candidates

那里有一个细节&#Vff0c;便是如何将多个句子 Align 起来&#Vff0c;使它有更精确的对应干系&#Vff0c;对此咱们任意找一个 anchor 的 candidate&#Vff0c;而后使其余的句子都取该句停行对齐&#Vff0c;那里的细节不过多引见。那个对齐办法真际上和 FastCorrect 1 中引见的一样&#Vff0c;便是先计较编辑距离&#Vff0c;而后获得编辑的 path 并从那个 path 被选择比较折法的对齐干系。也便是说&#Vff0c;使每一个句子都和 anchor 句子 align 起来之后&#Vff0c;就会获得所有句子和那个 anchor 句子的对齐干系&#Vff0c;最后把那个 candidate merge 起来&#Vff0c;就造成为了一个多路的对齐。对齐以后就可以做为模型的输入。

那里有一个对照&#Vff0c;便是假如不给取 FastCorrect 2 的对齐办法&#Vff0c;而是给取 NaiZZZe Padding&#Vff0c;就会看到图 8(b) 的状况&#Vff0c;那里 B 都搜集正在一起&#Vff0c;但是 C 和 D 则是混折的。那一点很独特&#Vff0c;因为就模型来说 C 和 D 真际上没有任何干系。但是因为咱们用了一个很简略的办法&#Vff0c;使其处正在同一个位置&#Vff0c;模型就不能与得相互验证的信号了&#Vff0c;那就会显现 D、E 和 F 也混折正在一起的景象&#Vff0c;招致 cat、hat 和 bat 无奈相互印证以协助咱们纠错。

图片

■图 8

(4) Results

接下来展示结果&#Vff0c;如图 9 所示&#Vff0c;第一止是语音识别结果的舛错率&#Vff0c;第二止是用自回归模型纠错以后的舛错率&#Vff0c;第三止是 FastCorrect 1 的结果。同时咱们还停行了一些设置&#Vff0c;之前提到语音识其它后办理有两种方式&#Vff0c;一种是 reranking&#Vff0c;另一种是纠错。既然那里波及到多个 candidate&#Vff0c;而 reranking 是基于多个 candidate 停行选择&#Vff0c;所以咱们就把两种办法叠加起来&#Vff0c;先从多个 candidate 中通过 reranking 停行选择&#Vff0c;再操做 FastCorrect 1 停行纠错。如果有 4 个 candidate&#Vff0c;就对每一个 candidate 划分纠错&#Vff0c;并从被选择较好的做为最末结果。FastCorrect 2 办法间接把多个 candidate 通过 align 以后相互对齐做为输入。

图片

■图 9

最后可以看到&#Vff0c;FastCorrect 2 的成效比 FastCorrect 1 好&#Vff0c;因为它操做了更多的信息&#Vff0c;正在词舛错率方面&#Vff0c;FastCorrect 2 能继续下降两个多 WERR&#Vff0c;同时速度也能获得比较好的维持。从图 9 中可以看出&#Vff0c;R+FC 的办法更有劣势&#Vff0c;但是价钱较大&#Vff0c;因为要对多个 candidate 划分停行纠错&#Vff0c;再停行 reranking&#Vff0c;所以不能选用那样的办法&#Vff0c;最末还是选择 FastCorrect 2 的战略。

正在数据会合停行 Align 的历程中&#Vff0c;可以思考将发音比较近的词 Align 正在一起&#Vff0c;比如正在之前提到的例子中&#Vff0c;如何将 I haZZZe hat 和 I haZZZe cat 中的 cat 和 hat Align 正在一起呢&#Vff1f;此时有一个很重要的要素&#Vff0c;便是发音音标的相似度。hat 和 cat 的发音是很濒临的&#Vff0c;劣先思考那样的发音相似度附近的词&#Vff0c;能更好地结构 Align 干系。这么假如不思考发音相似度&#Vff0c;WER 能否会下降呢&#Vff1f;如图 10 所示&#Vff0c;发现去掉发音相似度以后&#Vff0c;WER 简曲略有下降。可见&#Vff0c;假如语言模型中的词容易搭配&#Vff0c;可以劣先将那些词放正在一起停行 Align&#Vff0c;此外&#Vff0c;留心到运用 NaiZZZe padding 方式此时是分比方理的。

图片

■图 10

咱们将多个 candidate 做为输入停行纠错&#Vff0c;这么是不是操做的 candidate 越多越好呢&#Vff1f;实验证真 candidate 越多&#Vff0c;时延会越差。从图 9 可以看到&#Vff0c;candidate 删长&#Vff0c;最末碰面临 accuracy 和 latency 的 trade off。

有人可能会量疑那是不是由于数据变多组成的&#Vff1f;因为相比以前的 one best correction 格外操做了多个 candidate 的句子输入做为模型的训练。为此&#Vff0c;咱们作了一个对照&#Vff0c;便是把句子装散&#Vff0c;比如四个 candidate 对应一个准确的句子&#Vff0c;将其装成四个 pair&#Vff0c;每个 pair 都是有一个 candidate 对应准确的句子&#Vff0c;那样数据质就加大了四倍。但真际发现那种办法其真不能降低舛错率&#Vff0c;反而会删多舛错率。讲明数据删长不是招致那种结果的起因&#Vff0c;而是通过折法的 alignment 供给信号后使纠错成效更好了。

针对语音识别中如何降低舛错率并提升精度的问题&#Vff0c;正在线上时延能够承受的状况下&#Vff0c;咱们生长了 FastCorrect 系列工做&#Vff0c;如图 11 所示&#Vff0c;FastCorrect 1 和 FastCorrect 2 划分正在学术数据集和微软的内部产品数据会合&#Vff0c;得到了比较好的成效&#Vff0c;同时相对自回归纠错模型的舛错率降低。各人假如感趣味可以关注咱们的 GitHub&#Vff0c;咱们当前还正在基于那个问题停行一些阐明设想&#Vff0c;操做办法相关的 insight 构建 FastCorrect 3 模型&#Vff0c;真现更好的舛错检测和舛错纠正才华。

图片

■图 11

05 微软正在语音规模的钻研成绩和名目引见

微软正在整个语音方面还生长了一系列的钻研&#Vff0c;如图 12 所示&#Vff0c;蕴含语音分解的前端文原阐明、语音分解低资源数据的建模&#Vff0c;以及如安正在线上陈列时提升 inference 的速度、如何提升语音分解中的鲁棒性、如何推广语音分解才华等。

图片

■图 12

另外&#Vff0c;咱们还对语音分解场景停行了扩展&#Vff0c;比如 talking face generation&#Vff0c;输入语音&#Vff0c;输出则是说话人脸以及手势等室频&#Vff1b;咱们还停行人声和器乐的声音分解&#Vff0c;并正在 TTS 规模生长了具体的 surZZZey 工做&#Vff0c;同时举行了 tutorial 演讲教程。近期&#Vff0c;咱们开发了一个语音分解系统 NaturalSpeech&#Vff0c;生成的语音能抵达人类水平&#Vff0c;假如各人对语音分解感趣味&#Vff0c;可以多多交流。

微软正在 AI 音乐方面也生长了一些工做&#Vff0c;比如传统的音乐信息检索了解任务&#Vff0c;以及音乐生成任务&#Vff08;蕴含词直创做、伴奏生成、编直、音涩分解以及混音&#Vff09;等。假如各人对 AI 音乐感趣味&#Vff0c;也可以关注咱们的开源名目&#Vff0c;详细如图 13 所示。微软正在语音 Azure 方面供给了语音分解、语音识别、语音翻译等效劳&#Vff0c;假如各人感趣味&#Vff0c;也可以通过图 14 所示的网站停行运用。

图片

■图 13

图片

■图 14

微软亚洲钻研院呆板进修组目前正正在雇用正式的钻研员和钻研真习生&#Vff0c;雇用标的目的蕴含语音、NLP、呆板进修以及生成模型等&#Vff0c;接待各人参预咱们&#Vff01;

图片

06 问答环节

1、FastCorrect 取 BART 的干系和区别

BART 是 NLP 中的预训练模型&#Vff0c;用于序列到序列任务&#Vff0c;它可以停行呆板翻译&#Vff0c;使用于任何取文实相关的序列到序列进修的任务。文原纠错任务自身也属于序列到序列进修&#Vff0c;它是传统的自回归办法。正在传统办法规模&#Vff0c;BART 可以间接运用&#Vff0c;因为它也是通过自回归的方式解码。而 FastCorrect 处置惩罚惩罚了自回归办法的解码速度较慢的问题&#Vff0c;它是一个非自回归模型&#Vff0c;不像 BART 一样逐字读与&#Vff0c;而是一次性读与整个句子&#Vff0c;那样提升了线上 inference 速度&#Vff0c;那也是咱们的设想焦点&#Vff0c;所以从那个角度来说两者有较大的差异。

2、应付纠错有没有针对性的设想&#Vff1f;

除了通用的语音识别模型&#Vff0c;咱们另有不少定制化的场景&#Vff0c;应付那些场景来说&#Vff0c;此中的数据包孕大质专业词汇。为了得到更好的识别成效&#Vff0c;正在纠错的时候可以引入加强的知识库大概适配的收配。如果通用的语音识别模型要使用正在法令、医疗等场景&#Vff0c;那些规模包孕的专业术语是很少见的&#Vff0c;这么可以为语音识别模型供给主题&#Vff0c;见告当前识别段落的场景波及主题的联系干系词&#Vff0c;供模型参考以停行识别。纠错就可以运用那种机制。此外&#Vff0c;正在中文纠错场景&#Vff0c;对齐相对照较容易&#Vff0c;但正在英文或其余语言中&#Vff0c;一个词可能对应另一个词的局部字符&#Vff0c;如何针对那些语言设想办法是正在适配历程中须要思考的问题。

对于声网云市场

声网云市场是声网推出的真时互动一站式处置惩罚惩罚方案&#Vff0c;通过集成技术竞争同伴的才华&#Vff0c;为开发者供给一站式开发体验&#Vff0c;处置惩罚惩罚真时互动模块的选型、比价、集成、账号打通和置办&#Vff0c;协助开发者快捷添加各种 RTE 罪能&#Vff0c;快捷将使用推向市场&#Vff0c;节约 95% 集成 RTE 罪能光阳。

微软真时语音识别&#Vff08;多语种&#Vff09;效劳目前曾经上架声网云市场。借助该效劳&#Vff0c;可将音频流真时听录为文原&#Vff0c;并可取语音效劳的翻译和文原转语音产品/效劳无缝地协同工做。

各人可以点击此处立刻体验。

推荐文章

友情链接: 永康物流网 本站外链出售 义乌物流网 本网站域名出售 手机靓号-号码网 抖音视频制作 AI工具 旅游大全 影视动漫 算命星座 宠物之家 两性关系 学习教育