0829-11248055

【亚博手机版】百度ICML论文:端对端中英文语音识别2021-05-17 00:41

本文摘要:论文作者:Dariodeitaitanubhai,Erichattenberg,CarlCase,JaredCasper,BryanCatanzaro,JingDongChen,MikeChrzanowsibaiduSA,Inc.Adamcoates,GregDingChen因为这种方法用神经网替代了整个人工设计的管状网络,让我们多种多样的语音来适应环境,包括噪音、口音和语言。方法的关键是HPC技术的应用,以前需要几周的运营实验,现在需要几天的运营。

亚博手机版

论文作者:Dariodeitaitanubhai,Erichattenberg,CarlCase,JaredCasper,BryanCatanzaro,JingDongChen,MikeChrzanowsibaiduSA,Inc.Adamcoates,GregDingChen因为这种方法用神经网替代了整个人工设计的管状网络,让我们多种多样的语音来适应环境,包括噪音、口音和语言。方法的关键是HPC技术的应用,以前需要几周的运营实验,现在需要几天的运营。

这使我们能够更慢地识别更好的结构和算法。结果是,在某些情况下,当标准数据组作为测试标准时,我们的系统不足以与人工录音竞争。最后,在数据中心,用于被称为GPU的出厂时间表(BatchDispatchwithGPUs)的技术,我们的系统可以在网络设置中经济实惠地配置,为大规模用户提供服务时,可以获得较低的延迟。

1.概述数十年来手工设计领域积累的科学知识已转移到最先进设备的自动语音识别(ASR)等管道。非常简单有效的替代解决方案是训练有端对端语音自动识别模型,用于深度自学的方法用模型替换大部分模型。就像Hannunetal一样,2014andGravesJaitly,2014b和他们的论文一样。

这种从终端到终端的训练方法修改了训练过程。因为它省去了人工指导/校准/集团/HMM机械装置,用于制作先进设备的自动语音识别模式。在这样的系统中,创建对方的深度自学,我们可以用于一系列深度自学技术:狩猎大训练集,训练小模型和高性能计算,有序探索神经网络的空间工作结构。

本文详细说明了模型结构、标记的大规模训练数据集和计算规模等对语音识别的贡献。其中包括模型结构的普遍调查,我们的数据收集管道需要创建比一般训练语音识别系统大的数据集。我们使用一些公开发表的测试集来测试我们的系统,期待最后超过人类的表现水平。

因此,我们根据这个比较标准,测试工人们的表现。找到我们最差的普通话语音系统录音结束的语音搜索类的发言,比典型的中国人更让步。本文剩下的部分如下。

我们在最初的部分掌握了深刻的自学内容,从末端到末端的语音识别和第二部分提到的可扩展性。.第三部分说明了建筑和算法的改良模型,第四部分说明了如何有效地计算。

第五部分我们讨论进一步实施的数据和程序强化训练。第六部分不会出现英语和普通话系统分析的结果。

第七部分,我们将讲述如何调配我们的系统以适应环境的确切用户结束。2.工作研究的启发源于深度自学和语音识别的前期研究。经过互联网声学模型的探索,已经有20年了。1994年。

周期性神经网络和网络的卷积完全同时用作语音识别(Robinsonetal.1996.Waibeletal.,1989)。最近,DNNs成为ASR管线的网络连接夹具和完全先进设备的声音工作,包括某种形式的浅神经网络现有技术Mhameddtal。2011年Hintontontal.打开2012年的第二名。

2011年。N.JaitlyVanhoucke,201212;Seidetal。嗯,2011。

卷积网络也发现对声学模式不利(Abdel-Hamidetal.2012.2013)。周期性神经网络开始在先进设备的识别器中使用(Gravestal.,2013.H.Saketal.,2014年卷积层合作提取特征(Sainathettal.,2015年)。从末端到末端的语音识别是最重要的研究领域,在完全恢复DNN-HMM的结果和独立国家的输入时,表现出令人信服的结果。

RN的编码器和解码器在关注和预测音素和字素方面备受关注。在CTC功能脆弱性上加入RNN处理数据的某种程度上,最好输入端对端的语音识别字母。CTC-RNN模型通过词汇表预测音素表现良好。

迄今为止在深度自学中探索大规模是该领域顺利的关键。单个GPU训练带来显着的性能增益,然后被线性限制在2个以上的GPU。我们利用减少个别GPU工作效率为低级深度自学基元。

我们以过去平行模式和数据平行或两者的融合为基础,建立慢慢高效的系统,加强RNN在语音识别中的训练。数据已经是终端语音识别的关键,使用了7000小时以上显示的语音。

强化的数据对提高深度的自学计算机视觉和语音识别性能非常有效。因此,现有的语音系统可以引领新的数据收集。例如,现有的语音发动机可用于排序和过滤器数千小时的有声读物。

我们从过去和强化数据的方法中吸收启发,作为强化自己数据的显示。3.模型系统结构图1显示了我们的系统结构,并明确提出在本文中详细探索可交换的组件。

我们的系统与一个或多个输出卷积层的反复神经网络(RNN),多次发作(单向或双向)层和一层几乎相连。该网络使用CTC损耗函数,需要从输出音频预测文字序列。该网络的输出是动力标准化音频剪辑,计算了上20毫秒窗口的序列。

输入是每种语言的字母。在每个输出步骤中,RNN不能预测。在p(Lt/x)中,Lt是字母表中的字母或不可用的符号。

在英语中,我们有字母a、b、c..、省略、空格,我们用空格看起来语言和语言的界限。对于中文系统来说,中文输入系统已经修改。推理小说时间,CTC模模型的语言模型是基于更大的语料库。我们用类似的搜索方法找到y的最大值。

Q(y)=log(pRNNyjx)。logplmy(y)。在这个公式中,wc(y)是英语和中文在mRNA的单词数。

α的重量要求有关的语言模式和CTC网络。β的重量希望mRNA更好的单词。

这些参数基于发展调整。3.1批量标准化的深度RNNs在处理培训集时,为了更有效地吸收理数据,必须通过减少网络的深度再次添加更好的周期层。但是,由于网络的梯度随体积和深度而变化,非常具有挑战性。我们用规范的方法开展试验,加深更慢的网络。

近期的研究指出,规范一派可以加快RNNs培训的融合,尽管在提升一般化错误方面不尽如人意。相比之下,找到一个用于RNN的深度网络,根据大数据集,规范一派的变体可以提高一般的错误和速度。

反复出现的楼层可以构筑为:在输入的地方,t可以从以前的楼层输入中领先计算,同时t可以从以前的楼层输入。图2:从两种模式的训练曲线来看,有人接受BN(BatchNorm)的训练,有人接受。我们可以在9-7网络线上看到更大的分割距离,这条训练线共9条,7条是双向RNNs模式。

5-1网络线的差距更小,5条中只有1条是双向RNN。我们从训练的第一阶段开始区分,但随着曲线的变化无法预测。

因为3.2部分提到的SortaGrad课程方法。例如,在2015年(Laurent、BatchNorm)中,有两种方法可以重复操作。自然延伸是为了将BatchNorm切换为B(·),在每个非线性之前,在这种情况下,平均值和方差的统计资料信息积累在minibatch的单一时间步骤中。我们发现该技术没有明显提高优化程度。

另一个(序列明智正常化)是正常化的批量处理横向连接。周期计算如下公式:对于各隐蔽单元,在minibatch中计算多个项目序列的长度和所有项目的平均值和方差的统计资料信息。

图2显示浅网络与明智的序列正常化融合缓慢。表1表明,随着网络深度的减少,智能序列正常化的性能与深度网络性能的12%不同。我们在训练过程中收集的神经元平均值和方差的运营平均值,用于评价。

3.2SortaGrad即使用于批量标准化,也可以找到与CTC一起训练的情况,特别是在初期阶段。为了使训练更加平稳,我们将在训练课程中实施测试,加快训练,超过更好的一般结果。

从最初的训练阶段开始就用于浅网络(或者步数多的RNNs模式),在训练初期不会结束。因为结果和梯度必须在权重较好的阶段传播。

除了改变梯度,CTC最终不太可能是mRNA长句,因为改变梯度不稳定。这种仔细观察唤起了学习战略课程、LUM学习战略。我们的标题SortaGrad:以语言长度为可玩性的注意,首先从短语开始训练。

具体来说,在第一个训练期间,我们不会把重复的句子长度集中在重复的中间。在训练的第一个时期,minibatches随机重复。

表1显示了用于SortaGrad的训练成本和9个模型层的7个周期层。SortaGrad提高了训练的稳定性,在网络中没有BatchNorm的状态下特别显着。因为这些在数值上很少稳定。

3.2RNNs和GRU的比较到目前为止使用的模型是RNNS模型,是方程3的ReLU转录模型。更简单的隐蔽部门,如长短期记忆部门和thegatedrentunits(GRU)部门,已经证明对类似的任务非常有效。我们实地调查GRUs,在小数据集实验中指出的GRU和LSTM完全相同数量的参数下,可以超过类似的精度,但GRUS的运营更慢,没有错误。GRU和RNN模式都从BatchNorm中获利,深度网络结果良好。

表中的最后两列1表明,在相同数量的参数和深度网络下,GRU模式比WER建设更好。3.4卷积频率的即时卷积常用于语音识别,为了有效地立即同时翻译成星形长句。将EF作为星形长度语音音频ciently模型的时空旋转不变。卷积频率试图通过音箱变异更大的连接网络模型更准确地建模光谱方差。

我们用新加的1或3层卷积开展试验。这些都是时间和频率域(2D)和时间唯一的域(1D)。

在任何情况下,我们都用于完全相同的卷积。在某些情况下,我们只要能在任何领域注册一步(二次取样),增加输入规模。

图3:2句文本下的卷积结构报告了2个数据集的结果,2048句发展集(普通研究开发)和2048句比较吵的数据集(吵架研究开发)从CHIME2015年发展的数据集中随机提取。我们发现1D卷积的多层效果不显着。2D卷积对噪声数据的结果有了较小的提高,但对长时间数据的贡献并不大。

从一维卷积一层到二维卷积三层WER模式,噪音数据集提高了23.9%。3.5展望卷积和单向模式的双向RNN模型,挑战在线运用,延迟较低。

的设置,因为他们不能从用户那里追溯到录音过程。但是,只有循环行进模型比同类双向模型差,在未来的结构中使用对良好的表现很重要。

一个可能的解决方案是指延迟系统升空标明单位,当它有更多的上下文时,我们很难在我们的模型中建立这种不道德。为了制作单向模型没有犯规,我们开发了类似的层,调用了落后的卷积,如图3所示。这个层面试着自学,引导所有的转录神经元,控制将来必要的文本数量。

落后层由参数矩阵要求,符合上层神经元的数量。为了转录在时间步数t上,我们将落后卷放在所有周期层上。落后卷积和更好的粒子,可以追溯到所有的计算。

图3:WER的卷积层配置非常简单。一切状况下,卷积后跟7发作层和1基本连接层。

2D卷积的第一维是频率和第二维是时间。每个模型都atchNorm、SortaGrad开展训练,享有35M参数。3.6普通话适应环境,为了将传统的语音识别管道改为另一种语言,一般需要一定数量的最重要的语言注册开发。例如,经常需要手工设计的发音模型。

我们也可能需要具体的特定语言的发音特征,如普通话的声音。我们的端到端系统需要预测字符,可以节省一些步骤。这样,我们就可以慢慢地建立从末端到末端的中文语音识别系统(中文汉字的输入只用于上述方法,不需要更多的变化)。我们对网络结构的改变是基于中国汉字的特点。

网络输入的概率约为6000个字符,包括罗马字母。因为中英语mRNA很少见。我们在评价时间整理了词汇错误,如果输出的文字不能输出这一套。这不是大问题。

因为我们的测试集只有0.74%远远超过词汇文字。我们使用的文字等级以中文为语言模型,语言在文本中经常被分割。在6.2部分,我们展示了我们的语音模式和英语语音模式一样有结构性的改良,同时将一种语言转换成另一种语言获得了建模科学知识。

4.系统优化我们的网络有数千万的参数,与训练实验有数十个单一精度exaFLOPs。由于我们评价数据和模型能力各不相同的训练速度,根据高性能的计算设施(HPC)建立了高度优化的训练体系。许多框架不存在于深度网络中的平行机械,但我们发现处理能力经常受到不优化的路线的干扰,这些干扰当然是指出的。因此,我们将重点放在优化作为培训的路径上。

具体来说,我们为关闭MPI创建了自定义的All-Reduce代码,通过GPU的多个节点总结了梯度,为GPU的缓慢构筑开发了CTC,用于自定义的存储器分配器。也就是说,这些技术需要在各节点保持理论的峰值性能值为45%。我们的训练在多个GPU工作中分段与SGD实时,各GPU用于当地的复印件到达现在的Minibatch,与其他GPUS交换计算梯度。

我们更偏向于实时SGD,因为它可以重复生产,这可以增进找到和维护。在这个设定中,GPU为了不浪费计算周期,(用于All-Reduce(仅增加)的操作者),以免浪费计算周期。以前的工作用于异步改版,减轻了这个问题。无视,我们着重优化All-Reduce操作者,构建4X-21X加速,利用技术为特定网络工作增加CPU-GPU交流。

在某种程度上,为了提高总体计算,我们用于Nervana系统的高度优化核心,NVIDIA用于深度自学。我们在某种程度上发现,减少GPU和CPU之间的实时次数,定制的存储分配例程在优化性能方面至关重要。

CTC成本计算占运行时间的显着部分。由于没有高度优化的CTC代码,我们开发了慢慢的GPU执行方法,增加了10-20%的总训练时间。5.培训数据大规模深度自学系统必须非常丰富的标记培训数据。为了训练我们的英语模式,我们使用11940小时含有800万个标志的发言和普通话系统使用9400小时含有1100万个发言标记的发言语音。

5.1训练集结构英语和普通话的一部分数据集是指制作噪音剪辑的原始数据。为了将音频段分成几秒长的段落,根据mRNA的复印件进行校准。对于价格相等的音频mRNA(x、y),最有可能的校准是基本的viterbi编辑,用于RNN模型培养CTC。由于CTC损耗函数集和所有校准,这并不能确保校准的准确性。

但是,我们发现这种方法在使用双向RNN时可以正确对准。为了过滤器质量好的录音,我们制作了具有以下功能的非常简单的分类器:起始材料CTC费用,起始材料CTC费用基于序列长度,CTC费用基于录音长度标准化,句子长度与mRNA长度的比率,mRNA中的单词数和字符数。我们收集来源标签制作这个数据集。关于英语数据集,发现过滤管可以将WER从17%增加到5%,同时保持50%以上的例子。

另外,在各个阶段,动态地加入特有噪音从0dB到30dB之间的SNR,强化数据集。5.2图形数据在表3中显示了WER减少训练数据集的效果。

这些都是在训练前从数据中随机取样的。对于每个数据集,模式已经训练到20个阶段,早期不会因为错误而停止,弯曲开发的一套以避免过度数值。

训练集减少10个因素,WER不会上升到40%。我们也关注WER(接近60%)通常和喧闹的数据集之间的差距,这意味着更好的数据在这两种情况下也适合某种程度。

表3:英语WER在普通和喧闹中集中在减少训练集中。模型为9层(2层为2D卷积和7层周期),具有68M参数。

6.结果为了评价我们的语音系统对现实世界的适用性,我们根据大量的测试集进行评价。我们用于各种公开发表的标准和一些测试套的内部收集。所有的模式都被训练了20个阶段,这些阶段作为全英语和全中文的数据集,例如第5节。我们与Nesterov动力一起用于随机梯度的上升,同时minibatch有512句话。

梯度范围达到400门槛时,新调整为400。自由选择训练期间,从继续实施最差的模型开始评价。

当每个阶段都有1.2的持续因素时,自学率是指[1×10-4,6×10-4]自由选择,以获得更慢的结论。6.1英语最差的英语模型有2层2D卷积,突出的是3层不定向的周期层,各层附有2560GRU,紧随其后的是卷积层预计层tu=80,而且由BatchNorm和SortaGrad训练。

我们的模型集中在适应环境所有声音的条件上。语言模型解码参数中所有者一次集中开发设定。我们报告了几个系统和人类正确评价使用的测试集的结果。

通过通知工作人员从亚马逊MechanicalTurk手工复制了我们所有测试装置获得的人类的水平。群众不如专业,训练有素的mRNA工作人员。例如,(李普曼,1997)在WSJ-Eval92集中发现人类仿制超过1%的WER,与1%的WER相似,受到追加报酬的鼓励时,得到的是低WER,自动错字动机和拼法的修正,错误率进一步增加,通过mRNA委员会会员我们使用无奖励机制和自动修正。

因为有效竞争的ASRwizard-of-Oz正在努力获胜。两个随机工人抄写。表4:系统和人类在WER中比较每个音频剪辑,平均值约为5秒。然后,我们接受了这两个mRNA的教育,实现了最后的WER计算。

大部分工人都在美国,多次收看音频剪辑,mRNA一次平均需要27秒。手动mRNA的结果比较,基于现有事实,产生WER估算。现有的现场mRNA显然有标签误差,大部分集合超过1%。

6.1.1基准测试结果具有低信用噪音比读者演说,可以说是大词汇量倒数语音识别的最简单任务。我们系统的标准是两个测试集,一个是加载新闻文章的华尔街日报(WSJ)语料库,另一个是有声读物LibriSpeech语料库。

表4可以显示每4个测试集,3个系统优于人类。VoxForge(http://www.voxforge.org)还用于测试系统对各种口音的适应性。该测试组包括许多不同口音人的朗读声音。我们将这些口音分为美国、加拿大、印度、Commonwealth5和European64种。

我们从VoxForge数据组构建了每1024个例子作为口音组,共计4096个例子。人的水平显示着低于我们所有的系统,但印度的口音除外。最后,我们从最近完成的第三个滚动站试验台CHiME测试喧闹的演讲时的表现。

该数据集中于收集WSJ测试,WSJ收集的语言在实际环境中收集,增加人为噪音。用于CHiME的所有6条地下通道可以得到显着的性能改良。我们所有的模有的模式都用于单一渠道,因为获得多声道音频并不广泛。数据来自现实喧闹的环境时,不是人工合成,而是在明确的声音中加入噪音,我们的系统和人的性能差距很小。

亚博手机版

6.2普通话在表5中,我们开发了结构军官学校中国普通话语音的2000句语音和测试集1882句噪音语音。该研发套件也用于调整解码参数。

我们发现深度模型的2D卷积和BatchNorm比浅度RNN高48%。表5:不同RNN结构的比较。

研发和测试集的内部语料库。每个:表中的模型有8000万左右的参数。表6:根据两个随机自由选择的测试集,测试人类和系统。

第一集有100个例子,由5名中国人表示。第二,250个例子显示了一个人的复印件。表6表明,我们最差的中国普通话语音系统mRNA最后的语音搜索类似的发言比典型的中国人和委员会的5名中国人一起工作更好。

7.配置双向模型的即时mRNA设计不当:因为RNN有几个双向层,所以抄写语言必须以整个听法呈现给RNN,因为我们用于长波段检索,所以波段检索可能很便宜。为了减少部署的可扩展性,同时获得延迟较低的mRNA,我们构建了一个批处理计划,称为批处理计划patch),在展示RNN作为宣传这些发货时,这些发货收集了用户的催促数据进行发货。有了这个调度器,可以减少贸易批量的大小,提高效率,减少延迟。我们用于大力的发货方案,下一个方案不会大力处理所有的发货。

如果前一次发货完成后,无论多少工作都要在这一点上计划。该调度算法均衡效率和延迟,构建了相对较小的动态批量规模,低约每出厂10个样品,其中中间批量大小与服务器阻抗成正比。表7:延迟发生在(毫秒)VS阻抗表7中,我们的系统超过了44毫秒的延迟时间,第98%的延迟时间为70毫秒,有10合流。该服务器用于NVIDIA,QuadroK1200,GPU评价RNN。

正如设计一样,当服务器阻的快速增长时,批量调度轮将工作改为更大的出厂,并保持较低的延迟。我们的部署系统评价是半精度运算,虽然不能依赖精度影响RNNs,但效率显着提高。我们写了自己的16位矩阵乘法程序完成了这个任务,大幅度提高了比较小的发货吞吐量。

继续执行上述波束搜索过程,也包括在上述n-gram语言模型中反复查询,其中大部分转换为未存储器从存储器中加载。为了增加这些查询的成本,我们使用启发式:只考虑最大数量的字符积累概率至少为p。在实践中,我们找到p=0.99效果很好。此外,搜索范围允许为40个字符。

这减缓了150倍共计普通话语言模型的搜索时间,视了CER(比较0.1-0.3%)的影响。7.1深度语音的生产环境深度语音已经应用于子集先进设备的语音生产管道。我们发现了些重要的挑战是影响末端到端的深度自学方法,如我们的。

首先,我们发现,即使适当的特定应用程序的训练数据很重要,大量的语音数据也被用作训练。例如,如果需要训练10000小时以上的普通话演说的话,只能找到500小时的时间数据性能。在某种程度上,应用于特定的网络语言模型对于构建最低精度是最重要的,我们充分利用现有强大的n-gram模型和深层语音系统。

最后,我们注意到,因为我们的系统是指需要输入普遍标记的训练数据的文字,所以每个应用程序都是mRNA。必须在后处理中进行处理(例如数字形式)。因此,我们的模型已经分解了很多复杂性、更好的灵活性,还需要进一步研究从末端到末端的深度自学方法的应用意识。8.结论终端到终端的深度自学明确提出了令人兴奋的前景,数据和计算的减少大大提高了语音识别系统。

由于这种方法是高度标准化的,我们已经找到了,它可以很快应用于新的语言。为两种非常不同的语言创建高性能识别机器、英语和普通话,不拒绝这种语言的专业知识。最后,我们还发现这种方法是GPU服务器和用户的催促一起高效执行,获得用户从末端到端的深度自学技术。

为了构筑这些结果,我们已经探索了各种各样的网络结构,通过SortaGrad和出厂规范化,发现了一些有效的技术。这种探索是一个很好的优化、高性能的计算系统,使我们在大型数据集中在短短几天内训练全面的模式。总的来说,我们相信我们的结果确认和比较从末端到末端的深度自学方法作为语音识别的价值。我们相信这些技术以后不会扩大。

原始文章允许禁止发布。下一篇文章发表了注意事项。


本文关键词:【,亚博,手机,版,】,百度,ICML,论文,端,对,论文,亚博手机版

本文来源:亚博app-www.behindthedrive.com