第一句子网 > 端到端语音识别方法系统装置及其存储介质与流程

端到端语音识别方法系统装置及其存储介质与流程

时间：2021-07-14 12:18:32

本申请涉及语音识别

技术领域：

，尤其涉及一种基于卷积神经网络和注意力机制的端到端语音识别方法、系统、装置及其存储介质。

背景技术：

：语音识别是近年来十分活跃的一个研究领域，是一种重要的人机交互手段。语音识别系统的典型实现方案为：输入的模拟语音信号首先要进行预处理，包括预滤波、采样和量化、加窗、端点检测、预加重等。语音信号经预处理后，接下来很重要的一环就是特征参数提取。然后通过机器学习以及深度学习的算法对特征加以学习，比如hmm或者lstm等等。上述工作推动了语音识别的研究，但是，也存在一些值得深入研究的问题，具体如下：(1)带口音(dialect)语音的识别；(2)从原始语音到语音特征的提取过程必然导致信息的损失，而损失的信息对最终的语音识别效果是否有影响也是未知的；(3)背景噪音对于识别效果的影响。如何克服上述的问题，是当前需要解决的。技术实现要素：为了解决上述技术问题，本申请实施例提供一种基于卷积神经网络和注意力机制的端到端语音识别方法、系统、装置及其存储介质。本申请实施例第一方面提供了一种基于卷积神经网络和注意力机制的端到端语音识别方法，可包括：采集语音数据，将整段语音数据进行统一归一化处理后依据数据库标签进行切分；对所切分的语音进行分帧加窗处理后利用快速傅里叶变换获取频谱；引入注意力机制，将注意力机制与卷积神经网络结合，构建完整的语音识别网络模型；训练语音识别网络模型，将预测后的语音数据作为语音识别网络模型的输入，训练学习该语音识别网络模型的参数，并通过词错误率进行测评后得到所需要的语音识别网络模型进行识别。进一步地，所述将整段语音数据进行统一归一化处理后依据数据库标签进行切分包括：将整段语音的范围归一化至以0点为对称中心的阈值范围，其中归一化前后的整段语音在数值为零处所表达的物理意义均是无声段。进一步地，所述引入注意力机制，将注意力机制与卷积神经网络结合包括：将注意力机制引入卷积神经网络中，注意力机制通过两个全连接层a和b相乘实现，其中全连接层b作为注意力权重，其权重是a的权重经过softmax回归后得到的符合概率分布取值区间的注意力分配概率分布数值。进一步地，所述语音识别网络模型采用cnn+ctc模型，采用vgg16基本模型架构，10层卷积层，5层池化层，5层全连接层，其中三层全连接层用于实现注意力机制，损失函数采用ctc损失函数，网络优化器采用adam优化器。本申请实施例第二方面提供了一种基于卷积神经网络和注意力机制的端到端语音识别系统，包括：语音接收单元，用于接收整段语音，并将该段语音归一化后进行切分；频谱获取单元，用于将切分的语音数据利用傅里叶变换获取频谱数据；构建模型单元，用于将注意力机制与卷积神经网络结合，构建完整的语音识别网络模型；训练模型单元，用于利用语音数据作为训练内容，优化模型参数，将词错误率作为优化目标训练模型。进一步地，所述语音接收单元包括：将整段语音的范围归一化至以0点为对称中心的阈值范围，其中归一化前后的整段语音在数值为零处所表达的物理意义均是无声段。进一步地，所述频谱获取单元包括：窗函数处理单元，用于对所切分得到的语音数据利用预设的窗函数进行分帧加窗处理；频谱获取单元，用于对窗函数处理后的数据进行快速傅里叶变换，且只取一半长度。进一步地，所述构建模型单元包括：将注意力机制引入卷积神经网络中，注意力机制通过两个全连接层a和b相乘实现，其中全连接层b作为注意力权重，其权重是a的权重经过softmax后得到的符合概率分布取值区间的注意力分配概率分布数值；语音识别网络模型采用cnn+ctc模型，采用vgg16基本模型架构，10层卷积层，5层池化层，5层全连接层，其中三层全连接层用于实现注意力机制，损失函数采用ctc损失函数，网络优化器采用adam优化器。第三方面，本申请实施例提供了一种识别装置，包括存储器和处理器，所述存储器上存储有计算机可执行指令，所述处理器运行所述存储器上的计算机可执行指令时实现第一方面的方法。第四方面，本申请实施例提供了一种计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时，实现上述第一方面的方法。在本申请实施例中，本发明的基于卷积神经网络和注意力机制的端到端语音识别系统，通过将注意力机制融合卷积神经网络中，并通过使用ctc损失函数构建完整的语音识别网络模型，实现深度学习，从原始语音数据中提取语音的语谱图作为cnn的输入，以提高语音的性能，大大减少了人工提取特征带来的信息损失，具有良好的应用前景。附图说明为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。图1是本发明的基于卷积神经网络和注意力机制的端到端语音识别系统的步骤示意图。图2是图1的流程示意图；图3是本发明的模型在验证集上测试得到的wer结果折线图。图4是本申请实施例提供的一种识别系统的示意框图；图5是本申请实施例提供的一种识别装置的结构示意图。具体实施方式下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。应当理解，当在本说明书和所附权利要求书中使用时，术语“包括”和“包含”指示所描述特征、整体、步骤、操作、元素和/或组件的存在，但并不排除一个或多个其它特征、整体、步骤、操作、元素、组件和/或其集合的存在或添加。还应当理解，在此本申请说明书中所使用的术语仅仅是出于描述特定实施例的目的而并不意在限制本申请。如在本申请说明书和所附权利要求书中所使用的那样，除非上下文清楚地指明其它情况，否则单数形式的“一”、“一个”及“该”意在包括复数形式。还应当进一步理解，在本申请说明书和所附权利要求书中使用的术语“和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合，并且包括这些组合。如在本说明书和所附权利要求书中所使用的那样，术语“如果”可以依据上下文被解释为“当...时”或“一旦”或“响应于确定”或“响应于检测到”。类似地，短语“如果确定”或“如果检测到[所描述条件或事件]”可以依据上下文被解释为意指“一旦确定”或“响应于确定”或“一旦检测到[所描述条件或事件]”或“响应于检测到[所描述条件或事件]”。参见图1，是本申请实施例提供的一种识别方法的示意流程图，如图所示该方法可包括：101：采集语音数据，将整段语音数据进行统一归一化处理后依据数据库标签进行切分。可以理解的是，整段语音是根据所收集到的语音数据中的语音间隔时间来决定的，通过对话中的停顿来实现语音的断句，将一段连续的话作为整段语音，在收集到该语音之后，在整个语音端上执行数据的归一化，归于的区间是以0点作为对称中心，本实施例中，归一化的范围采用[-1，1]，归一化前后语音数值为零处所表达的物理意义不变，均是无声段。切分时，根据数据库标签对统一归一化处理的语音进行切分。其中数据库为语音学家建立的用于研究语音识别的专业数据库，本实施例中数据库采用清华大学所建立的用于研究语音识别的专业数据库，是在安静的办公室环境下，通过单个碳粒麦克风录取的，总时长超过30个小时。大部分参与录音的人员是会说流利普通话的大学生。采样频率16khz，采样大小16bits。根据数据库标签切分后，获得10000条有效语音，其中，500条语音作为验证集，500条语音作为测试集，其余作为训练集，语音的数据最长l为343208，持续时间约为21.45秒。102：对所切分的语音进行分帧加窗处理后利用快速傅里叶变换获取频谱。可以理解的是，加窗和分帧都是语音信号提取特征的预处理阶段。先分帧，后加窗，再做快速傅里叶变换。分帧：简单来说，一段语音信号整体上看不是平稳的，但是在局部上可以看作是平稳的。在后期的语音处理中需要输入的是平稳信号，所以要对整段语音信号分帧，也就是切分成很多段。在10-30ms范围内都可以认为信号是稳定的，一般以不少于20ms为一帧，1/2左右时长为帧移分帧。帧移是相邻两帧间的重叠区域，是为了避免相邻两帧的变化过大。加窗：按上述方法加窗后，每一帧的起始段和末尾端会出现不连续的地方，所以分帧越多与原始信号的误差也就越大。加窗就是为了解决这个问题，使分帧后的信号变得连续，每一帧就会表现出周期函数的特征。在语音信号处理中一般加汉明窗。作为一个具体的实施例，对切分的语音加窗分帧处理；分帧处理中帧长i为1024，帧间重叠率p为25％，获最大帧数h为447。增加的窗函数为hamming窗w(n，α)，其的计算公式如下，w(n，α)＝(1-α)-αcos(2πn/(n-1))，0≤n≤n-1。其中，α取值0.46，n为n的取值范围，表示hamming窗的长度。对语音进行快速傅里叶变换得到其频谱，由于其频谱为对称式，所以只取其一半长度。快速傅里叶变换的公式为：由于本步骤属于语音识别中的常用技术手段，就不进行赘述。103：引入注意力机制，将注意力机制与卷积神经网络结合，构建完整的语音识别网络模型。可以理解的是，本申请中通过将注意力机制引入卷积神经网络中，注意力机制通过两个全连接层a和b相乘实现，其中全连接层b作为注意力权重，其权重是a的权重经过softmax后得到的符合概率分布取值区间的注意力分配概率分布数值。在语音识别网络模型的构建过程中，本申请中采用cnn+ctc模型，采用vgg16基本模型架构，10层卷积层，5层池化层，5层全连接层，其中三层全连接层用于实现注意力机制，损失函数采用ctc损失函数，网络优化器采用adam优化器。卷积层用来提取语谱图的特征，池化层用来进一步提取主要特征以及减少参数，其中每一层池化层之后用dropout随机丢弃部分神经元，防止网络训练过拟合。卷积层和池化层之后，首先使用reshape层将图像压缩为可供全连接层输入的形式，然后全连接层相乘的形式引入权重的注意力机制，然后以全连接层实现分类。其他网络参数设置如表1所示：参数值初始学习率0.0001训练批次大小32层间单元连接率(dropout)0.6卷积输出通道2104：训练语音识别网络模型，将预测后的语音数据作为语音识别网络模型的输入，训练学习该语音识别网络模型的参数，并通过词错误率进行测评后得到所需要的语音识别网络模型进行识别。可以理解的是，模型建立之后需要通过大量的数据训练来不断的修真数据参数，以使得模型更加符合所适用的对象，以便于在实际的使用中能够准确地将语音数据输出成文字数据。作为一个具体的实施例，训练语音识别网络模型时，将预测后的语音数据作为语音识别网络模型的输入，训练学习该语音识别网络模型的参数，并通过wer(词错误率，worderrorrate)评测，为了使识别出来的词序列和标准的词序列之间保持一致，需要进行替换、删除或者插入某些词，这些插入、替换或删除的词的总个数，除以标准的词序列中词的总个数的百分比，即为wer。计算公式如下：其中，s为替换的个数，d为删除的个数，i为插入的个数，n为汉字总数。通过上述测评，不断的修正整个模型的内容，以实现模型的理想输出结果。具体训练过程中，每训练200次，就在验证集上进行一个验证，并记录下验证集的wer，最终将结果统计成如图3所示的在验证集中，随着训练次数steps的叠加，整体wer最终收敛至20.35％，最终在测试集中获得了wer为19.80％，综上所述本发明的基于卷积神经网络和注意力机制的端到端语音识别系统，通过将注意力机制融合卷积神经网络中，并通过使用ctc损失函数构建完整的语音识别网络模型，实现深度学习，从原始语音数据中提取语音的语谱图作为cnn的输入，以提高语音的性能，大大减少了人工提取特征带来的信息损失，具有良好的应用前景。本申请实施例还提供一种基于卷积神经网络和注意力机制的端到端语音识别系统，该系统用于执行前述任一项上述。具体地，参见图4，图4是本申请实施例提供的一种定位装置的示意框图。本实施例的装置包括：语音接收单元310、频谱获取单元320、构建模型单元330、训练模型单元340。语音接收单元310，用于接收整段语音，并将该段语音归一化后进行切分。频谱获取单元320，用于将切分的语音数据利用傅里叶变换获取频谱数据。构建模型单元330，用于将注意力机制与卷积神经网络结合，构建完整的语音识别网络模型。训练模型单元340，用于利用语音数据作为训练内容，优化模型参数，将词错误率作为优化目标训练模型。上述语音接收单元310将整段语音的范围归一化至以0点为对称中心的阈值范围，其中归一化前后的整段语音在数值为零处所表达的物理意义均是无声段。作为一种可选的实施方式，归一化的范围采用[-1，1]，归一化前后语音数值为零处所表达的物理意义不变，均是无声段。切分时，根据数据库标签对统一归一化处理的语音进行切分。其中数据库为语音学家建立的用于研究语音识别的专业数据库，本实施例中数据库采用清华大学所建立的用于研究语音识别的专业数据库，是在安静的办公室环境下，通过单个碳粒麦克风录取的，总时长超过30个小时。大部分参与录音的人员是会说流利普通话的大学生。采样频率16khz，采样大小16bits。根据数据库标签切分后，获得10000条有效语音，其中，500条语音作为验证集，500条语音作为测试集，其余作为训练集，语音的数据最长l为343208，持续时间约为21.45秒。上述频谱获取单元320，具体用于对所切分的语音进行分帧加窗处理后利用快速傅里叶变换获取频谱。作为一种可选的实施方式，上述频谱获取单元320，包括：分帧单元321，决定切分语音的帧数。本实施例中，分帧处理中帧长i为1024，帧间重叠率p为25％，获最大帧数h为447。加窗单元322，按上述方法加窗后，每一帧的起始段和末尾端会出现不连续的地方，所以分帧越多与原始信号的误差也就越大。加窗就是为了解决这个问题，使分帧后的信号变得连续，每一帧就会表现出周期函数的特征。在语音信号处理中一般加汉明窗。本实施例中，增加的窗函数为hamming窗w(n，α)，其的计算公式如下，w(n，α)＝(1-α)-αcos(2πn/(n-1))，0≤n≤n-1。其中，α取值0.46，n为n的取值范围，表示hamming窗的长度。快速傅里叶变换单元323，对语音进行快速傅里叶变换得到其频谱，由于其频谱为对称式，所以只取其一半长度。快速傅里叶变换的公式为：上述构建模型单元330用于将注意力机制与卷积神经网络结合，构建完整的语音识别网络模型。可以理解的是，本申请中通过将注意力机制引入卷积神经网络中，注意力机制通过两个全连接层a和b相乘实现，其中全连接层b作为注意力权重，其权重是a的权重经过softmax后得到的符合概率分布取值区间的注意力分配概率分布数值。在语音识别网络模型的构建过程中，本申请中采用cnn+ctc模型，采用vgg16基本模型架构，10层卷积层，5层池化层，5层全连接层，其中三层全连接层用于实现注意力机制，损失函数采用ctc损失函数，网络优化器采用adam优化器。上述训练模型单元340用于利用语音数据作为训练内容，优化模型参数，将词错误率作为优化目标训练模型。作为一个具体的实施例，本单元将预测后的语音数据作为语音识别网络模型的输入，训练学习该语音识别网络模型的参数，并通过wer(词错误率，worderrorrate)评测，为了使识别出来的词序列和标准的词序列之间保持一致，需要进行替换、删除或者插入某些词，这些插入、替换或删除的词的总个数，除以标准的词序列中词的总个数的百分比，即为wer。计算公式如下：其中，s为替换的个数，d为删除的个数，i为插入的个数，n为汉字总数。通过上述测评，不断的修正整个模型的内容，以实现模型的理想输出结果。图5是本申请实施例提供的一种识别设备的结构示意图。该对象检测设备4000包括处理器41，还可以包括输入装置42、输出装置43和存储器44。该输入装置42、输出装置43、存储器44和处理器41之间通过总线相互连接。存储器包括但不限于是随机存储记忆体(randomaccessmemory，ram)、只读存储器(read至onlymemory，rom)、可擦除可编程只读存储器(erasableprogrammablereadonlymemory，eprom)、或便携式只读存储器(compactdiscread至onlymemory，cd至rom)，该存储器用于相关指令及数据。输入装置用于输入数据和/或信号，以及输出装置用于输出数据和/或信号。输出装置和输入装置可以是独立的器件，也可以是一个整体的器件。处理器可以包括是一个或多个处理器，例如包括一个或多个中央处理器(centralprocessingunit，cpu)，在处理器是一个cpu的情况下，该cpu可以是单核cpu，也可以是多核cpu。处理器还可以包括一个或多个专用处理器，专用处理器可以包括gpu、fpga等，用于进行加速处理。存储器用于存储网络设备的程序代码和数据。处理器用于调用该存储器中的程序代码和数据，执行上述方法实施例中的步骤。具体可参见方法实施例中的描述，在此不再赘述。可以理解的是，图5仅仅示出了对象检测设备的简化设计。在实际应用中，动作识别装置还可以分别包含必要的其他元件，包含但不限于任意数量的输入/输出装置、处理器、控制器、存储器等，而所有可以实现本申请实施例的动作识别装置都在本申请的保护范围之内。所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统、装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。在本申请所提供的几个实施例中，应该理解到，所揭露的系统、装置和方法，可以通过其它的方式实现。例如，该单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如，多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。所显示或讨论的相互之间的耦合、或直接耦合、或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。在上述实施例中，可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时，可以全部或部分地以计算机程序产品的形式实现。该计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行该计算机程序指令时，全部或部分地产生按照本申请实施例的流程或功能。该计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。该计算机指令可以存储在计算机可读存储介质中，或者通过该计算机可读存储介质进行传输。该计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(digitalsubscriberline，dsl))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。该计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。该可用介质可以是只读存储器(read至onlymemory，rom)，或随机存储存储器(randomaccessmemory，ram)，或磁性介质，例如，软盘、硬盘、磁带、磁碟、或光介质，例如，数字通用光盘(digitalversatiledisc，dvd)、或者半导体介质，例如，固态硬盘(solidstatedisk，ssd)等。以上详细描述了本发明的优选实施方式，但是本发明并不限于上述实施方式中的具体细节，在本发明的技术构思范围内，可以对本发明的技术方案进行多种等同变换(如数量、形状、位置等)，这些等同变换均属于本发明的保护。当前第1页1 2 3

技术特征：

1.一种端到端语音识别方法，其特征在于：包括：

采集语音数据，将整段语音数据进行统一归一化处理后依据数据库标签进行切分；

对所切分的语音进行分帧加窗处理后利用快速傅里叶变换获取频谱；

引入注意力机制，将注意力机制与卷积神经网络结合，构建完整的语音识别网络模型；

训练语音识别网络模型，将预测后的语音数据作为语音识别网络模型的输入，训练学习该语音识别网络模型的参数，并通过词错误率进行测评后得到所需要的语音识别网络模型进行识别。

2.根据权利要求1所述的端到端语音识别方法，其特征在于，

所述将整段语音数据进行统一归一化处理后依据数据库标签进行切分包括：

将整段语音的范围归一化至以0点为对称中心的阈值范围，其中归一化前后的整段语音在数值为零处所表达的物理意义均是无声段。

3.根据权利要求1所述的端到端语音识别方法，其特征在于，

所述引入注意力机制，将注意力机制与卷积神经网络结合包括：

将注意力机制引入卷积神经网络中，注意力机制通过两个全连接层a和b相乘实现，其中全连接层b作为注意力权重，其权重是a的权重经过softmax后得到的符合概率分布取值区间的注意力分配概率分布数值。

4.根据权利要求1所述的端到端语音识别方法，其特征在于，

所述语音识别网络模型采用cnn+ctc模型，采用vgg16基本模型架构，10层卷积层，5层池化层，5层全连接层，其中三层全连接层用于实现注意力机制，损失函数采用ctc损失函数，网络优化器采用adam优化器。

5.一种端到端语音识别系统，其特征在于，包括：

语音接收单元，用于接收整段语音，并将该段语音归一化后进行切分；

频谱获取单元，用于将切分的语音数据利用傅里叶变换获取频谱数据；

构建模型单元，用于将注意力机制与卷积神经网络结合，构建完整的语音识别网络模型；

训练模型单元，用于利用语音数据作为训练内容，优化模型参数，将词错误率作为优化目标训练模型。

6.根据权利要求5所述的端到端语音识别系统，其特征在于，

所述语音接收单元包括：将整段语音的范围归一化至以o点为对称中心的阈值范围，其中归一化前后的整段语音在数值为零处所表达的物理意义均是无声段。

7.根据权利要求6所述的端到端语音识别系统，其特征在于，

所述频谱获取单元包括：

窗函数处理单元，用于对所切分得到的语音数据利用预设的窗函数进行分帧加窗处理；

频谱获取单元，用于对窗函数处理后的数据进行快速傅里叶变换，且只取一半长度。

8.根据权利要求7所述的端到端语音识别系统，其特征在于，

所述构建模型单元包括：

将注意力机制引入卷积神经网络中，注意力机制通过两个全连接层a和b相乘实现，其中全连接层b作为注意力权重，其权重是a的权重经过softmax后得到的符合概率分布取值区间的注意力分配概率分布数值；

语音识别网络模型采用cnn+ctc模型，采用vgg16基本模型架构，10层卷积层，5层池化层，5层全连接层，其中三层全连接层用于实现注意力机制，损失函数采用ctc损失函数，网络优化器采用adam优化器。

9.一种识别装置，其特征在于，包括存储器和处理器，所述存储器上存储有计算机可执行指令，所述处理器运行所述存储器上的计算机可执行指令时实现权利要求1-4任意一项所述的方法。

10.一种计算机可读存储介质，其特征在于，其上存储有计算机程序，该计算机程序被处理器执行时，实现上述权利要求1-4任意一项所述的方法。

技术总结

本申请公开了一种端到端语音识别方法、系统、装置及其存储介质，基于卷积神经网络和注意力机制的端到端语音识别系统，通过将注意力机制融合卷积神经网络中，并通过使用CTC损失函数构建完整的语音识别网络模型，实现深度学习，从原始语音数据中提取语音的语谱图作为CNN的输入，以提高语音的性能，大大减少了人工提取特征带来的信息损失，具有良好的应用前景。

技术研发人员：李浩然;颜丙聪;赵力;张玲

受保护的技术使用者：南京励智心理大数据产业研究院有限公司

技术研发日：.10.31

技术公布日：.02.07

本内容不代表本网观点和政治立场，如有侵犯你的权益请联系我们处理。

网友评论

网友评论仅供其表达个人看法，并不表明网站立场。