第一句子网 > 语音断句方法装置设备及存储介质与流程

语音断句方法装置设备及存储介质与流程

时间：2022-02-03 16:54:06

相关推荐

语音断句方法装置设备及存储介质与流程

本申请涉及人工智能领域，特别是涉及一种语音断句方法、装置、设备及存储介质。

背景技术：

在人工智能领域，计算机设备通常需要接收用户说话的语音流，对该语音流进行语音识别。在对语音流进行语音识别的过程中，计算机设备通常需要对该语音流进行断句，从而得到用户说话是否结束。断句信息是人机交互系统中机器是否对当前实时结果给出响应的重要依据。当前，如何对语音流进行断句已经成为了人工智能领域的一个重要的问题。

相关技术中，技术人员可以预先设定一个固定的断句静音时长，当计算机设备检测到语音流中静音的时长大于或等于该预先设定的断句静音时长时，计算机设备即可在该静音处对语音流进行断句。

然而，实际应用中，不同用户的说话习惯很可能并不相同，因此，利用预先设定的固定的断句静音时长来进行断句难以适应不同的用户，这导致对语音流进行断句的准确性较低。

技术实现要素：

基于此，有必要针对语音流断句准确性较低的问题，提供一种语音断句方法、装置、设备及存储介质。

第一方面，提供了一种语音断句方法，该方法包括：

从目标语音流中截取语音片段，并获取该语音片段中用户说话的语速值；根据该语音片段中用户说话的语速值获取断句静音时长，该断句静音时长与该语音片段中用户说话的语速值负相关；在检测到该目标语音流中静音的时长大于或等于该断句静音时长时，在该静音处对该目标语音流进行断句。

在其中一个实施例中，根据该语音片段中用户说话的语速值获取断句静音时长，包括：获取沉默字数n，该沉默字数n用于指示在用户沉默n个字数后进行断句，n为正数；将该沉默字数n与该语音片段中用户说话的语速值的比值确定为该断句静音时长。

在其中一个实施例中，该目标语音流包括至少两个用户的语音，从目标语音流中截取语音片段，并获取该语音片段中用户说话的语速值，包括：从该目标语音流中将该至少两个用户的语音进行分离，得到至少两个子语音流；从每个子语音流中分别截取语音片段，并获取截取的每个语音片段中用户说话的语速值，得到至少两个语速值。

在其中一个实施例中，根据该语音片段中用户说话的语速值获取断句静音时长，包括：根据该至少两个语速值获取估计语速值；根据该估计语速值获取该断句静音时长，其中，该断句静音时长与该估计语速值负相关。

在其中一个实施例中，该估计语速值是该至少两个语速值的平均值，或者，该估计语速值是该至少两个语速值的最大值，或者，该估计语速值是该至少两个语速值的最小值。

在其中一个实施例中，获取该语音片段中用户说话的语速值，包括：获取该语音片段中用户所说的话的长度；获取该语音片段对应的音频时长；将该语音片段中用户所说的话的长度与该音频时长的比值确定为该语音片段中用户说话的语速值。

在其中一个实施例中，获取该语音片段中用户所说的话的长度，包括：利用语音识别技术，将该语音片段转化为文字片段；获取该文字片段包括的字数，并将该文字片段包括的字数确定为该语音片段中用户所说的话的长度。

在其中一个实施例中，获取该语音片段中用户所说的话的长度，包括：获取该语音片段包括的音节的数量，将该语音片段包括的音节的数量确定为该语音片段中用户所说的话的长度。

第二方面，提供了一种语音断句装置，该装置包括：

第一获取模块，用于从目标语音流中截取语音片段，并获取该语音片段中用户说话的语速值；

第二获取模块，用于根据该语音片段中用户说话的语速值获取断句静音时长，该断句静音时长与该语音片段中用户说话的语速值负相关；

断句模块，用于在检测到该目标语音流中静音的时长大于或等于该断句静音时长时，在该静音处对该目标语音流进行断句。

在其中一个实施例中，第二获取模块，具体用于：获取沉默字数n，该沉默字数n用于指示在用户沉默n个字数后进行断句，n为正数；将该沉默字数n与该语音片段中用户说话的语速值的比值确定为该断句静音时长。

在其中一个实施例中，该目标语音流包括至少两个用户的语音，第一获取模块，具体用于：从该目标语音流中将该至少两个用户的语音进行分离，得到至少两个子语音流；从每个子语音流中分别截取语音片段，并获取截取的每个语音片段中用户说话的语速值，得到至少两个语速值。

在其中一个实施例中，第二获取模块，具体用于：根据该至少两个语速值获取估计语速值；根据该估计语速值获取该断句静音时长，其中，该断句静音时长与该估计语速值负相关。

在其中一个实施例中，第一获取模块，包括：

第一获取子模块，用于获取该语音片段中用户所说的话的长度；

第二获取子模块，用于获取该语音片段对应的音频时长；

确定子模块，用于将该语音片段中用户所说的话的长度与该音频时长的比值确定为该语音片段中用户说话的语速值。

在其中一个实施例中，第一获取子模块，具体用于：利用语音识别技术，将该语音片段转化为文字片段；获取该文字片段包括的字数，并将该文字片段包括的字数确定为该语音片段中用户所说的话的长度。

在其中一个实施例中，第一获取子模块，具体用于：获取该语音片段包括的音节的数量，将该语音片段包括的音节的数量确定为该语音片段中用户所说的话的长度。

第三方面，提供了一种计算机设备，包括存储器和处理器，该存储器存储有计算机程序，该计算机程序被该处理器执行时实现上述第一方面任一所述的语音断句方法。

第四方面，提供了一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现上述第一方面任一所述的语音断句方法。

本申请实施例提供的技术方案带来的有益效果至少包括：

通过从目标语音流中截取语音片段，获取该语音片段中用户说话的语速值，并根据该语速值获取断句静音时长，其中，断句静音时长与该语速值负相关，接着，根据该断句静音时长对目标语音流进行断句，由于断句静音时长是根据用户说话的语速值确定的，因此，对于不同的用户，确定的断句静音时长也不同，这样，就可以保证确定的断句静音时长能够适应不同的用户，从而提高对语音流进行断句的准确性。

附图说明

图1为本申请实施例提供的一种语音断句方法的流程图；

图2为本申请实施例提供的另一种语音断句方法的流程图；

图3为本申请实施例提供的另一种语音断句方法的流程图；

图4为本申请实施例提供的一种语音断句装置的框图；

图5为本申请实施例提供的一种计算机设备的框图。

具体实施方式

为使本申请的目的、技术方案和优点更加清楚，下面将结合附图对本申请实施方式作进一步地详细描述。

在人工智能领域，计算机设备通常需要根据用户说话的内容对用户进行响应。以当前较为常见的智能语音辅助设备(例如，智能音箱)为例，智能语音辅助设备可以获取用户说话的内容，并根据用户说话的内容对用户进行相应的响应，例如，在用户说话的内容为“帮我打开电视机”时，智能语音辅助设备可以控制电视机开启，以对用户进行响应。

为了实现根据用户说话的内容对用户进行响应的功能，计算机设备需要接收用户说话的语音流，并对该语音流进行断句，如果断句给出用户说话未结束，机器人应暂不给出响应，如果断句给出用户说话已结束，计算机设备可以在语音识别的基础上对用户所说的每一句话分别进行相应的响应。

由于用户在说相邻的两句话时，通常会有所停顿，因此，相邻的两句话之间会存在一段时间的静音，计算机设备一般可以根据这一特性对语音流进行断句。相关技术中，技术人员可以预先设定一个固定的断句静音时长，当计算机设备检测到语音流中静音的时长大于或等于该预先设定的断句静音时长时，计算机设备即可在该静音处对语音流进行断句。

然而，实际应用中，不同用户的说话习惯很可能并不相同，因此，利用预先设定的固定的断句静音时长来进行断句难以适应不同的用户，具体地，对于某些用户来说，利用固定的断句静音时长进行断句可能会导致在一句话中间断句的情况发生，对于另一些用户来说，利用固定的断句静音时长进行断句可能会导致在一句话结束之后较长时间才断句的情况发生，上述这些情况均会严重影响对语音流进行断句的准确性。

本申请实施例题提供了一种语音断句方法，可以提高对语音流进行断句的准确性。在该语音断句方法中，计算机设备可以从目标语音流中截取语音片段，获取该语音片段中用户说话的语速值，并根据该语速值获取断句静音时长，其中，断句静音时长与该语速值负相关，接着，计算机设备可以根据该断句静音时长对目标语音流进行断句，由于断句静音时长是根据用户说话的语速值确定的，因此，对于不同的用户，确定的断句静音时长不同，这样，就可以保证确定的断句静音时长能够适应不同的用户，从而可以提高对语音流进行断句的准确性。

请参考图1，其示出了本申请实施例提供的一种语音断句方法的流程图，该语音断句方法可以应用于计算机设备中，该计算机设备可以为智能手机、平板电脑、可穿戴设备、车载设备或者智能机器人等具有“根据用户说话的内容对用户进行响应”的功能的电子设备。如图1所示，该语音断句方法可以包括以下步骤：

步骤101、计算机设备从目标语音流中截取语音片段，并获取该语音片段中用户说话的语速值。

其中，目标语音流指的是计算机设备接收到的用户说话的实时的语音流。步骤101中计算机设备可以从该目标语音流中截取语音片段，该语音片段是目标语音流的一部分，可选的，计算机设备可以按照预设的截取周期从目标语音流中截取语音片段，计算机设备也可以实时地从目标语音流中截取语音片段。

用户说话的语速值指的是用户平均每1000毫秒表述多少个字，其用于表征用户说话的快慢，通常情况下，用户说话的语速值越大，用户说话越快，用户说话的语速值越小，用户说话越慢。在本申请实施例中，计算机设备可以对用户说话的语速值进行实时获取。

本申请实施例提供了一种可选的“获取语音片段中用户说话的语速值”的方式，该方式可以包括步骤a1至a3：

a1、计算机设备获取语音片段中用户所说的话的长度。

其中，用户所说的话的长度用于表征用户说话内容的多少，通常情况下，用户所说的话的长度越长，用户说话内容越多，反之，用户所说的话的长度越短，用户说话的内容越少。

本申请实施例提供了两种可选的获取语音片段中用户所说的话的长度的方式：

第一种方式，计算机设备利用语音识别技术，将语音片段转化为文字片段，而后，计算机设备获取文字片段包括的字数，并将文字片段包括的字数确定为语音片段中用户所说的话的长度。

例如，计算机设备可以利用语音识别技术，将语音片段转化为文字片段，该文字片段可以为“帮我打开电视机”，计算机设备可以获取该文字片段包括的字数，该文字片段包括的字数为7，则计算机设备可以将文字片段包括的字数7确定为语音片段中用户所说的话的长度。

第二种方式，计算机设备获取语音片段包括的音节的数量，并将该语音片段包括的音节的数量确定为语音片段中用户所说的话的长度。其中，音节可以包括声母和韵母等。

a2、计算机设备获取语音片段对应的音频时长。

语音片段对应的音频时长指的是语音片段持续的时长，换句话说，语音片段对应的音频时长指的是语音片段开始的时刻到语音片段结束的时刻之间的时间段的时长。

a3、计算机设备将语音片段中用户所说的话的长度与语音片段对应的音频时长的比值确定为语音片段中用户说话的语速值。

步骤a3的技术过程可以使用如下数学语言来表示：

y＝1000×l/t。

其中，y指的是语音片段中用户说话的语速值，l指的是语音片段中用户所说的话的长度，t指的是语音片段对应的音频时长，单位：毫秒。

步骤102、计算机设备根据语音片段中用户说话的语速值获取断句静音时长。

其中，断句静音时长与语音片段中用户说话的语速值负相关，所谓“负相关”指的是：用户说话的语速值越大，断句静音时长越长，用户说话的语速值越小，断句静音时长越短。

由于断句静音时长与用户说话的语速值负相关，因此，断句静音时长能够随着用户说话的语速值的变化而变化，这样，就可以保证断句静音时长不仅能够适应不同的用户，而且，能够适应同一用户的不同说话状态，从而可以提高对语音流进行断句的准确性。

本申请实施例提供了一种可选的获取断句静音时长的方式，该方式为：计算机设备获取沉默字数n，其中，该沉默字数n用于指示在用户沉默n个字数后进行断句，n为正数，通常情况下，该沉默字数n可以由技术人员预先进行设置，在获取了沉默字数n之后，计算机设备可以将沉默字数n与语音片段中用户说话的语速值的比值确定为断句静音时长。用属性公式表示如下：

t＝n/y

其中n为沉默字数，经过试验，其取值可以为2～5。y为步骤a3得到的语速值。

本申请的发明人经过对大量的用户说话的方式进行分析后发现，不同的用户在说相邻的两句话时，其停顿的时长会有所不同，但是，不同的用户在说相邻的两句话时，该相邻两句话之间用户沉默的字数通常是差不多的，正因为相邻两句话之间用户沉默的字数通常是差不多的，因此，对于说话较快的用户(也即是语速值较大的用户)来说，其在说相邻的两句话时，停顿的时长较短，而对于说话较慢的用户(也即是语速值较小的用户)来说，其在说相邻的两句话时，停顿的时长较长。

有鉴于此，本申请实施例可以设置沉默字数n，并将该沉默字数n与语音片段中用户说话的语速值的比值确定为断句静音时长，这样确定的断句静音时长可以适应于不同的用户，因此，可以提高对语音流进行断句的准确性。

步骤103、在检测到目标语音流中静音的时长大于或等于断句静音时长时，计算机设备在该静音处对目标语音流进行断句。

在本申请实施例提供的语音断句方法中，通过从目标语音流中截取语音片段，获取该语音片段中用户说话的语速值，并根据该语速值获取断句静音时长，其中，断句静音时长与该语速值负相关，接着，根据该断句静音时长对目标语音流进行断句，由于断句静音时长是根据用户说话的语速值确定的，因此，对于不同的用户，确定的断句静音时长也不同，这样，就可以保证确定的断句静音时长能够适应不同的用户，从而提高对语音流进行断句的准确性。

请参考图2，在上文所述的实施例的基础上，当目标语音流包括至少两个用户的语音时，计算机设备可以按照下述步骤执行步骤101的技术过程：

步骤1011、从目标语音流中将该至少两个用户的语音进行分离，得到至少两个子语音流。

不同用户的语音的音调高低以及频率大小等声学特性并不相同，因此，步骤1011中，计算机设备可以根据声学特性从目标语音流中将该至少两个用户的语音进行分离，得到至少两个子语音流。

步骤1012、计算机设备从每个子语音流中分别截取语音片段，并获取截取的每个语音片段中用户说话的语速值，得到至少两个语速值。

其中，计算机设备获取截取的每个语音片段中用户说话的语速值的技术过程与上文所述同理，本申请实施例在此不再赘述。

请参考图3，在上文所述的实施例的基础上，当目标语音流包括至少两个用户的语音时，计算机设备可以按照下述步骤执行步骤102的技术过程：

步骤1021、计算机设备根据该至少两个语速值获取估计语速值。

在本申请实施例中，当计算机设备执行了步骤1012的技术过程之后，计算机设备就可以得到至少两个语速值，而后，计算机设备可以执行步骤1021的技术过程，也即是根据得到的至少两个语速值获取估计语速值。

其中，估计语速值是该至少两个语速值的平均值，或者，估计语速值是该至少两个语速值的最大值，或者，估计语速值是该至少两个语速值的最小值。

步骤1022、计算机设备根据估计语速值获取断句静音时长。

其中，断句静音时长与估计语速值负相关。

需要指出的是，计算机设备根据估计语速值获取断句静音时长的技术过程与上文所述的计算机设备根据语音片段中用户说话的语速值获取断句静音时长的技术过程同理，本申请实施例在此不再赘述。

本申请实施例提供了在目标语音流包括至少两个用户的语音时，确定断句静音时长的方式，可以保证在目标语音流包括至少两个用户的语音时，确定的断句静音时长能够适用于该至少两个用户，从而保证对目标语音流进行断句的准确性。

请参考图4，其示出了本申请实施例提供的一种语音断句装置400的框图，该语音断句装置400可以配置于上文所述的计算机设备中。如图4所示，该语音断句装置400可以包括：第一获取模块401、第二获取模块402和断句模块403。

该第一获取模块401，用于从目标语音流中截取语音片段，并获取该语音片段中用户说话的语速值。

该第二获取模块402，用于根据该语音片段中用户说话的语速值获取断句静音时长，该断句静音时长与该语音片段中用户说话的语速值负相关。

该断句模块403，用于在检测到该目标语音流中静音的时长大于或等于该断句静音时长时，在该静音处对该目标语音流进行断句。

在本申请的一个实施例中，第二获取模块402，具体用于：获取沉默字数n，该沉默字数n用于指示在用户沉默n个字数后进行断句，n为正数；将该沉默字数n与该语音片段中用户说话的语速值的比值确定为该断句静音时长。

在本申请的一个实施例中，该目标语音流包括至少两个用户的语音，第一获取模块401，具体用于：从该目标语音流中将该至少两个用户的语音进行分离，得到至少两个子语音流；从每个子语音流中分别截取语音片段，并获取截取的每个语音片段中用户说话的语速值，得到至少两个语速值。

在本申请的一个实施例中，第二获取模块402，具体用于：根据该至少两个语速值获取估计语速值；根据该估计语速值获取该断句静音时长，其中，该断句静音时长与该估计语速值负相关。

在本申请的一个实施例中，该估计语速值是该至少两个语速值的平均值，或者，该估计语速值是该至少两个语速值的最大值，或者，该估计语速值是该至少两个语速值的最小值。

在本申请的一个实施例中，第一获取模块401，包括第一获取子模块、第二获取子模块和确定子模块。

其中，第一获取子模块，用于获取该语音片段中用户所说的话的长度。

第二获取子模块，用于获取该语音片段对应的音频时长。

确定子模块，用于将该语音片段中用户所说的话的长度与该音频时长的比值确定为该语音片段中用户说话的语速值。

在本申请的一个实施例中，第一获取子模块，具体用于：利用语音识别技术，将该语音片段转化为文字片段；获取该文字片段包括的字数，并将该文字片段包括的字数确定为该语音片段中用户所说的话的长度。

在本申请的一个实施例中，第一获取子模块，具体用于：获取该语音片段包括的音节的数量，将该语音片段包括的音节的数量确定为该语音片段中用户所说的话的长度。

本申请实施例提供的语音断句装置，可以实现上述方法实施例，其实现原理和技术效果类似，在此不再赘述。

关于语音断句装置的具体限定可以参见上文中对于语音断句方法的限定，在此不再赘述。上语音断句装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中，也可以以软件形式存储于计算机设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。

在本申请的一个实施例中，提供了一种计算机设备，其内部结构图可以如图5所示。该计算机设备包括通过系统总线连接的处理器和存储器。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统和计算机程序。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机程序被处理器执行时以实现一种语音断句方法。

本领域技术人员可以理解，图5中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备的限定，具体的计算机设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

在本申请的一个实施例中，提供了一种计算机设备，该计算机设备包括存储器和处理器，存储器中存储有计算机程序，该处理器执行计算机程序时实现以下步骤：

在本申请的一个实施例中，处理器执行计算机程序时还实现以下步骤：获取沉默字数n，该沉默字数n用于指示在用户沉默n个字数后进行断句，n为正数；将该沉默字数n与该语音片段中用户说话的语速值的比值确定为该断句静音时长。

该目标语音流包括至少两个用户的语音，在本申请的一个实施例中，处理器执行计算机程序时还实现以下步骤：从该目标语音流中将该至少两个用户的语音进行分离，得到至少两个子语音流；从每个子语音流中分别截取语音片段，并获取截取的每个语音片段中用户说话的语速值，得到至少两个语速值。

在本申请的一个实施例中，处理器执行计算机程序时还实现以下步骤：根据该至少两个语速值获取估计语速值；根据该估计语速值获取该断句静音时长，其中，该断句静音时长与该估计语速值负相关。

在本申请的一个实施例中，处理器执行计算机程序时还实现以下步骤：获取该语音片段中用户所说的话的长度；获取该语音片段对应的音频时长；将该语音片段中用户所说的话的长度与该音频时长的比值确定为该语音片段中用户说话的语速值。

在本申请的一个实施例中，处理器执行计算机程序时还实现以下步骤：利用语音识别技术，将该语音片段转化为文字片段；获取该文字片段包括的字数，并将该文字片段包括的字数确定为该语音片段中用户所说的话的长度。

在本申请的一个实施例中，处理器执行计算机程序时还实现以下步骤：获取该语音片段包括的音节的数量，将该语音片段包括的音节的数量确定为该语音片段中用户所说的话的长度。

本申请实施例提供的计算机设备，其实现原理和技术效果与上述方法实施例类似，在此不再赘述。

在本申请的一个实施例中，提供了一种计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器执行时实现以下步骤：

在本申请的一个实施例中，计算机程序被处理器执行时还实现以下步骤：获取沉默字数n，该沉默字数n用于指示在用户沉默n个字数后进行断句，n为正数；将该沉默字数n与该语音片段中用户说话的语速值的比值确定为该断句静音时长。

该目标语音流包括至少两个用户的语音，在本申请的一个实施例中，计算机程序被处理器执行时还实现以下步骤：从该目标语音流中将该至少两个用户的语音进行分离，得到至少两个子语音流；从每个子语音流中分别截取语音片段，并获取截取的每个语音片段中用户说话的语速值，得到至少两个语速值。

在本申请的一个实施例中，计算机程序被处理器执行时还实现以下步骤：根据该至少两个语速值获取估计语速值；根据该估计语速值获取该断句静音时长，其中，该断句静音时长与该估计语速值负相关。

在本申请的一个实施例中，计算机程序被处理器执行时还实现以下步骤：获取该语音片段中用户所说的话的长度；获取该语音片段对应的音频时长；将该语音片段中用户所说的话的长度与该音频时长的比值确定为该语音片段中用户说话的语速值。

在本申请的一个实施例中，计算机程序被处理器执行时还实现以下步骤：利用语音识别技术，将该语音片段转化为文字片段；获取该文字片段包括的字数，并将该文字片段包括的字数确定为该语音片段中用户所说的话的长度。

在本申请的一个实施例中，计算机程序被处理器执行时还实现以下步骤：获取该语音片段包括的音节的数量，将该语音片段包括的音节的数量确定为该语音片段中用户所说的话的长度。

本实施例提供的计算机可读存储介质，其实现原理和技术效果与上述方法实施例类似，在此不再赘述。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(rom)、可编程rom(prom)、电可编程rom(eprom)、电可擦除可编程rom(eeprom)或闪存。易失性存储器可包括随机存取存储器(ram)或者外部高速缓冲存储器。作为说明而非局限，ram以多种形式可得，诸如静态ram(sram)、动态ram(dram)、同步dram(sdram)、双数据率sdram(ddrsdram)、增强型sdram(esdram)、同步链路(synchlink)dram(sldram)、存储器总线(rambus)直接ram(rdram)、直接存储器总线动态ram(drdram)、以及存储器总线动态ram(rdram)等。

以上所述实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对申请专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请专利的保护范围应以所附权利要求为准。

技术特征：

1.一种语音断句方法，其特征在于，所述方法包括：

从目标语音流中截取语音片段，并获取所述语音片段中用户说话的语速值；

根据所述语音片段中用户说话的语速值获取断句静音时长，所述断句静音时长与所述语音片段中用户说话的语速值负相关；

在检测到所述目标语音流中静音的时长大于或等于所述断句静音时长时，在所述静音处对所述目标语音流进行断句。

2.根据权利要求1所述的方法，其特征在于，所述根据所述语音片段中用户说话的语速值获取断句静音时长，包括：

获取沉默字数n，所述沉默字数n用于指示在用户沉默n个字数后进行断句，n为正数；

将所述沉默字数n与所述语音片段中用户说话的语速值的比值确定为所述断句静音时长。

3.根据权利要求1所述的方法，其特征在于，所述目标语音流包括至少两个用户的语音，所述从目标语音流中截取语音片段，并获取所述语音片段中用户说话的语速值，包括：

从所述目标语音流中将所述至少两个用户的语音进行分离，得到至少两个子语音流；

从每个子语音流中分别截取语音片段，并获取截取的每个语音片段中用户说话的语速值，得到至少两个语速值。

4.根据权利要求3所述的方法，其特征在于，所述根据所述语音片段中用户说话的语速值获取断句静音时长，包括：

根据所述至少两个语速值获取估计语速值；

根据所述估计语速值获取所述断句静音时长，其中，所述断句静音时长与所述估计语速值负相关。

5.根据权利要求4所述的方法，其特征在于，所述估计语速值是所述至少两个语速值的平均值，或者，所述估计语速值是所述至少两个语速值的最大值，或者，所述估计语速值是所述至少两个语速值的最小值。

6.根据权利要求1所述的方法，其特征在于，所述获取所述语音片段中用户说话的语速值，包括：

获取所述语音片段中用户所说的话的长度；

获取所述语音片段对应的音频时长；

将所述语音片段中用户所说的话的长度与所述音频时长的比值确定为所述语音片段中用户说话的语速值。

7.根据权利要求6所述的方法，其特征在于，所述获取所述语音片段中用户所说的话的长度，包括：

利用语音识别技术，将所述语音片段转化为文字片段；

获取所述文字片段包括的字数，并将所述文字片段包括的字数确定为所述语音片段中用户所说的话的长度。

8.根据权利要求6所述的方法，其特征在于，所述获取所述语音片段中用户所说的话的长度，包括：

获取所述语音片段包括的音节的数量，将所述语音片段包括的音节的数量确定为所述语音片段中用户所说的话的长度。

9.一种语音断句装置，其特征在于，所述装置包括：

第一获取模块，用于从目标语音流中截取语音片段，并获取所述语音片段中用户说话的语速值；

第二获取模块，用于根据所述语音片段中用户说话的语速值获取断句静音时长，所述断句静音时长与所述语音片段中用户说话的语速值负相关；

断句模块，用于在检测到所述目标语音流中静音的时长大于或等于所述断句静音时长时，在所述静音处对所述目标语音流进行断句。

10.一种计算机设备，其特征在于，包括存储器和处理器，所述存储器存储有计算机程序，其特征在于，所述计算机程序被所述处理器执行时实现如权利要求1至8任一所述的语音断句方法。

11.一种计算机可读存储介质，其特征在于，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现如权利要求1至8任一所述的语音断句方法。

技术总结

本申请公开了一种语音断句方法、装置、设备及存储介质，属于人工智能领域。所述方法包括：从目标语音流中截取语音片段，并获取该语音片段中用户说话的语速值；根据该语音片段中用户说话的语速值获取断句静音时长，该断句静音时长与该语音片段中用户说话的语速值负相关；在检测到该目标语音流中静音的时长大于或等于该断句静音时长时，在该静音处对该目标语音流进行断句。本申请实施例提供的技术方案解决了语音流断句准确性较低的问题。

技术研发人员：常纯;杨阳;谢立强;吴悦;刘云峰;汶林丁

受保护的技术使用者：深圳追一科技有限公司

技术研发日：.09.26

技术公布日：.01.10

本内容不代表本网观点和政治立场，如有侵犯你的权益请联系我们处理。

网友评论

网友评论仅供其表达个人看法，并不表明网站立场。