第一句子网 > 语音断句的方法装置和存储介质与流程

语音断句的方法装置和存储介质与流程

时间：2023-11-28 00:27:33

相关推荐

语音断句的方法装置和存储介质与流程

本申请涉及自然语言处理

技术领域：

，尤其涉及一种语音断句的方法、装置和存储介质。

背景技术：

：语音断句，通常应用在对接收到的实时语音断句的场景中。对语音进行和准确的断句，是获取语音准确的语义的前提。例如，在同声传译系统需要对实时获取的语音进行断句，使得翻译系统能够获取实时语音的准确的语义，以进行正确翻译。目前，对语音进行断句的方式通常是先把语音转化成文本进行断句处理，以根据文本的断句结果，对该语音进行断句。现有技术中，对语音转化成的文本进行断句的方式为：获取一段完整的语音对应的文本，根据该文本的语义确定文本的断句位置。该种方式应用在同声传译的场景中时，需要获取完整的语音才能实现语音的断句，造成较大的时延。技术实现要素：本申请提供一种语音断句的方法、装置和存储介质，能够对语音进行断句，减少时延。本申请的第一方面提供一种语音断句的方法，包括：获取待断句语音对应的文本；采用断句模型，确定所述文本的断句位置，以及所述文本的断句位置的可信度，所述断句模型用于表征文本与断句位置、断句位置的可信度的对应关系；若确定所述文本的断句位置的可信度大于阈值，则根据所述文本的断句位置，对所述待断句语音进行断句。可选的，所述待断句语音为第一语音，所述方法还包括：若确定所述文本中不存在断句位置，或确定所述文本的断句位置的可信度小于所述阈值，则将所述第一语音和所述第一语音之后的第二语音作为所述待断句语音，并重新对所述待断句语音进行断句操作，所述第二语音对应的文本包括预设数量个单词。可选的，所述方法还包括：使用历史语音对应的文本对语言模型进行训练，获取所述断句模型。可选的，所述获取所述断句模型，包括：根据所述历史语音对应的文本，获取训练语句序列，所述训练语句序列中包括多个训练语句，后一个训练语句包括：前一个训练语句、且相较于前一个训练语句增加至少一个单词；根据每个所述训练语句，以及每个所述训练语句的期望断句位置对所述语言模型进行训练，获取所述断句模型，所述断句模型输出的每个所述训练语句的实际断句位置与期望断句位置相同。可选的，所述语言模型是基于BERT框架训练获取的。可选的，所述预设数量个单词为一个单词。可选的，所述待断句语音为同声传译场景中获取的待断句的实时语音。本申请的第二方面提供一种语音断句的装置，包括：处理模块，用于获取待断句语音对应的文本；采用断句模型，确定所述文本的断句位置，以及所述文本的断句位置的可信度，所述断句模型用于表征文本与断句位置、断句位置的可信度的对应关系；若确定所述文本的断句位置的可信度大于阈值，则根据所述文本的断句位置，对所述待断句语音进行断句。可选的，所述待断句语音为第一语音，所述处理模块，还用于若确定所述文本中不存在断句位置，或确定所述文本的断句位置的可信度小于所述阈值，则将所述第一语音和所述第一语音之后的第二语音作为所述待断句语音，并重新对所述待断句语音进行断句操作，所述第二语音对应的文本包括预设数量个单词。可选的，所述装置还包括：训练模块；所述训练模块，用于使用历史语音对应的文本对语言模型进行训练，获取所述断句模型。可选的，所述训练模块，具体用于根据所述历史语音对应的文本，获取训练语句序列，所述训练语句序列中包括多个训练语句，后一个训练语句包括：前一个训练语句、且相较于前一个训练语句增加至少一个单词；根据每个所述训练语句，以及每个所述训练语句的期望断句位置对所述语言模型进行训练，获取所述断句模型，所述断句模型输出的每个所述训练语句的实际断句位置与期望断句位置相同。可选的，所述语言模型是基于BERT框架训练获取的。可选的，所述预设数量个单词为一个单词。可选的，所述待断句语音为同声传译场景中获取的待断句的实时语音。本申请的第三方面提供一种语音断句的装置，包括：至少一个处理器和存储器；所述存储器存储计算机执行指令；所述至少一个处理器执行所述存储器存储的计算机执行指令，使得所述语音断句的装置执行上述语音断句的方法。本申请的第四方面提供一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机执行指令，当所述计算机执行指令被处理器执行时，实现上述语音断句的方法。本申请提供一种语音断句的方法、装置和存储介质，该方法包括：获取待断句语音对应的文本；采用断句模型，确定所述文本的断句位置，以及所述文本的断句位置的可信度，所述断句模型用于表征文本与断句位置、断句位置的可信度的对应关系；若确定所述文本的断句位置的可信度大于阈值，则根据所述文本的断句位置，对所述待断句语音进行断句。本实施例中通过预先获取的断句模型，能够实现实时对待断句语音进行断句，减少了时延。附图说明图1为本申请提供的语音断句的方法的流程示意图一；图2为本申请提供的语音断句的方法的流程示意图二；图3为本申请提供的语音断句的装置的结构示意图一；图4为本申请提供的语音断句的装置的结构示意图二。具体实施方式为使本申请的目的、技术方案和优点更加清楚，下面将结合本申请的实施例，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。为了更为清楚地说明本申请提供的语音断句的方法，下述对现有技术中的语音断句方法进行简要介绍。应理解，下述以同声传译场景进行示例说明。同声传译场景中，同声传译装置可以获取用户的实时语音，并将实时语音转化为文本进行断句，根据文本的断句结果对实时语音进行断句，进而对断句后的语音进行翻译。例如，实时语音对应的文本为“Asyoucanseetheimages”，现有的断句方式根据该文本的语义无法对该文本进行断句，需要获取完整的语音对应的文本才能进行断句。如，继续获取用户的语音对应的文本为“arenotreallyspecial”。该完整的语音对应的文本为“Asyoucanseetheimagesarenotreallyspecial”。因此，对该完整的语音对应的文本断句为“Asyoucansee,theimagesarenotreallyspecial.”。应理解，对文本进行断句即为获取文本最佳的加入标点符号的位置。上述中对文本为英文文本进行示例说明，对应的断句的标点符号为英文文本对应的标点符号，本申请提供的语音断句的方法对应用的文本的类型不做限制。在同声传译的场景中，若获取完整的语音才能完成断句，则用户需要等待较长时间才能获取到翻译结果。为了解决上述语音断句产生的时延较大的问题，本申请提供一种语音断句的方法，通过预先训练的断句模型，可以对实时确定语音对应的文本的断句位置，进而达到减少时延的目的。图1为本申请提供的语音断句的方法的流程示意图一。本申请中的语音断句的方法的执行主体可以为语音断句的装置，该语音断句的装置可由任意的软件和/或硬件实现。如图1所示，本实施例提供的语音断句的方法可以包括：S101，获取待断句语音对应的文本。根据应用场景的不同，本实施例中的待断句语音不同。本实施例中的语音断句的方法可以应用在同声传译场景中，对应的，待断句的语音可以为同声传译系统中集成的语音断句的装置实时接收到的语音。本实施例中的语音断句的方法还可以应用在对预先录制的语音进行播放、实时翻译的场景中，语音断句的装置可以集成在翻译系统中，对应的，待断句语音可以为预先录制的语音。应理解，本实施例中的待断句语音还可以为其他场景中，需要断句的、语音断句的装置实时接收的语音。本实施例中的语音断句的装置也可以单独设置，本实施例对此不作限制。本实施例中在接收到待断句语音后，需要对待断句语音对应的文本进行识别，获取待断句语音对应的文本。可选的，本实施例中可以对待断句语音进行分帧处理，采用预先训练的声学模型获取每帧语音对应的语音状态，其中，声学模型用于表征每帧语音的特征和每帧语音的语音状态的对应关系。对应的，每三个语音状态可以组合成一个音素，若干个音素可以组合成一个单词。据此，将待断句语音输入至声学模型中，就可以获取该待断句语音对应的文本。应理解，本实施例中还可以采用其他方式对待断句语音进行识别，获取待断句语音对应的文本。应理解，本实施例中的待断句语音为同声传译场景中获取的待断句的实时语音。即当用户开始讲话时，语音断句的装置即获取待断句语音对应的文本。例如，用户说出“as”时，待断句语音对应的文本为“as”；当用户继续说出“asyou”时，待断句语音对应的文本为“asyou”。S102，采用断句模型，确定文本的断句位置，以及文本的断句位置的可信度，断句模型用于表征文本与断句位置、断句位置的可信度的对应关系。本实施例中可以采用断句模型确定文本的断句位置，以及文本的断句位置的可信度。其中，断句模型可以基于神经网络、向量机、贝叶斯等方法获取。其中，断句模型用于表征文本与断句位置、断句位置的可信度的对应关系。即本实施例中可以将待断句语音对应的文本输入至断句模型，以使断句模型对文本进行处理，获取文本的断句位置，以及文本的断句位置的可信度。示例性的，当待断句语音对应的文本为“as”时，本实施例中采用断句模型对确定“as”断句位置，以及文本的断句位置的可信度；当待断句语音对应的文本为“asyou”，本实施例中采用断句模型对确定“asyou”断句位置，以及文本的断句位置的可信度。S103，若确定文本的断句位置的可信度大于阈值，则根据文本的断句位置，对待断句语音进行断句。本实施例中预先设置有阈值。在获取文本的断句位置的可信度后可以与该阈值进行比较，若确定文本的断句位置的可信度大于阈值，则确定需要在该断句位置处对文本进行断句。对应的，根据文本的断句位置，对待断句语音进行断句。可选的，可以根据文本与待断句语音的对应关系，确定待断句语音的断句位置，进而实现对待断句语音的断句。示例性的，如待断句语音对应的文本为“asyoucansee”。若确定该文本的断句位置为该文本的结尾处，且确定断句位置结尾处的可信度大于阈值，则根据该文本在结尾处的断句位置确定该文本对应的待断句语音的断句位置，也为“see”之后，则实现对待断句语音的断句。可选的，若根据断句模型确定文本中不存在断句位置，或确定文本的断句位置的可信度小于阈值，则本实施例中可以将待断句语音作为第一语音，并将第一语音和第一语音之后的第二语音作为待断句语音，重新对待断句语音进行断句操作。示例性的，当待断句语音对应的文本为“asyou”时，根据断句模型确定该文本中不存在断句位置，或者确定断句位置在文本结尾处的概率小于阈值，或者确定断句位置在“as”后的概率小于阈值，则将该待断句语音作为第一语音，继续获取第一语音之后的第二语音，如“cansee”，将第一语音和第一语音之后的第二语音作为待断句语音。对应的，待断句语音对应的文本为“asyoucansee”，重新采用断句模型对待断句语音，即“asyoucansee”进行断句操作。本实施例中的第二语音对应的文本包括预设数量个单词，该预设数量可以预先设置，可以为一个单词、两个单词……N个单词等，应理解，为了减少对待断句语音断句的时延，预设数量个单词应设置在预设范围内，以使用户感受不到停顿、延迟为准。示例性的，第一语音和第一语音之后的第二语音作为待断句语音对应的文本可以为“asyoucan”或“asyoucansee”。应理解，本实施例中的单词为汉语文字中的一个字、英文文字中的一个单词。可选的，本实施例中为了最大程度的减少时延，可以将预设数量个单词设置为一个单词，即第二语音对应的文本为一个单词。也就是说，每接收到用户说出的一个单词，就采用断句模型对对应的待断句语音进行断句。可以想到的是，后一次进行断句的待断句语音对应的文本，相较于后一次进行断句的待断句语音对应的文本来说，多了一个单词。对应的，对第一语音和第一语音之后的第二语音作为待断句语音，对待断句语音对应的文本进行断句操作的过程与上述“待断句语音”的断句过程相同。即，第一语音和第一语音之后的第二语音为待断句语音时，若采用断句模型，确定待断句语音对应的文本中不存在断句位置，或确定文本的断句位置的可信度小于阈值，需要继续获取第二语音之后的第三语音，将第一语音、第二语音和第三语音作为待断句语音，继续进行断句的操作，该过程是循环的过程，直至确定待断句语音对应的文本中的断句位置的可信度大于阈值。例如，如下表一所示，表一中的左栏为待断句语音对应的文本，应理解，该待断句语音对应的文本为实时确定的不同时刻的待断句语音。右栏为断句模型输出的断句位置，以及断句位置对应的可信度。表一待断句语音对应的文本断句位置和断句位置的可信度asφasyouφasyoucan0(0.3)asyoucansee0(0.8)应注意，上述表一中的φ表示待断句语音对应的文本中不存在断句位置；0表示断句位置在待断句语音对应的文本中的结尾处，括号中的数字表示断句位置的可信度。应理解，上述表一种的表示符号均为示例，也可采用其他符号进行表示。对应的，如表一所示，若第一语音对应的文本为“asyou”，采用断句模型确定该文本中不存在断句位置，则继续获取第二语音“can”。此时，待断句语音对应的文本为“asyoucan”，采用断句模型确定该文本中的断句位置为文本的结尾处，且断句位置的可信度为0.3，而阈值为0.5，则继续获取第三语音“see”。此时，待断句语音对应的文本为“asyoucansee”，采用断句模型确定该文本中的断句位置为文本的结尾处，且断句位置的可信度为0.8，则确定文本的断句位置为该文本的结尾处；可选的，若采用断句模型确定“asyoucansee”的断句位置为“see”的后面，且断句位置的可信度为0.3，则需要继续获取待断句语音，直至确定待断句语音对应的文本中的断句位置的可信度大于阈值。应理解，在确定待断句语音对应的文本中的断句位置的可信度大于阈值后，若待断句语音之后还存在待断句语音，则采用与上述相同的方法继续对新的待断句语音进行断句。本实施例中提供的语音断句的方法包括：获取待断句语音对应的文本；采用断句模型，确定文本的断句位置，以及文本的断句位置的可信度，断句模型用于表征文本与断句位置、断句位置的可信度的对应关系；若确定文本的断句位置的可信度大于阈值，则根据文本的断句位置，对待断句语音进行断句。本实施例中通过预先获取的断句模型，能够实现实时对待断句语音进行断句，减少了时延。进一步的，在确定待断句语音对应的文本中不存在断句位置，或确定文本的断句位置的可信度小于阈值，则将第一语音和第一语音之后的第二语音作为待断句语音，并重新对待断句语音进行断句操作，且第二语音对应的文本包括预设数量个单词。本实施例中还可以实时参考待断句语音之后的单词重新进行断句操作，因为能够参考待断句语音之后的单词，可以提高断句的准确性。在上述实施例的基础上，下面结合图2对本申请中的断句模型进行详细说明。图2为本申请提供的语音断句的方法的流程示意图二。如图2所示，本实施例提供的语音断句的方法可以包括：S201，使用历史语音对应的文本对语言模型进行训练，获取断句模型。语言模型广泛应用于各种自然语言处理问题，如语音识别、机器翻译、分词、词性标注，等等。简单地说，采用语言模型，可以确定哪个句子的翻译结果的可信度高，或者给定若干个词，可以预测下一个最可能出现的单词。例如，输入拼音串为“nixianzaiganshenme”nixianzaiganshenme，对应的输出可以有多种形式，如“你现在干什么”、“你西安再赶什么”等，采用语言模型，可以确定前者的概率大于后者，因此将输入的拼音串转换成前者在多数情况下比较合理。再例如，输入汉语句子为“李明正在家里看电视”，对应的输出可以有多种形式，如“LiMingiswatchingTVathome”、“LiMingathomeiswatchingTV”等，同样采用语言模型，可以确定前者的大于后者，因此翻译成前者比较合理。本实施例中的语言模型是基于BERT框架训练获取的。BERT框架实际上是一个语言编码器，把输入的句子或者段落转化成特征向量(embedding)。本实施例中，基于BERT框架训练模型的过程整体分为两部分：1、预训练过程。预训练过程是一个迁移学习的任务的过程，目的是学习输入句子的向量。本实施例中可以将大量的语言文本输入至该于BERT框架进行训练，获取语言模型，其中，大量的语言文本可以是语音断句的装置从其他开源的服务器或者数据库中获取的语言文本。2微调过程。基于少量监督学习样本对语言模型进行微调训练，获取断句模型。因为过程用少量的样本即可确定断句模型，使得训练时间短，获取模型的速度快。本实施例中，将历史语音对应的文本作为监督学习样本对对语言模型进行训练，获取断句模型。可选的，历史语音对应的文本可以为至少一段历史语音对应的文本。下述以一段文本对对语言模型进行训练的过程进行示例说明。本实施例中根据历史语音对应的文本，获取训练语句序列。其中，训练语句序列中包括多个训练语句，后一个训练语句包括：前一个训练语句、且相较于前一个训练语句增加至少一个单词。应理解，训练语句序列可以按照训练语句中单词的个数递增的方式进行排列。可选的，本实施例中可以对历史语音对应的文本按照单词进行划分，将第一个单词作为第一个训练语句，将前两个单词组合形成第二个训练语句，将前三个单词组合形成第二个训练语句……，依次类推，获取训练语句序列中的多个训练语句。对应的，在获取多个训练语句后，可以根据每个训练语句，以及每个训练语句的期望断句位置对语言模型进行训练，获取断句模型。本实施例中最终训练获取的断句模型输出的每个训练语句的实际断句位置与期望断句位置相同。示例性的，历史语音对应的文本为“Asyoucansee,theimagesarenotreallyspecial.Butcombinedtheycancreatesomethinglikethis.”。相应的，该文本对应的多个训练语句可以分别依次为“as”、“asyou”、“asyoucan”……“asyoucansee,theimagesarenotreallyspecial.Butcombinedtheycancreatesomethinglikethis”。例如，下表二的左栏为训练语句。本实施例中以断句位置为在文本中打句号的位置为例对获取断句模型进行说明。表二其中，上述表二中的1表示断句位置在待断句语音对应的文本中的结尾的前一个单词的后面，2表示断句位置在待断句语音对应的文本中的结尾的前两个单词的后面，3表示断句位置在待断句语音对应的文本中的结尾的前三个单词的后面。对应的，本实施例中可以将历史语音对应的文本，以及上述表二中对应的信息输入至语言模型中，对语言模型进行训练，获取断句模型。应理解，本实施例中的S201为预先执行的步骤，并非每次对待断句语音进行断句时必须执行的步骤。可选的，本实施例中在对待断句语音进行断句后，可以将待断句语音、待断句语音对应的文本，以及断句结果输入至断句模型中，对断句模型进行优化，使得断句模型的输出结果更为准确。S202，获取待断句语音对应的文本。S203，采用断句模型，确定文本的断句位置，以及文本的断句位置的可信度。S204，若确定文本的断句位置的可信度大于阈值，则根据文本的断句位置，对待断句语音进行断句。S205，若确定文本中不存在断句位置，或者确定文本中的断句位置的可信度小于阈值，则将所述第一语音和所述第一语音之后的第二语音作为所述待断句语音，并重新执行S202-S204。其中，所述第二语音对应的文本包括预设数量个单词，所述第一语音上述S202中的待断句语音。应理解，本实施例中，若确定文本中不存在断句位置，或者确定文本中的断句位置的可信度小于阈值时，也可以参照上述实施例中的相关描述在本实施例中执行对应的操作。对应的，本实施例中的S202-S204可以参照上述实施例中的相关描述，在此不做限制。其中，S204和S205没有先后顺序的区分，二者是择一执行的步骤。本实施例中，通过在基于BERT框架训练获取的语言模型的训练，获取断句模型，其中采用BERT框架由于训练样本的数据量少，能够快速完成训练，提高获取断句模型的速度；进一步的，本实施例中对历史语音对应的文本拆分成多个训练语句，后一个训练语句包括：前一个训练语句、且相较于前一个训练语句增加至少一个单词，在该方式下训练获取的断句模型能够有效确定待断句语音的断句位置，达到实时对语音断句的目的。图3为本申请提供的语音断句的装置的结构示意图一。如图3所示，该语音断句的装置300包括：处理模块301和训练模块302。处理模块301，用于获取待断句语音对应的文本；采用断句模型，确定文本的断句位置，以及文本的断句位置的可信度，断句模型用于表征文本与断句位置、断句位置的可信度的对应关系；若确定文本的断句位置的可信度大于阈值，则根据文本的断句位置，对待断句语音进行断句。可选的，待断句语音为第一语音，处理模块301，还用于若确定文本中不存在断句位置，或确定文本的断句位置的可信度小于阈值，则将第一语音和第一语音之后的第二语音作为待断句语音，并重新对待断句语音进行断句操作，第二语音对应的文本包括预设数量个单词。训练模块302，用于使用历史语音对应的文本对语言模型进行训练，获取断句模型。可选的，训练模块302，具体用于根据历史语音对应的文本，获取训练语句序列，训练语句序列中包括多个训练语句，后一个训练语句包括：前一个训练语句、且相较于前一个训练语句增加至少一个单词；根据每个训练语句，以及每个训练语句的期望断句位置对语言模型进行训练，获取断句模型，断句模型输出的每个训练语句的实际断句位置与期望断句位置相同。可选的，语言模型是基于BERT框架训练获取的。可选的，预设数量个单词为一个单词。可选的，待断句语音为同声传译场景中获取的待断句的实时语音。本实施例提供的语音断句的装置与上述语音断句的方法实现的原理和技术效果类似，在此不作赘述。图4为本申请提供的语音断句的装置的结构示意图二。如图4所示，该语音断句的装置400包括：存储器401和至少一个处理器402。存储器401，用于存储程序指令。处理器402，用于在程序指令被执行时实现本实施例中的语音断句的方法，具体实现原理可参见上述实施例，本实施例此处不再赘述。该语音断句的装置400还可以包括及输入/输出接口403。输入/输出接口403可以包括独立的输出接口和输入接口，也可以为集成输入和输出的集成接口。其中，输出接口用于输出数据，输入接口用于获取输入的数据。本申请还提供一种可读存储介质，可读存储介质中存储有执行指令，当语音断句的装置的至少一个处理器执行该执行指令时，当计算机执行指令被处理器执行时，实现上述实施例中的语音断句的方法。本申请还提供一种程序产品，该程序产品包括执行指令，该执行指令存储在可读存储介质中。语音断句的装置的至少一个处理器可以从可读存储介质读取该执行指令，至少一个处理器执行该执行指令使得语音断句的装置实施上述的各种实施方式提供的语音断句的方法。在本申请所提供的几个实施例中，应该理解到，所揭露的装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述模块的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个模块或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或模块的间接耦合或通信连接，可以是电性，机械或其它的形式。所述作为分离部件说明的模块可以是或者也可以不是物理上分开的，作为模块显示的部件可以是或者也可以不是物理模块，即可以位于一个地方，或者也可以分布到多个网络模块上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。另外，在本申请各个实施例中的各功能模块可以集成在一个处理模块中，也可以是各个模块单独物理存在，也可以两个或两个以上模块集成在一个模块中。上述集成的模块既可以采用硬件的形式实现，也可以采用硬件加软件功能模块的形式实现。上述以软件功能模块的形式实现的集成的模块，可以存储在一个计算机可读取存储介质中。上述软件功能模块存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)或处理器(英文：processor)执行本申请各个实施例所述方法的部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(英文：Read-OnlyMemory，简称：ROM)、随机存取存储器(英文：RandomAccessMemory，简称：RAM)、磁碟或者光盘等各种可以存储程序代码的介质。在上述网络设备或者终端设备的实施例中，应理解，处理模块可以是中央处理单元(英文：CentralProcessingUnit，简称：CPU)，还可以是其他通用处理器、数字信号处理器(英文：DigitalSignalProcessor，简称：DSP)、专用集成电路(英文：ApplicationSpecificIntegratedCircuit，简称：ASIC)等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合本申请所公开的方法的步骤可以直接体现为硬件处理器执行完成，或者用处理器中的硬件及软件模块组合执行完成。最后应说明的是：以上各实施例仅用以说明本申请的技术方案，而非对其限制；尽管参照前述各实施例对本申请进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分或者全部技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本申请各实施例技术方案的范围。当前第1页1 2 3

技术特征：

1.一种语音断句的方法，其特征在于，包括：

获取待断句语音对应的文本；

采用断句模型，确定所述文本的断句位置，以及所述文本的断句位置的可信度，所述断句模型用于表征文本与断句位置、断句位置的可信度的对应关系；

若确定所述文本的断句位置的可信度大于阈值，则根据所述文本的断句位置，对所述待断句语音进行断句。

2.根据权利要求1所述的方法，其特征在于，所述待断句语音为第一语音，所述方法还包括：

若确定所述文本中不存在断句位置，或确定所述文本的断句位置的可信度小于所述阈值，则将所述第一语音和所述第一语音之后的第二语音作为所述待断句语音，并重新对所述待断句语音进行断句操作，所述第二语音对应的文本包括预设数量个单词。

3.根据权利要求1或2所述的方法，其特征在于，所述方法还包括：

使用历史语音对应的文本对语言模型进行训练，获取所述断句模型。

4.根据权利要求3所述的方法，其特征在于，所述获取所述断句模型，包括：

根据所述历史语音对应的文本，获取训练语句序列，所述训练语句序列中包括多个训练语句，后一个训练语句包括：前一个训练语句、且相较于前一个训练语句增加至少一个单词；

根据每个所述训练语句，以及每个所述训练语句的期望断句位置对所述语言模型进行训练，获取所述断句模型，所述断句模型输出的每个所述训练语句的实际断句位置与期望断句位置相同。

5.根据权利要求3所述的方法，其特征在于，所述语言模型是基于BERT框架训练获取的。

6.根据权利要求2所述的方法，其特征在于，所述预设数量个单词为一个单词。

7.根据权利要求1所述的方法，其特征在于，所述待断句语音为同声传译场景中获取的待断句的实时语音。

8.一种语音断句的装置，其特征在于，包括：

处理模块，用于获取待断句语音对应的文本，并采用断句模型，确定所述文本的断句位置，以及所述文本的断句位置的可信度，所述断句模型用于表征文本与断句位置、断句位置的可信度的对应关系；若确定所述文本的断句位置的可信度大于阈值，则根据所述文本的断句位置，对所述待断句语音进行断句。

9.一种语音断句的装置，其特征在于，包括：至少一个处理器和存储器；

所述存储器存储计算机执行指令；

所述至少一个处理器执行所述存储器存储的计算机执行指令，使得所述语音断句的装置执行权利要求1-7任一项所述的方法。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有计算机执行指令，当所述计算机执行指令被处理器执行时，实现权利要求1-7任一项所述的方法。

技术总结

本申请提供一种语音断句的方法、装置和存储介质，该方法包括：获取待断句语音对应的文本；采用断句模型，确定所述文本的断句位置，以及所述文本的断句位置的可信度，所述断句模型用于表征文本与断句位置、断句位置的可信度的对应关系；若确定所述文本的断句位置的可信度大于阈值，则根据所述文本的断句位置，对所述待断句语音进行断句。本实施例提供的方法中通过预先获取的断句模型，能够实现实时对待断句语音进行断句，减少了时延。

技术研发人员：张睿卿;熊皓;张传强;何中军;李芝;吴华;王海峰

受保护的技术使用者：北京百度网讯科技有限公司

技术研发日：.05.30

技术公布日：.09.20

本内容不代表本网观点和政治立场，如有侵犯你的权益请联系我们处理。

网友评论

网友评论仅供其表达个人看法，并不表明网站立场。