第一句子网 > 语音库的语音获取方法装置电子设备及存储介质与流程

语音库的语音获取方法装置电子设备及存储介质与流程

时间：2020-08-17 07:45:55

本发明一般地涉及语音识别

技术领域：

，特别是涉及一种语音库的语音获取方法、语音库的语音获取装置、电子设备及计算机存储介质。

背景技术：

：目前在制作语音库的录音文件时，录音人根据原始文本通过控制录音工具的录音按钮进行录音。在原始文本全部录音完成后，再将原始文本对应的录音进行校验。根据校验结果判断是否重新获取录音文件。在实际录音过程中生成的日志，由于获取的录音文件中的上一句录音结束和下一句开始之间的无效录音时间较长，导致制作语音库的时间周期长，语音的录制效率低且成本高。技术实现要素：为了解决现有技术中存在的上述问题，本发明提供一种语音库的语音获取方法、装置、电子设备及存储介质。第一方面，本发明实施例提供一种语音库的语音获取方法，包括：获取原始文本，其中原始文本包括一个或多个语句文本；基于原始文本，实时获取当前语句文本的语音，并通过语音识别模型对语音进行语音识别；通过静音检测，确定语音完成录音；将完成录音后的语音进行测评，并根据测评结果判断语音是否合格；若合格，则获取下一语句文本的语音；若不合格，则重新获取当前语句文本的语音。在一实施例中，将完成录音后的语音进行测评，并根据测评结果判断语音是否合格，包括：通过语音识别模型，得到语音的识别文本；基于识别文本和当前语句文本进行测评，得到识别准确率；基于识别准确率，判断语音是否合格。在另一实施例中，通过静音检测，确定语音完成录音，还包括：通过静音检测，得到语音的时长；将完成录音后的语音进行测评，并根据测评结果判断语音是否合格，还包括：基于当前语句文本和得到的时长，得到语音的语速；基于识别准确率和语速进行测评，并根据测评结果判断语音是否合格。在又一实施例中，基于识别准确率和语速进行测评，并根据测评结果判断语音是否合格，包括：基于识别准确率，得到第一因子；基于语速与预设值，得到第二因子；根据识别准确率，确定第一因子对应的第一权重和第二因子对应的第二权重；根据第一因子、第一权重、第二因子及第二权重，得到语音决策值；基于语音决策值和预设阈值进行测评，并根据测评结果判断语音是否合格。在一实施例中，通过静音检测，得到语音的时长，还包括：通过静音检测，判断静音时间是否超过静音阈值；若超过静音阈值，则发出提醒信息；若未超过静音阈值，则实时获取当前语句文本的语音。第二方面，本发明实施例提供一种语音库的语音获取装置，包括：获取模块，用于获取原始文本，其中原始文本包括一个或多个语句文本；获取模块还用于获取当前语句文本的语音；语音识别模块，用于基于原始文本和当前语句文本的语音，并通过语音识别模型对语音进行语音识别；静音检测模块，用于通过静音检测，确定语音完成录音；判断模块，用于将完成录音后的语音进行测评，并根据测评结果判断语音是否合格；若合格，则通过获取模块获取下一语句文本的语音；若不合格，则通过获取模块重新获取当前语句文本的语音。在一实施例中，判断模块采用下述方式将完成录音后的语音进行测评，并根据测评结果判断语音是否合格：通过语音识别模型，得到语音的识别文本；基于识别文本和当前语句文本进行测评，得到识别准确率；基于识别准确率，判断语音是否合格。在另一实施例中，静音检测模块还用于：通过静音检测，得到语音的时长；判断模块还用于：基于当前语句文本和得到的时长，得到语音的语速；基于识别准确率和语速进行测评，并根据测评结果判断语音是否合格。在又一实施例中，判断模块采用下述方式基于识别准确率和语速进行测评，并根据测评结果判断语音是否合格，包括：基于识别准确率，得到第一因子；基于语速与预设值，得到第二因子；根据识别准确率，确定第一因子对应的第一权重和第二因子对应的第二权重；根据第一因子、第一权重、第二因子及第二权重，得到语音决策值；基于语音决策值和预设阈值进行测评，并根据测评结果判断语音是否合格。在一实施例中，静音检测模块还用于：通过静音检测，判断静音时间是否超过静音阈值；若超过静音阈值，则发出提醒信息；若未超过静音阈值，则实时获取当前语句文本的语音。第三方面，本发明实施例提供一种电子设备，其中，电子设备包括：存储器，用于存储指令；以及处理器，用于调用存储器存储的指令执行上述任意一种语音库的语音获取方法。第四方面，本发明实施例提供一种计算机可读存储介质，其中，计算机可读存储介质存储有计算机可执行指令，计算机可执行指令在由处理器执行时，执行上述任意一种语音库的语音获取方法。本发明提供的一种语音库的语音获取方法、语音库的语音获取装置、电子设备及计算机存储介质，能够在获取原始文本的语音过程中，通过静音检测，确定当前语句是否完成录音。并主动对完成录音的当前语句进行测评，根据测评结果，判断获取的录音质量，进而控制录音的进程。有助于在制作语音库时，提高录音的准确度，缩减制作语音库的周期，提升语音库的录制效率，从而节约语音库的制作成本。附图说明通过参考附图阅读下文的详细描述，本发明实施方式的上述以及其他目的、特征和优点将变得易于理解。在附图中，以示例性而非限制性的方式示出了本发明的若干实施方式，其中：图1示出了本发明实施例提供的一种语音库的语音获取方法的示意图；图2示出了本发明实施例提供的另一种语音库的语音获取方法的示意图；图3示出了本发明实施例提供的又一种语音库的语音获取方法的示意图；图4示出了本发明实施例提供的一种语音库的语音获取的工作流程图；图5示出了本发明实施例提供的一种语音库的语音获取装置的示意图；图6示出了本发明实施例提供的一种电子设备示意图；在附图中，相同或对应的标号表示相同或对应的部分。具体实施方式下面将参考若干示例性实施方式来描述本发明的原理和精神。应当理解，给出这些实施方式仅仅是为了使本领域技术人员能够更好地理解进而实现本发明，而并非以任何方式限制本发明的范围。需要注意，虽然本文中使用“第一”、“第二”等表述来描述本发明的实施方式的不同模块、步骤和数据等，但是“第一”、“第二”等表述仅是为了在不同的模块、步骤和数据等之间进行区分，而并不表示特定的顺序或者重要程度。实际上，“第一”、“第二”等表述完全可以互换使用。本公开实施例提供一种语音库的语音获取方法，能够在语音录音的过程中，基于语音识别，控制录音进程并对录音的语音进行语音检测，能够有效提升录音效率，提高录音的准确度，进而缩减制作语音库的录制周期。图1是根据一示例性实施例示出的一种语音库的语音获取方法的流程图。如图1所示，语音库的语音获取方法10，包括以下步骤s11至步骤s14。在步骤s11中，获取原始文本，其中原始文本包括一个或多个语句文本。在本公开实施例中，根据语音库需要的录音文件，获取录音文件的原始文本。原始文本中的语句文本个数不限。便于录音者根据原始文本中的语句文本进行跟读录音。在步骤s12中，基于原始文本，实时获取当前语句文本的语音，并通过语音识别模型对语音进行语音识别。在本公开实施例中，将语句文本向录音者分句进行发送，录音者根据当前接收的语句文本进行跟读录音。实时获取录音者跟读的语音，并通过语音识别模型将获取的语音进行识别，用于确认录音者的语音内容包括：是否与语句文本对应，语音内容是否完整、语速是否过快等质量问题，便于对获取的语音质量进行检测。在步骤s13中，通过静音检测，确定语音完成录音。在本公开实施例中，通过语音活动检测（voiceactivitydetection，vad）判断当前语句文本的语音是否结束。在录音者录音的过程中，当语音中间的静音时间超过预设静音阈值时，则判定语音的当前录音结束，确定完成录音。录音完成后，再判定获取的语音是否合格，有助于判断结果更准确，便于提高后期录音的校对效率，节省校对的时间成本。当静音时间未超过静音阈值时，则继续获取当前语音得录音。在步骤s14中，将完成录音后的语音进行测评，并根据测评结果判断语音是否合格。若合格，则获取下一语句文本的语音；若不合格，则重新获取当前语句文本的语音。在本公开实施例中，将完成录音后的语音进行测评，判断获取的录音质量，根据语音测评结果，确定录音者的录音是否合格。当录音合格时，则发送下一语句文本，获取录音者根据新获取的语句文本进行的录音；当录音不合格时，则重新获取当前语句文本的语音，控制当前语音的录音质量，进而控制原始文本整体的录音质量。在一实时场景中，当录音不合格时，则向录音者发出重新录音的提示，用户可自由选择是否重新录音，当选择重新录音时，则重新获取当前语句文本的语音；当选择放弃时，则获取下一语句文本进行录音，避免影响整体的录音进程。在一实施例中，通过语音识别模型，将获取的语音进行识别，得到当前语音的识别文本。通过动态规划算法将得到的识别文本与当前语句文本通过对比进行测评，得到识别准确率，进而判断语音是否合格。例如：根据获取的当前语句内容，录音者完成整句的录音，通过对比，当出现误读、跳读或多读等现象时，则根据错误的字数占整句总字数的比数，确定识别错误率，进而得到识别准确率。将识别错误率与预设的错误率阈值进行对比，当小于错误率阈值时，则确定当前语音合格。反之，则不合格。通过上述实施例，在录音的过程中，通过静音检测和语音识别，控制语音的录音质量，进而控制整体的录音进程，有助于提高录音的准确度，缩减后期录音得校对时间，从而节省制作语音库的录制成本。图2是根据一示例性实施例示出的另一种语音库的语音获取方法的流程图。如图2所示，语音库的语音获取方法20，包括以下步骤s21至步骤s26。在本公开实施例中，步骤s21和步骤s22分别与语音库的语音获取方法10中的步骤s11和步骤s12的实施方式相同，在此不再进行赘述。在步骤s23中，通过静音检测，确定语音完成录音，得到语音的时长。在本公开实施例中，获取语音的录音起始时间，并通过vad实时对获取的语音进行静音检测，确定语音结束的录音时间，从而获取语音的有效录音时长。在一实施场景中，当通过vad检测到录音者停止录音时，将停止时间与预设静音阈值进行对比，当停止时间超过静音阈值时，则当前语句文本的语音录音完成，从而确定语音的结束时间。当停止时间小于静音阈值时，则当前获取的语音未完成录音，继续获取语音。通过静音检测，便于录音工具自动判断语音结束的时间，减少无效录音的时长，便于加快原始文本的录音进程。在一实施例中，录音工具显示当前语音文本后，通过vad检测录音者的静音时间，当静音时间超过预设静音阈值时，则发送提示消息，提示录音者开始录音，从而获取语音的录音起始时间，进而控制录音的进程。通过vad检测语音的录音，有助于减少无效录音的时长，提升录音效率，从而缩短录音原始文本的语音的周期。当静音时间未超过静音阈值时，则实时获取当前语句文本的语音。在步骤s24中，通过语音识别模型，得到语音的识别文本，并确定识别准确率；在本公开实施例中，通过语音识别模型，将获取的语音进行识别，得到语音的识别文本，从而确定获取的语音内容。通过动态规划算法将得到的识别文本与当前语句文本进行对比，确定语音的识别准确率，便于确定语音的内容质量是否合格。在步骤s25中，基于当前语句文本和得到的时长，得到语音的语速。在本公开实施例中，将当前语句文本的总字数与当前录音的有效的时长相除，得到当前获取的录音语速。根据得到的语速，便于确定语音的速度质量是否正常。在步骤s26中，基于识别准确率和语速进行测评，并根据测评结果判断语音是否合格。在本公开实施例中，将得到的识别准确率和录音的语速共同作为测评录音合格的决策因素，根据测评结果判断获取的语音是否合格，通过多种决策因素控制获取的录音质量，有助于提升录音的准确度，节省原始文本整体录音完成后的校对时间，从而节省录音成本。图3是根据一示例性实施例示出的又一种语音库的语音获取方法的流程图。如图3所示，语音库的语音获取方法30，包括以下步骤s31至步骤s310。在本公开实施例中，步骤s31至s35分别于语音库的语音获取方法20中的步骤s21至步骤s25实施方式相同，在此不再进行赘述。在步骤s36中，基于识别准确率，得到第一因子。在本公开实施例中，预先根据识别准确率的大小预设阶梯范围，每段阶梯范围对应一个第一因子，识别准确率越高，对应的第一因子值越大。在一实施例中，第一因子可以是识别准确率的质量评分，识别准确率越高，对应的质量评分就越高。根据获取的识别准确率，确定所在预设的阶梯范围，进而得到第一因子。例如：如表1所示的识别准确率与第一因子的关系表，当获取的识别准确率为90%时，则得到的第一因子为8分。识别准确率第一因子100%10分>=80%8分>=50%5分<50%1分表1在步骤s37中，基于语速与预设值，得到第二因子。在本公开实施例中，将获取的语速与预设值进行对比，根据预设误差范围，确定语速的第二因子，其中第二因子可以是语速的质量评分。预设值为语速的参考值，可以包括：将普通人朗读当前录音者录音的语种的平均语速作为参考值。或者，从历史录制的数据库中，按人提取总的有效时长和对应文本的总字数，获取每一个人的语速，再根据语速排序，去除首位异常值，得到平均语速作为参考值。或者，根据当前录音者曾经的录音语速作为参考值。在一例中，将录音者曾经的录音语速作为参考值，有助于判定录音者当前录音的语速质量更准率。在一实施场景中，当前语速在平均语速±0.5范围内，则第二因子为10分；当前语速在平均语速±1范围内，则第二因子为5分；其余情况为1分。当获取的语速在平均语速±1范围内时，则得到的第二因子为5分。在步骤s38中，根据识别准确率，确定第一因子对应的第一权重和第二因子对应的第二权重。在本公开实施例中，第一权重和第二权重与识别准确率相关。根据获取的识别准确率，通过预设识别准确率、第一权重与第二权重之间的对照关系，确定第一权重和第二权重。其中，第一权重与第二权重之和为百分之表。在一实施例中，识别准确率越高，第一权重占比越大，对应的第二权重占比就越小。例如：如表2所示的识别准确率、第一权重与第二权重的对应关系。当获取的识别准确率为80%时，则对应的第一权重为80%，第二权重为20%。识别准确率第一权重第二权重100%100%0%>=80%80%20%>=50%50%50%<50%30%70%表2在步骤s39中，根据第一因子、第一权重、第二因子及第二权重，得到语音决策值。在本公开实施例中，语音决策值为当前获取的语音的录音质量值，通过第一因子、第一权重、第二因子及第二权重进行获取。在一实施场景中，第一因子和第一权重的乘积与第二因子和第二权重的乘积的和为获取的语音决策值。通过获取语音决策值，有助于管控整体的录音质量。在步骤s310中，基于语音决策值和预设阈值进行测评，并根据测评结果判断语音是否合格。将语音决策值与预设阈值进行测评，当语音决策值大于预设阈值时，则语音合格；当语音决策值小于预设阈值时，则语音不合格，需要重新获取录音。通过预设阈值，确定语音合格标准，有助于保障原始文本整体的录音质量，进而节省录音成本。例如：预设阈值为5，若当前识别准确率为90%时，则获取的第一因子为8分，第一权重为80%，则语速所占的第二权重为20%，且当第二因子为5分时，则决策值为80%*8+20%*5=7.4，大于阈值5，则当前获取的语音合格，结束当前语句的录音。若当前识别准确率为40%时，则获取的第一因子为1分，第一权重为30%，则语速所占的第二权重为70%，且当第二因子为5分时，则决策值为30%*1+70%*5=3.8，小于阈值5，则当前获取的语音不合格，重新获取当前语句的语音。通过上述实施例，通过语音决策值判定语句的录音质量，使控制录音进程的同时，控制原始文本对应的整体录音质量，从而节省后期的录音校对时间，有效缩减制作语音库的整体周期，节约录制成本。图4是根据一示例性实施例示出的一种语音库的语音获取的工作流程图。如图4所示，语音库的语音获取的工作流程图40，包括以下步骤s41至步骤s48。在步骤s41中，启动录音软件。在本公开实施例中，录音者通过启动录音软件，开始准备录音。在步骤s42中，加载原始文本。在本开中，通过录音软件加载录音的原始文本，便于录音者根据原始文本进行朗读获取语音。在一实施例中，录音软件可根据不同的录音者，提供不同的原始文本，例如：录音者为英国人时，加载英文版本的原始文本；录音者为中文历史学者时，加载与中文历史研究相关的的原始文本，便于录音者在录音时能够顺利朗读。在步骤s43中，启动录音。在本公开实施例中，录音软件根据录音者发送的录音指令，启动录音。在一实施场景中，录音者可通过开始按钮启动录音。在另一实施场景中，可通过语音识别引擎识别录音者的开始指令，启动录音。在步骤s44中，判断是否有可读的语句文本。在本公开实施例中，可检测获取的原始文本中，是否有录音者需要朗读的语句文本，当没有可读的语句文本时，则结束当前原始文本的录音。当存在可读的语句文本时，则执行步骤s45，通过录音软件的界面显示语句文本。在一实施场景中，录音软件具有存储功能，可以存储当前录音者的录音记录，根据录音记录，判断当前加载的原始文本中，是否存在录音者需要录音或者重读的语句。当存在需要录音或者重读的语句时，则通过录音软件的界面显示语句文本。当不存在需要录音或者重读的语句时，则结束当前原始文本的录音。在步骤s45中，通过录音工具的界面显示语句文本，启动vad，开始检测当前语句文本的语音。在本公开实施例中，将加载的原始文本按句在录音软件的界面中进行显示，便于录音者根据显示的语句文本进行朗读。通过vad检测静音时长，获取语音录音的起始时间。在一实施场景中，当vad检测静音时长超过预设的静音阈值时，则向用户发送提示，提示用户开始朗读语句文本。当vad检测静音时长小于静音阈值时，则开始获取语音。通过vad检测静音时长，有助于监督录音者进行录音，减少无效录音的时长，促进录音进程。在步骤s46中，实时将获取的语音进行识别。在本公开实施例中，将获取的语音通过语音识别（automaticspeechrecognition，asr）引擎进行实时检测，便于实时确定获取的语音内容。在录音语音的同时，自动确定语音的内容，有助于节省语音录音后的语音校对时间，便于快速校对。通过vad检测录音者在录音过程中的静音时长，判断当前语句是否录音完成。当静音时长超过预设的静音阈值时，则当前语句录音完成，确定语句的结束时间，进而获取录音者朗读当前语句的语速，进而对语音识别后的语句的质量进行检测。当静音时长小于预设的静音阈值时，则继续获取语音。通过vad检测静音时长，便于准确获取当前语句结束的录音时长，有助于减少录音者的注意力分散，保持录音者的录音状态。在步骤s47中，将完成录音后的语音进行测评，并根据测评结果判断语音是否合格。在本公开实施例中，通过识别结果获取语音的识别准确率，根据预设阶梯范围得到第一因子。通过静音检测得到的语音有效时长和当前语句文本，得到录音的语速。将得到的语音的语速与预设值进行对比，获取第二因子。根据识别准确率、和第二因子的权重比值进行测评，将得到的语音决策值与预设阈值进行对比，得到测评结果，进而判断当前语句文本是否需要重新获取语音。当语音决策值大于预设阈值时，则结束当前语句的录音，开始下一语句文本的录音。当语音决策值小于预设阈值时，则询问录音者是否重新录音当前语句文本，根据录音者的意愿，重新获取当前语句文本的语音或者开始下一语句文本的录音。通过上述实施例，在语音录音的过程中，采用vad、asr和语句的语音决策等方式，对录音的进程进行控制，并将获取的语句进行检测，使录音开始、结束都由程序自动检测与控制。便于语音库的制作快速完成，节省语音录音后的校对时间，进而节省制作成本。图5是根据一示例性实施例示出的一种语音库的语音获取装置的示意图。如图5所示，语音库的语音获取装置100，包括以下模块。获取模块110，用于获取原始文本，其中原始文本包括一个或多个语句文本。获取模块110还用于获取当前语句文本的语音。语音识别模块120，用于基于原始文本和当前语句文本的语音，并通过语音识别模型对语音进行语音识别。静音检测模块130，用于通过静音检测，确定语音完成录音。判断模块140，用于将完成录音后的语音进行测评，并根据测评结果判断语音是否合格。若合格，则通过获取模块获取下一语句文本的语音；若不合格，则通过获取模块重新获取当前语句文本的语音。在一实施例中，判断模块140采用下述方式将完成录音后的语音进行测评，并根据测评结果判断语音是否合格：通过语音识别模型，得到语音的识别文本；基于识别文本和当前语句文本进行测评，得到识别准确率；基于识别准确率，判断语音是否合格。在另一实施例中，静音检测模块130还用于：通过静音检测，得到语音的时长；判断模块140还采用下述方式将完成录音后的语音进行测评，并根据测评结果判断语音是否合格：基于当前语句文本和得到的时长进行测评，确定语音的语速；基于识别准确率和语速，判断语音是否合格。在又一实施例中，判断模块140采用下述方式基于识别准确率和语速，判断语音是否合格，包括：基于识别准确率，得到第一因子；基于语速与预设值，得到第二因子；根据识别准确率，确定第一因子对应的第一权重和第二因子对应的第二权重；根据第一因子、第一权重、第二因子及第二权重，得到语音决策值；基于语音决策值和预设阈值，判断语音是否合格。在一实施例中，静音检测模块130还用于：通过静音检测，判断静音时间是否超过静音阈值；若超过静音阈值，则发出提醒信息；若未超过静音阈值，则实时获取当前语句文本的语音。装置中的各个模块所实现的功能与上文描述的方法中的步骤相对应，其具体实现和技术效果请参见上文对于方法步骤的描述，在此不再赘述。如图6所示，本发明的一个实施方式提供了一种电子设备200。其中，该电子设备200包括存储器210、处理器220、输入/输出（input/output，i/o）接口230。其中，存储器210，用于存储指令。处理器220，用于调用存储器210存储的指令执行本发明实施例的用于语音库的语音获取方法。其中，处理器220分别与存储器210、i/o接口230连接，例如可通过总线系统和/或其他形式的连接机构(未示出)进行连接。存储器210可用于存储程序和数据，包括本发明实施例中涉及的用于语音库的语音获取的程序，处理器220通过运行存储在存储器210的程序从而执行电子设备200的各种功能应用以及数据处理。本发明实施例中处理器220可以采用数字信号处理器(digitalsignalprocessing，dsp)、现场可编程门阵列(field-programmablegatearray，fpga)、可编程逻辑阵列(programmablelogicarray，pla)中的至少一种硬件形式来实现，所述处理器220可以是中央处理单元（centralprocessingunit，cpu）或者具有数据处理能力和/或指令执行能力的其他形式的处理单元中的一种或几种的组合。本发明实施例中的存储器210可以包括一个或多个计算机程序产品，所述计算机程序产品可以包括各种形式的计算机可读存储介质，例如易失性存储器和/或非易失性存储器。所述易失性存储器例如可以包括随机存取存储器（randomaccessmemory，ram）和/或高速缓冲存储器（cache）等。所述非易失性存储器例如可以包括只读存储器（read-onlymemory，rom）、快闪存储器（flashmemory）、硬盘（harddiskdrive，hdd）或固态硬盘（solid-statedrive，ssd）等。本发明实施例中，i/o接口230可用于接收输入的指令（例如数字或字符信息，以及产生与电子设备200的用户设置以及功能控制有关的键信号输入等），也可向外部输出各种信息（例如，图像或声音等）。本发明实施例中i/o接口230可包括物理键盘、功能按键（比如音量控制按键、开关按键等）、鼠标、操作杆、轨迹球、麦克风、扬声器、和触控面板等中的一个或多个。在一些实施方式中，本发明提供了一种计算机可读存储介质，该计算机可读存储介质存储有计算机可执行指令，计算机可执行指令在由处理器执行时，执行上文所述的任何方法。尽管在附图中以特定的顺序描述操作，但是不应将其理解为要求按照所示的特定顺序或是串行顺序来执行这些操作，或是要求执行全部所示的操作以得到期望的结果。在特定环境中，多任务和并行处理可能是有利的。本发明的方法和装置能够利用标准编程技术来完成，利用基于规则的逻辑或者其他逻辑来实现各种方法步骤。还应当注意的是，此处以及权利要求书中使用的词语“装置”和“模块”意在包括使用一行或者多行软件代码的实现和/或硬件实现和/或用于接收输入的设备。此处描述的任何步骤、操作或程序可以使用单独的或与其他设备组合的一个或多个硬件或软件模块来执行或实现。在一个实施方式中，软件模块使用包括包含计算机程序代码的计算机可读介质的计算机程序产品实现，其能够由计算机处理器执行用于执行任何或全部的所描述的步骤、操作或程序。出于示例和描述的目的，已经给出了本发明实施的前述说明。前述说明并非是穷举性的也并非要将本发明限制到所公开的确切形式，根据上述教导还可能存在各种变形和修改，或者是可能从本发明的实践中得到各种变形和修改。选择和描述这些实施例是为了说明本发明的原理及其实际应用，以使得本领域的技术人员能够以适合于构思的特定用途来以各种实施方式和各种修改而利用本发明。当前第1页1 2 3

技术特征：

1.一种语音库的语音获取方法，其特征在于，所述方法包括：

获取原始文本，其中所述原始文本包括一个或多个语句文本；

基于所述原始文本，实时获取当前语句文本的语音，并通过语音识别模型对所述语音进行语音识别；

通过静音检测，确定所述语音完成录音；

将完成录音后的所述语音进行测评，并根据测评结果判断所述语音是否合格；

若合格，则获取下一语句文本的语音；

若不合格，则重新获取所述当前语句文本的语音。

2.根据权利要求1所述的语音库的语音获取方法，其特征在于，所述将完成录音后的所述语音进行测评，并根据测评结果判断所述语音是否合格，包括：

通过所述语音识别模型，得到所述语音的识别文本；

基于所述识别文本和所述当前语句文本进行测评，得到识别准确率；

基于所述识别准确率，判断所述语音是否合格。

3.根据权利要求2所述的语音库的语音获取方法，其特征在于，

所述通过静音检测，确定所述语音完成录音，还包括：

通过所述静音检测，得到所述语音的时长；

将完成录音后的所述语音进行测评，并根据测评结果判断所述语音是否合格，还包括：

基于所述当前语句文本和得到的所述时长，得到所述语音的语速；

基于所述识别准确率和所述语速进行测评，并根据测评结果判断所述语音是否合格。

4.根据权利要求3所述的语音库的语音获取方法，其特征在于，所述基于所述识别准确率和所述语速进行测评，并根据测评结果判断所述语音是否合格，包括：

基于所述识别准确率，得到第一因子；

基于所述语速与预设值，得到第二因子；

根据所述识别准确率，确定所述第一因子对应的第一权重和所述第二因子对应的第二权重；

根据所述第一因子、所述第一权重、所述第二因子及所述第二权重，得到语音决策值；

基于所述语音决策值和预设阈值进行测评，并根据测评结果判断所述语音是否合格。

5.根据权利要求3所述的语音库的语音获取方法，其特征在于，

所述通过所述静音检测，得到所述语音的时长，还包括：

通过静音检测，判断静音时间是否超过静音阈值；

若超过所述静音阈值，则发出提醒信息；

若未超过所述静音阈值，则实时获取当前语句文本的语音。

6.一种语音库的语音获取装置，其特征在于，所述装置包括：

获取模块，用于获取原始文本，其中所述原始文本包括一个或多个语句文本；所述获取模块还用于获取当前语句文本的语音；

语音识别模块，用于基于所述原始文本和所述当前语句文本的语音，并通过语音识别模型对所述语音进行语音识别；

静音检测模块，用于通过静音检测，确定所述语音完成录音；

判断模块，用于将完成录音后的所述语音进行测评，并根据测评结果判断所述语音是否合格；

若合格，则通过所述获取模块获取下一语句文本的语音；

若不合格，则通过所述获取模块重新获取所述当前语句文本的语音。

7.根据权利要求6所述的语音库的语音获取装置，其特征在于，所述判断模块采用下述方式将完成录音后的所述语音进行测评，并根据测评结果判断所述语音是否合格：

通过所述语音识别模型，得到所述语音的识别文本；

基于所述识别文本和所述当前语句文本进行测评，得到识别准确率；

基于所述识别准确率，判断所述语音是否合格。

8.根据权利要求7所述的语音库的语音获取装置，其特征在于，

所述静音检测模块还用于：

通过静音检测，得到所述语音的时长；

所述判断模块还采用下述方式将完成录音后的所述语音进行测评，并根据测评结果判断所述语音是否合格：

基于所述当前语句文本和得到的所述时长，得到所述语音的语速；

基于所述识别准确率和所述语速进行测评，并根据测评结果判断所述语音是否合格。

9.根据权利要求8所述的语音库的语音获取装置，其特征在于，所述判断模块采用下述方式基于所述识别准确率和所述语速进行测评，并根据测评结果判断所述语音是否合格，包括：

基于所述识别准确率，得到第一因子；

基于所述语速与预设值，得到第二因子；

根据所述识别准确率，确定所述第一因子对应的第一权重和所述第二因子对应的第二权重；

根据所述第一因子、所述第一权重、所述第二因子及所述第二权重，得到语音决策值；

基于所述语音决策值和预设阈值进行测评，并根据测评结果判断所述语音是否合格。

10.根据权利要求9所述的语音库的语音获取装置，其特征在于，所述静音检测模块还用于：

通过静音检测，判断静音时间是否超过静音阈值；

若超过所述静音阈值，则发出提醒信息；

若未超过所述静音阈值，则实时获取当前语句文本的语音。

11.一种电子设备，其中，所述电子设备包括：

存储器，用于存储指令；以及

处理器，用于调用所述存储器存储的指令执行权利要求1-5中任一项所述的语音库的语音获取方法。

12.一种计算机可读存储介质，其中，所述计算机可读存储介质存储有计算机可执行指令，所述计算机可执行指令在由处理器执行时，执行权利要求1-5中任一项所述的语音库的语音获取方法。

技术总结

本发明涉及语音识别领域，提供一种语音库的语音获取方法、装置、电子设备及存储介质。语音库的语音获取方法包括：获取原始文本，其中原始文本包括一个或多个语句文本；基于原始文本，实时获取当前语句文本的语音，并通过语音识别模型对语音进行语音识别；通过静音检测，确定语音完成录音；将完成录音后的语音进行测评，并根据测评结果判断语音是否合格；若合格，则获取下一语句文本的语音；若不合格，则重新获取当前语句文本的语音。通过静音检测，确定当前语句是否完成录音，并主动对完成的录音进行测评，根据测评结果判断录音质量，进而控制录音的进程，能够有效提高语音库的准确度，缩减制作语音库的周期，进而提升语音库的录制效率。

技术研发人员：孟君;黄宇凯;郝玉峰;曹琼;李科;宋琼

受保护的技术使用者：北京海天瑞声科技股份有限公司

技术研发日：.12.19

技术公布日：.01.24

本内容不代表本网观点和政治立场，如有侵犯你的权益请联系我们处理。

网友评论

网友评论仅供其表达个人看法，并不表明网站立场。