第一句子网 - 唯美句子、句子迷、好句子大全
第一句子网 > 一种语音识别方法 终端 系统以及计算机存储介质与流程

一种语音识别方法 终端 系统以及计算机存储介质与流程

时间:2024-08-06 07:35:14

相关推荐

一种语音识别方法 终端 系统以及计算机存储介质与流程

本发明涉及计算机应用技术领域,尤其涉及语音识别方法、终端、系统以及计算机存储介质。

背景技术:

随着智能手机的不断发展,语音助手功能如雨后春笋般蓬勃发展,广受用户喜爱,用户可以通过与语音助手实现智能对话,解决部分问题。

目前,用户可以通过与手机语音助手进行语音交流,但是当前语音识别技术并不能完全识别连续发音问题等问题,容易出现语音识别错误。当设备针对一条语音信息识别错误时,往往在语音助手的显示界面中会有所体现,比如显示错误识别信息,导致用户发起的语音指令被识别错误,直接影响终端设备执行指令的准确性。对此,用户可以重新发起语音指令。这样一来,一方面,一条语音信息往往只有少数字符对象识别错误,另一方面,基于再次发起的语音指令的识别可能仍然不准确,可见,目前的识别方案存在识别效率低下的问题。

技术实现要素:

本发明实施例提供了一种语音识别方法、终端、系统以及计算机存储介质,可高效地得到语音识别结果。

一方面,本发明第一实施例提供了一种语音识别方法,包括:

接收第一语音信息,将所述第一语音信息转化为初始信息,输出所述初始信息;当检测到针对所述初始信息的第一操作时,输出与所述初始信息对应的候选信息;当检测到针对所述候选信息的第二操作时,获取更正对象;根据所述更正对象更新所述初始信息,得到和/或输出目标信息。

可选地,接收第一语音信息,将所述第一语音信息转化为初始信息,包括:获取根据所述第一语音信息中转化得到的目标初始对象;识别所述目标初始对象的类型;根据所述目标初始对象类型得到初始信息。

可选的,所述根据所述目标初始对象类型得到初始信息包括:调取所述目标初始对象类型对应的关联数据库,若在所述关联数据库中查找到与所述目标初始对象之间的匹配度满足第一预设阈值的对象,则根据查找到的对象对所述目标初始对象进行更新,以得到初始信息;或,联网搜索与所述目标初始对象类型对应的对象,若查找到与所述目标初始对象之间的匹配度满足第二预设阈值的对象,则根据查找到的对象对所述目标初始对象进行更新,以得到初始信息;所述第一预设阈值和所述第二预设阈值相同或不同。

可选地,调取所述目标初始对象类型对应的关联数据库,若在所述关联数据库中查找到与所述目标初始对象之间的匹配度满足第一预设阈值的对象,则根据查找到的对象对所述目标初始对象进行更新,以得到初始信息;或,联网搜索与所述目标初始对象类型对应的对象,若查找到与所述目标初始对象之间的匹配度满足第二预设阈值的对象,则根据查找到的对象对所述目标初始对象进行更新,以得到初始信息;所述第一预设阈值和所述第二预设阈值相同或不同。

可选的,当识别所述目标初始对象的类型为联系人类型时,则将终端存储的通讯录数据库作为所述关联数据库;和/或,当识别所述目标初始对象的类型为应用名称类型时,则将终端记录的应用数据库作为所述关联数据库;和/或,当识别所述目标初始对象的类型为未知类型时,则联网搜索与所述目标初始对象类型对应的对象。

可选的,对所述初始信息或所述目标信息进行语义分析,输出控制指令。

可选的,输出所述初始信息的位置包括当前界面、预设固定屏幕区域、悬浮窗口中的至少一种,或输出所述候选信息的位置包括当前界面、预设固定屏幕区域、悬浮窗口中的至少一种,或输出所述目标信息的位置包括当前界面、预设固定屏幕区域、悬浮窗口中的至少一种,或输出所述控制指令的位置包括当前界面、预设固定屏幕区域、悬浮窗口中的至少一种;所述初始信息、所述候选信息、所述目标信息以及所述控制指令显示位置相同或不同。

可选的,所述方法应用于所述语音识别系统,所述语音识别系统包括至少一个第一终端,至少一个第二终端,所述第一终端用以接收所述第一语音信息,所述第二终端用以输出所述控制指令。

可选地,还包括:输出语音更正标识;通过所述语音更正标识重新录入语音更正信息;根据所述语音更正信息更新所述初始信息;和/或,输出所述初始信息和/或所述语音更正信息。

可选的,所述方法应用于所述语音识别系统,所述语音识别系统包括至少一个第一终端,至少一个第二终端,所述第一终端用以接收第一语音信息,所述第二终端用以输出所述语音更正标识,并接收所述重新录入的语音更正信息。

可选地,所述初始信息的类型或所述目标信息的类型,包括文本、图像、音频、视频、文件中的至少一种;和/或,所述第一操作或所述第二操作包括:长按、重按、滑动、隔空手势操作、相邻两次点击操作之间的时间间隔小于预设阈值的n次点击操作,所述n为大于等于2的整数中的至少一种;所述第一操作和所述第二操作相同或不同。可选的,输出所述初始信息的位置包括当前界面、预设固定屏幕区域、悬浮窗口中的至少一种,或输出所述候选信息的位置包括当前界面、预设固定屏幕区域、悬浮窗口中的至少一种,或输出所述目标信息的位置包括当前界面、预设固定屏幕区域、悬浮窗口中的至少一种;所述初始信息、所述候选信息以及所述目标信息的显示位置相同或不同。

可选的,所述方法应用于所述语音识别系统,所述语音识别系统包括至少一个第一终端,至少一个第二终端,所述第一终端用以接收第一语音信息,所述第二终端用以输出所述初始信息或输出候选信息或输出所述目标信息。

另一方面,本发明实施例还提供了一种语音识别方法,所述方法应用于所述语音识别系统,所述语音识别系统包括至少一个第一终端,至少一个第二终端,包括:从所述第一终端接收第一语音信息,并将所述第一语音信息转化为初始信息;根据所述初始信息得到和/或输出目标信息。

可选的,所述根据所述初始信息得到和/或输出目标信息包括:在所述第一终端和/或所述第二终端上输出所述初始信息;当检测到针对所述初始信息的第一操作时,在所述第一终端和/或所述第二终端上输出与所述初始信息对应的候选信息;当检测到针对所述候选信息的第二操作时,获取更正对象;根据所述更正对象更新所述初始信息,得到目标信息,和/或在所述第一终端和/或所述第二终端上输出目标信息。

可选的,输出所述初始信息的位置包括当前界面、预设固定屏幕区域、悬浮窗口中的至少一种,或输出所述候选信息的位置包括当前界面、预设固定屏幕区域、悬浮窗口中的至少一种,或输出所述目标信息的位置包括当前界面、预设固定屏幕区域、悬浮窗口中的至少一种;所述初始信息、所述候选信息以及所述目标信息的显示位置相同或不同;和/或,所述第一操作或所述第二操作包括:长按、重按、滑动、隔空手势操作、相邻两次点击操作之间的时间间隔小于预设阈值的n次点击操作,所述n为大于等于2的整数中的至少一种;所述第一操作和所述第二操作相同或不同。

可选的,所述从所述第一终端接收第一语音信息,并将所述第一语音信息转化为初始信息,包括:获取根据所述第一语音信息中转化得到的目标初始对象;识别所述目标初始对象的类型;根据所述目标初始对象类型得到初始信息。

可选的,所述根据所述目标初始对象类型得到初始信息步骤,包括:调取所述目标初始对象类型对应的关联数据库,若在所述关联数据库中查找到与所述目标初始对象之间的匹配度满足第一预设阈值的对象,则根据查找到的对象对所述目标初始对象进行更新,以得到初始信息;或,联网搜索与所述目标初始对象类型对应的对象,若查找到与所述目标初始对象之间的匹配度满足第二预设阈值的对象,则根据查找到的对象对所述目标初始对象进行更新,以得到初始信息;所述第一预设阈值和所述第二预设阈值相同或不同。

可选的,当识别所述目标初始对象的类型为联系人类型时,则将终端存储的通讯录数据库作为所述关联数据库;和/或,当识别所述目标对象的类型为应用名称类型时,将终端记录的系统应用数据库作为所述关联数据库;和/或,当识别所述目标初始对象的类型为未知类型时,则联网搜索与所述目标初始对象类型对应的对象。

可选的,对所述初始信息或所述目标信息进行语义分析,输出控制指令。通过所述第一终端和/或所述第二终端输出所述初始信息的位置包括当前界面、预设固定屏幕区域、悬浮窗口中的至少一种,或通过所述第一终端和/或所述第二终端输出所述候选信息的位置包括当前界面、预设固定屏幕区域、悬浮窗口中的至少一种,或通过所述第一终端和/或所述第二终端输出所述目标信息的位置包括当前界面、预设固定屏幕区域、悬浮窗口中的至少一种,或通过所述第一终端和/或所述第二终端输出所述控制指令的位置包括当前界面、预设固定屏幕区域、悬浮窗口中的至少一种;所述初始信息、所述候选信息、所述目标信息以及所述控制指令输出位置相同或不同。

可选的,通过所述第一终端和/或所述第二终端输出语音更正标识;接收通过所述语音更正标识重新录入的语音更正信息;根据所述语音更正信息更新所述初始信息;和/或,通过所述第一终端和/或所述第二终端,输出所述语音更正信息和/或所述初始信息。

可选的,通过所述第一终端和/或所述第二终端输出所述初始信息的位置包括当前界面、预设固定屏幕区域、悬浮窗口中的至少一种,或输出所述候选信息的位置包括当前界面、预设固定屏幕区域、悬浮窗口中的至少一种,或输出所述目标信息的位置包括当前界面、预设固定屏幕区域、悬浮窗口中的至少一种;所述初始信息、所述候选信息以及所述目标信息的输出位置相同或不同。所述初始信息的类型或所述目标信息的类型,包括文本、图像、音频、视频、文件中的至少一种。

相应地,本发明实施例还提供了一种智能终端,包括:包括处理器、存储器和用户接口,所述处理器、所述存储器和所述用户接口相互连接,其中,所述存储器用于存储计算机程序,所述计算机程序包括程序指令,所述处理器被配置用于调用所述程序指令,执行上述提及的语音识别方法。

相应的,本发明实施例还提供了一种语音识别系统,包括至少一第一终端,至少一第二终端,其特征在于,所述第一终端包括第一显示器、第一处理器和第一存储器,所述第二终端包括第二显示器、第二处理器和第二存储器,其中,所述第一存储器和/或所述第二存储器用于存储计算机程序,所述计算机程序包括程序指令,所述第一处理器和/或所述第二处理器被配置用于调用所述程序指令,执行上述提及的语音识别方法。可选的,所述第一终端包括第一显示屏,和/或所述第二终端包括第二显示屏。

相应地,本发明实施例还提供了一种计算机存储介质,所述计算机存储介质中存储有程序指令,所述程序指令被执行时,用于实现上述的语音识别方法。

通过对所接收的语音信息进行识别转化为初始信息,当检测到第一操作,获取所述初始信息对应的候选信息,根据针对候选信息作出的第二操作,获取更正对象,并对初始信息进行更正;由于本申请是针对初始信息中识别错误的内容进行选择性的替换修改,操作简单,节省时间,符合用户使用需求,能够实现快速、准确的对语音信息进行识别和修改,提高语音识别效率。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。

图1是本发明实施例提供的一种语音识别方法的流程图;

图2a是本发明实施例提供的语音识别方法的用户界面图;

图2b是本发明实施例提供的语音识别方法的用户界面图;

图2c是本发明实施例提供的语音识别方法的用户界面图;

图3是本发明实施例提供的又一种语音识别方法的流程图;

图4是本发明实施例提供的另一种语音识别方法的流程图;

图5是本发明实施例提供的一种语音识别系统的结构示意图;

图6是本发明实施例提供的再一种语音识别方法的流程图

图7是本发明实施例提供的一种语音识别装置的结构示意图;

图8是本发明实施例提供的一种智能终端的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。

本发明的说明书和权利要求书及所述附图中的术语“第一”、“第二”“第三”和“第四”等是用于区别不同对象,而不是用于描述特定顺序。此外,术语“包括”和“具有”以及它们任何变形,意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、系统、产品或设备没有限定于已列出的步骤或模块,而是可选地还包括没有列出的步骤或模块,或可选地还包括对于这些过程、方法、产品或设备固有的其它步骤或模块。

在本文中提及“实施例”意味着,结合实施例描述的特定特征、结构或特性可以包含在本发明的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例,也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地理解的是,本文所描述的实施例可以与其它实施例相结合。本发明所描述的移动终端还包括但不限于诸如具有触摸敏感表面(例如,触摸显示屏或者触摸板)的移动电话、个人电脑、平板计算机、车载系统、电视之类的可接受语音信息的设备。

语音识别技术是一种利用计算机和数字信号处理技术准确地识别人的语音(如字、词、子句、句子等)的技术,语音识别的基础是提取待识别语音的各种有效特征,形成待识别的语音模式,并与存储终端设备内存中的语音库中的样本模式相比较,再通过模式分类方法进行识别是什么字、什么词等。语音识别过程是对音节或词等语言成分的识别过程。虽然目前对语音识别技术有大量的研究,但由于语音的复杂性,在连续语音、大词汇、方言的识别方面并不完善,识别的准确率不高,所以对语音识别结果中的错误进行校正是必不可少的。

基于上述描述,本发明实施例结合图1、图2a、图2b、图2c来对本发明实施例的语音识别方法进行说明,图1是本发明实施例提供的一种语音识别方法的流程示意图,图2a、图2b、图2c都是本发明的语音识别方法的用户界面图,该方法可以由智能终端来执行,智能终端例如可以是智能手机、平板电脑、智能可穿戴设备、车载系统、电视等终端,所述方法具体可以包括以下步骤:

s101、接收第一语音信息,将所述第一语音信息转化为初始信息202,输出所述初始信息202;

在一个实施例中,在所述接收第一语音之前,可以检测所述终端设备的语音助手功能是否打开,若所述语音助手没有没打开,向所述终端设备发送打开语音助手的指令,开启语音助手。所述第一语音信息可以通过终端设备的麦克风对用户的语音信息进行采集,在一个实施例中,所述第一语音信息用于用户与终端设备的语音助手进行沟通,用户可以通过语音助手拨打电话、创建记事、发邮件或者打开系统应用等。举例来说,用户可以在图2a所示的人机交互界面201上发送语音,该所述语音为“helpmesendamessagetojulie”。

在一个实施例中,对所述第一语音信息进行识别指将所述第一语音信息与所述终端设备的语音库进行匹配,筛选与所述第一语音信息发音近似度高的文本信息,从而获得文本信息与所述语音更正信息的发音匹配度,保存至少一个与所述第一语音信息匹配度在预设阈值内的文本信息,所述预设阈值可以是系统提前保存的,也可以是用户自定义的,所述阈值可以为80%、85%、95%等,所述发音阈值的匹配度是所述语音助手功能对应装置在语音识别时计算的。其中,满足所述预设阈值的文本信息可以按用户的发音匹配度的高低来排序,选择与匹配度最高的文本信息为初始信息,其余的为候选文本信息,举例来说,预先设置所述预设阈值为90%,录入所述第一语音信息,在转化过程中可以被转化为多个文本信息,其中,在满足所述预设阈值内,按用户的发音匹配度的高低来排序如下:“julie”、“jolia”以及“julian”,其中选出一个经判断出的发音匹配度最高的文本信息作为最终输出的文本信息。

在一个实施例中,所述语音库包括但不限于不同地域方言所对应的方言语音库、不同国家语言所对应的语种语音库等。在接收到用户输入的所述第一语音信息时,可以获取移动终端用户的地理位置信息,根据位置信息加载相应的方言语音库或者语种语音库,对用户输入的第一语音信息进行识别,从而提高了语音识别的效率和准确性。

s102、当检测到针对所述初始信息202的第一操作时,输出与所述初始信息202对应的候选信息;

在一个实施例中,当检测到针对所述初始信息202的第一操作时,确定所述第一操作选中的目标对象203,并显示预览界面204,所述预览界面显示所述目标对象的候选对象205,所述候选信息包括所述第一操作选中的目标对象203以及预览界面204;

所述第一操作是用户作用在所述触摸显示屏上针对所述初始信息202的按压操作,通过第一操作将所述初始信息202中识别错误的文本信息选中,用于确定用户想要修改的目标对象203。所述第一操作包括:长按、重按、滑动、隔空手势操作、相邻两次点击操作之间的时间间隔小于预设阈值的n次点击操作,所述n为大于等于2的整数中的至少一种。

在一个实施例中,所述目标对象可以为一个或者多个字符的组合,例如可以为图2a中的“julie”,也可以是“helpmesendamessagetojulie”整个句子。所述目标对象可以被突出显示,所述突出显示包括但不限于改变颜色、字体大小、字体粗细或者附加下划线。

在一个实施例中,在所述用户界面201上显示预览界面204,所述预览界面204优先选择在所述初始信息或者目标对象旁边,还可以在所述用户界面201的任意位置。所述预览界面204用于显示所述候选对象,所述预览界面204包括但不限于滚动弹窗界面、翻页弹窗界面。

所述候选对象为所述第一语音信息转化为文本信息过程中将所述第一语音信息与语音库进行匹配得到的匹配度满足所述预设阈值的其他文本信息,如图2b所示:所述第一语音信息转化时其中一个字符对象转化后为文本“julie”,在转化过程中,“jolia”、“julian”的匹配度都满足所述预设阈值,所以二者都可以为候选对象。

s103、当检测到针对所述候选信息的第二操作时,获取更正对象;

所述第二操作是用户在浏览候选对象时,选择正确字符对象时的操作,所述第二操作可以包括点击时长大于预设阈值的长按操作、或者相连两次点击操作之间的时间间隔小于预设阈值的n次点击操作,所述n为大于等于2的整数,n可以为2、3、4、5等,所述第一操作和所述第二操作相同或不同。

s104、根据所述更正对象更新所述初始信息,得到和/或输出目标信息。

在一个实施例中,通过使用更正对象直接替换所述目标对象,得到目标信息。在一个实施例中,所述显示的目标信息需要与所述初始信息相区别,区别方式包括但不限于通过在所述用户界面上显示字符串“更正后信息”将所述初始对话信息与语音更新文本信息间隔开。

在一个实施例中,所述初始信息的类型或所述目标信息的类型,还可以包括文本、图像、音频、视频、文件。其中,当用户输入第一语音信息后,可以将所述语音信息翻译为文本信息,也可以将所述文本信息转化为图像、音频、视频形式在所述用户界面上呈现。

本发明实施例中,通过对所接收的语音信息进行识别转化为初始信息,获取用户选中的识别错误的目标对象,再在当前的用户界面上直接显示用于更正所述目标对象的候选对象,进而获取更正对象,对根据所述更正对象更新所述初始信息;由于本申请是针对识别错误的目标对象进行简单字符对象的替换修改,操作简单,节省时间,符合用户使用需求,能够实现快速、准确的对语音信息进行识别和修改,提高语音识别效率。

请参见图2b和图3,图3是本发明的另一种语音识别方法的流程图,该方法可以由智能终端来执行,智能终端例如可以是智能手机、平板电脑、智能可穿戴设备、车载系统、电视等终端,所述方法具体可以包括以下步骤:其中s302-s305具体其中对应第一实施例中s101步骤:

s301、显示用户界面;在一个实施例中,在所述终端设备显示用户界面,所述用户界面可以显示用户与语音助手的对话信息。

s302,获取根据所述第一语音信息中转化得到的目标初始对象;

接收第一语音信息,将所述第一语音信息转化为文本信息,所述第一语音信息在转化为文本信息过程中,获取所述文本信息中的部分字符对象作为目标初始对象,其中所述获取的目标初始对象包括但不限于以下种类:在词库中使用率较低的字符组合对象;经过文本信息结构进行分析发现明显不符合结构形式的字符对象;根据所述文本信息的语义解析,所述目标对象类型明显是人名、应用名称、系统工具名称、搜索引擎名称等可以从终端设备的存储系统内查到到的,所述可在终端设备的存储系统查询到的字符对象类型可以预先储存。举例来说,所述第一语音转化的文本信息为“helpmesendamessagetojulie”,其中字符对象“julie”经过语义分析,是邮件发送的对象,很有可能是用户的某位联系人,即获取所述文本信息中的目标初始对象“julie”。

s303,识别所述目标初始对象的类型;

在一个实施例中,所述目标初始对象的类型包括但不限于:联系人类型、应用名称类型、系统工具类型、应用程序类型,上述类型是可以在所述终端的数据库直接查找到的。在一个实施例中,识别所述文本信息类型方法可以根据所述文本信息的句式结构、句式类型进行对句子含义进行推测,识别出其类型。所述手机语音助手可以储存句子的基本结构,在转化所述第一语音信息时对转化得到的文本信息的结构进行基本,标记结构明显异常的文本字符对象,或者标记明显是人名、应用名称、系统工具名称、搜索引擎名称等可以从终端设备的存储系统内查到到的字符对象,等等。举例来说,识别目标初始对象“julie”的类型,根据整个句子结果“sendamessagetojulie,“to”后面跟宾语,且与所述“sendamessage”对应,关联推断出所述“julie”可能为“message”的发送对象,其很有可能为联系人类型。

在一个实施例中,识别所述目标初始对象的类型还可以通过所述目标初始对象已有的字符对象结合句式结构进行联想推测,所述手机语音助手要有最基本的词库,可以对转化得到的文本信息进行联想,通过对手机的联想。举例来说,用户想要输入的语音信息是“你好,请帮我打开手电筒”,所述第一语音信息转化得到的文本信息是“你好,请帮我打开收电筒”,其中,“收电筒”的用词组合在词库使用率较低,并不常见,所以获取到所述目标初始对象为“收电筒”,根据所述目标初始对象中的字符“电筒”和前面的动词字符“打开”,可以推断出所述“收电筒”很可能为一个名词组合,且是一个关于电筒应用的名词,推断所述目标初始对象为一个应用名称。

s304,调取所述目标初始对象类型对应的关联数据库或联网搜索与所述目标初始对象类型对应的对象;在一个实施例中,当识别到所述目标初始对象的类型时,首先需要确定所述目标初始对象的关联数据库,所述目标初始对象类型与其关联数据库可以是预先储存的,也可以是所述语音助手通过智能分析关联得到的。举例来说,当识别所述目标初始对象的类型为联系人类型时,则将终端存储的通讯录数据库作为所述关联数据库,确定所述关联数据库后,通过授权后调取所述关联数据库。

其中,当识别所述目标初始对象的类型为联系人类型时,则将终端存储的通讯录数据库作为所述关联数据库。举例来说,当识别出所述目标初始对象“julie”为联系人类型时,所述终端设备就将通讯录数据库的权限授予给语音识别装置,在已授权的基础上,在所述关联数据库内查找与所述“julie”相关的字符对象。

其中,当识别所述目标初始对象的类型为应用名称类型时,将终端记录的系统应用数据库作为所述关联数据库。举例来说,当识别出所述目标初始对象“收电筒”为应用名称类型时,所述终端设备就将系统应用数据库的权限授予给语音识别装置,在已授权的基础上,查找与所述“收电筒”相关的字符对象。

在一个实施例中,当识别到所述目标初始对象的类型与所述终端预先储存的类型不符合且所述终端无法分析得到时,所述终端可以联网搜索与所述目标初始对象类型对应的对象。

s305,若在所述关联数据库查找或联网搜索到与所述目标初始对象之间的匹配度满足预设阈值的对象,则根据所述对象对所述初始对象进行更新,得到初始信息;

在一个实施例中,调取所述目标初始对象类型对应的关联数据库,若在所述关联数据库中查找到与所述目标初始对象之间的匹配度满足第一预设阈值的对象,则根据查找到的对象对所述目标初始对象进行更新,以得到初始信息。其中,所述第一预设阈值可以是系统提前保存的,也可以是用户自定义的,所述阈值可以为80%、85%、95%等,所述第一阈值的匹配度是所述语音助手功能对应装置在语音识别时计算得到的,所查找到的满足第一预设阈值的字符对象可以为一个或者多个,选择匹配度最高的字符对象更新所述目标初始对象,其余的字符对象可以为候选对象。

在一个实施例中,联网搜索与所述目标初始对象类型对应的对象,若查找到与所述目标初始对象之间的匹配度满足第二预设阈值的对象,则根据查找到的对象对所述目标初始对象进行更新,以得到初始信息。其中所述第二预设阈值可以是系统提前保存的,也可以是用户自定义的,所述第二阈值的匹配度是所述语音助手功能对应装置在语音识别时计算得到的。

s306、检测作用在所述用户界面上的操作;

在一个实施例中,根据语音信息生成初始信息并输出在所述用户界面上后,用户可以判断用户界面上所显示的初始信息是否正确,若所述初始信息不正确时,可以通过针对初始信息中识别错误的信息进行文本操作修改,也可以点击所述用户界面上显示的语音更正标识,重新录入语音信息进行修改。

s307、当检测到针对所述初始信息的第一操作时,输出与所述初始信息对应的候选信息;

在一个实施例中,当检测到针对所述初始信息的第一操作时,确定所述第一操作选中的目标对象,并显示预览界面,所述预览界面显示所述目标对象的候选对象,所述候选信息包括第一操作选中的目标对象以及预览界面;

在一个实施例中,所述第一操作是用户作用在所述触摸显示屏上针对所述初始信息的按压操作,通过第一操作将所述初始信息中识别错误的文本信息选中,用于确定用户想要修改的目标对象s203。所述第一操作包括:长按、重按、滑动、隔空手势操作、相邻两次点击操作之间的时间间隔小于预设阈值的n次点击操作,所述n为大于等于2的整数中的至少一种。

s308、当检测到针对所述候选信息的第二操作时,获取更正对象;根据所述更正对象更新所述初始信息,得到和/或输出目标信息。所述第二操作包括:长按、重按、滑动、隔空手势操作、相邻两次点击操作之间的时间间隔小于预设阈值的n次点击操作,所述n为大于等于2的整数中的至少一种,所述第二操作可以与第一操作相同,也可以不同。

所述更新初始信息是通过使用更正对象直接替换所述目标对象,得到目标信息。所述显示的目标信息需要与所述初始信息相区别,区别方式包括但不限于通过在所述用户界面上显示字符串“更正后信息”将所述初始对话信息与语音更新文本信息间隔开。

在一个实施例中,在s306中,检测到用户对语音更正标识进行操作时,还可以包括以下步骤:

s3011、当检测针对所述语音更正标识的操作时,通过所述语音更正标识重新录入语音更正信息;

在一个实施例中,在所述用户界面上一直显示所述语音更正标识;或者在检测到针对所述初始信息的第一操作时,确定所述初始信息识别错误,显示所述语音更正标识;所述语音更正标识可以与所述预览界面同时在同一用户界面上显示,显示位置优先在所述用户界面的正下方,如图2b中的207所示。

所述语音更正标识用于用户重新录入语音信息,还用于重新录入某个被选中的识别错误的字符对象的语音,当用户按压所述语音更正标识时,打开所述麦克风对用户按压所述语音更正标识的时间内的语音信息进行采集;同时所述更正图标可以是麦克风图标、扬声器图标等,所述更正图标旁可以配有文字提示用户进行重新录入语音信息,例如“pleasesayitagain…”。

当检测到用户界面上所述语音更正标识的触摸区域有按压操作时,打开麦克风,采集用户在按压时间内的语音更正信息,所述语音更正信息可以是重新录入的整句语音信息,所述语音更正信息还可以是针对所述初始信息中不正确的目标对象重新录入的语音信息。

当用户针对所述初始信息中中识别错误的字符对象进行按压,选中的目标对象时,对所述目标对象进行标记,其可以被突出显示供用户与其他字符进行区分,所述突出显示包括但不限于改变颜色、字体大小、字体粗细或者附加下划线。在标记好所述目标对象的基础上,当检测到用户界面上所述语音更正标识的触摸区域有按压操作时,打开麦克风用户按压时间内的语音更正信息进行采集,所采集到的语音更正信息为更正所述目标对象的消息。

s3012、据所述语音更正信息更新所述初始信息;和/或,输出所述初始信息和/或所述语音更正信息;

在一个实施例中,可以在所述用户界面上直接显示所述语音更正信息转化得到的语音更新文本信息。针对所述目标对象进行语音更正标识,在完成标记所述目标对象后通过所述语音更正标识重新录入语音更正信息,将所述语音更正信息所转化得到的文本信息直接替换所述初始信息中的目标对象,更新所述初始信息,在用户界面上显示语音更新文本信息。所述显示的语音更新文本信息需要与所述初始信息区别开,包括但不限于以下方式:通过在所述用户界面上显示字符串“更正后信息”将所述初始对话信息与语音更新文本信息间隔开。

在一个实施例中,用户通过上述方法都不能实现对目标对象的更正,本发明还可以提供手动修改模式更正所述目标对象,用户在选中所述目标对象后,可以通过单击右键选择手动修改模式,弹出键盘页面,所述键盘页面可以与所述预览页面显示在同一用户界面上,用户通过键盘输出正确的字符对象,替换所述目标对象,更新所述初始信息。

在一个实施例中,可以关联所述目标对象以及更正对象,当再次获取所述目标对象时,优先显示相对应的更正对象;还可以关联所述目标初始对象和在用于更新所述目标初始对象的字符对象,当再次获取所述目标初始对象,优先显示与之关联的字符对象;还可以关联语音更正信息以及语音更正文本信息,当再获取所述语音更正信息时,优先显示语音更正文本信息;还可以关联目标对象与对应的用户手动修改的字符对象,当再次获取所述目标对象时,优先显示对应的用户手动修改的字符对象。

s309、对所述初始信息或所述目标信息进行语义分析,输出控制指令;

在一个实施例中,所述控制指令可通过带有手机语音助手功能的装置识别生成,通过对目标信息进行语音分析后,生成相应的控制指令,调用相应的程序。例如,所述目标信息为“helpmesendamessagetojulian.”,通过解析后知道用户需要发送“message”,对象是“julian”,因此生成一段发送某邮件至“julian”的指令,所述控制指令可以是计算机通过编程得到的计算机代码,通过所述控制指令调用邮箱功能,找到该联系人的邮箱地址,发送邮件。

在一个实施例中,所述初始信息、所述候选信息、所述目标信息、所述控制指令的显示位置,可以包括当前界面、预设固定屏幕区域、悬浮窗口中的至少一种,四者显示的位置可以相同,也可以不同。

在一个实施例中,所述方法应用于所述语音识别系统,所述语音识别系统包括至少一个第一终端,至少一个第二终端,所述第一终端用以接收第一语音信息,所述第二终端用以输出所述语音更正标识,并接收所述重新录入的语音更正信息。其中,所述第一终端可以是麦克风、耳机、扬声器等用于接收语音信息的终端设备,所述第二终端可以是手机、个人电脑、平板计算机、车载系统、电视等可以显示控制指令的终端设备,所述第一终端与所述第二终端可以通过有线或者无线方式连接。

在一个实施例中,所述方法应用于所述语音识别系统,所述语音识别系统包括至少一个第一终端,至少一个第二终端,所述第一终端用以接收所述第一语音信息,所述第二终端用以输出所述控制指令。

在本发明实施例中,通过对所接收的语音信息进行识别转化为文本信息,并通过识别所述文本信息的初始对象类型,并通过在所述终端数据库或者联网搜索对应的更正字符自动进行修改,再通过用户人工发现识别错误的目标对象进行识别修改,能够实现快速、准确的对语音信息进行识别和修改,提高语音识别效率。

再请参见图4,图4是本发明的又一种语音识别方法的流程图,该方法可以由智能终端来执行,智能终端例如可以是智能手机、平板电脑、智能可穿戴设备、车载系统、电视等终端,所述方法具体可以包括以下步骤:

s401、在所述接收第一语音之前,检测所述终端设备的语音助手是否打开,若所述语音助手没有没打开,向所述终端设备发送打开语音助手的指令,开启语音助手。

s402、接收第一语音信息;在一个实施例中,所述第一语音信息可以通过终端设备的麦克风对用户的语音信息进行采集。

s403、将所述第一语音信息转化为文本信息;

在一个实施例中,可以将所述第一语音信息与终端设备的语音库进行匹配,得到与所述第一语音信息发音匹配度高的文本信息,所述语音库包括但不限于不同地域方言所对应的方言语音库、不同国家语言所对应的语种语音库等,在接收第一语音信息时可以获取移动终端用户的地理位置信息,根据位置信息加载相应的方言语音库或者语种语音库。

s404、在用户界面上显示所述初始信息,所述初始信息是通过选择与所述第一语音信息匹配度最高的文本信息,所述用户界面是用于语音助手与用户自然会话时显示会话过程的界面;

s405、判断所述初始信息是否正确,用户判断所述初始文本是否正确,当检测到触摸屏有针对所述初始信息的第一操作,即表示所述初始信息不正确,执行步骤s407;未检测到所述第一操作,则正确,执行步骤s410。

s406、若判断所述初始信息不正确,标记所述第一操作所选中目标对象,并在所述用户界面上显示语音更正标识;在一个实施例中,用户可以根据所述第一操作选中识别错误的目标对象,所述第一操作可包括点击时长大于预设阈值的长按操作、或者相连两次点击操作之间的时间间隔小于预设阈值的n次点击操作,所述n为大于等于2的整数,其中n为2、3、4等。

s407、通过所述语音更正标识重新录入语音更正信息;

在一个实施例中,用户可以不用选择字符对象,重新输入整句语音更正信息;也可以选中所述识别错误的目标对象,仅针对所述目标对象输入所述语音更正信息,所述语音更正信息仅用于更正所述目标对象。

s408、根据所述语音更正信息更新所述初始信息,将所述语音更正信息转化为文本信息,所述语音更正信息转化为语音更正文本信息的方式与所述第一语音信息转化为初始文本消息的方法一样,根据所述文本信息更新所述初始信息。

s409、显示所述初始信息和/或所述语音更正信息,所述语音更新文本信息可以是直接输入的整句语音更正信息转化得到的,也可以是通过语音更正方式将所述初始信息更新的语音更新文本信息。

s410、在显示所述语音更新文本信息后,对所述语音更新文本信息进行语义分析,生成控制指令,所述指令控制生成的方法请参照上述实施例s308。

通过对所接收的语音信息进行识别转化为初始信息,获取用户选中的识别错误的目标对象,并针对所述目标对象或者所述初始信息重新录入语音更正信息进行更新,操作简单,节省时间,符合用户使用需求,能够实现快速、准确的对语音信息进行识别和修改,提高语音识别效率。

再请参见图5、图6,图5为本发明实施例提供的一种语音识别系统,图6为本发明提供的再一种语音识别方法,图6所示的方法可以应用于图5所示的系统上;所述语音识别系统至少所述包括至少一个第一终端501,至少一个第二终端502,所述第一终端可以是麦克风、耳机、扬声器、手机、个人电脑等可以用于接收语音信息的终端设备,所述第二终端可以是手机、个人电脑、平板计算机、车载系统、电视等具有显示功能并可以执行控制指令的终端设备,所述第一终端与所述第二终端可以通过有线方式连接,也可以通过wifi、蓝牙等无线方式进行通信。

在一个实施例中,所述第一终端可以包括第一处理器和第一存储器,还可以包括用于接收语音信息的麦克风电路,所述第二终端可以包括第二处理器和第二存储器,还可以包括具有显示功能的显示屏,所述第一终端和所述第二终端还可以包括用于通信的通讯接口,所述第一存储器和/或所述第二存储器用于存储计算机程序,所述计算机程序包括程序指令,所述第一处理器和/或所述第二处理器被配置用于调用所述程序指令,执行如图6所示的语音识别方法,所述s601-s608的具体实现过程可以参照s301-s308:

s601、第一终端接收第一语音信息,将所述第一语音信息发送给第二终端,所述第二终端转化所述第一语音信息;在一个实施例中,所述s601还可以是所述第一终端接收第一语音信息,由所述第一终端转化所述语音信息。

s602、所述第二终端获取根据所述第一语音信息中转化得到的目标初始对象。

s603、所述第二终端识别所述目标初始对象的类型;在一个实施例中,所述初始对象的类型包括但不限于联系人类型、应用名称类型、系统工具类型、应用程序类型,上述类型是可以在所述终端的数据库直接查找到的。

s604、所述第二终端调取所述目标初始对象类型对应的关联数据库或联网搜索与所述目标初始对象类型对应的对象。

在一个实施例中,所述第二终端当识别所述目标初始对象的类型为联系人类型时,则将终端存储的通讯录数据库作为所述关联数据库。

在一个实施例中,所述第二终端当识别所述目标对象的类型为应用名称类型时,将终端记录的系统应用数据库作为所述关联数据库。

在一个实施例中,所述第二终端当识别所述目标初始对象的类型为未知类型时,则联网搜索与所述目标初始对象类型对应的对象。

s605、所述第二终端若在所述关联数据库查找或联网搜索到与所述目标初始对象之间的匹配度满足预设阈值的对象,则根据所述对象对所述初始对象进行更新,得到初始信息;

在一个实施例中,所述第二终端可以调取所述目标初始对象类型对应的关联数据库,若在所述关联数据库中查找到与所述目标初始对象之间的匹配度满足第一预设阈值的对象,则根据查找到的对象对所述目标初始对象进行更新,以得到初始信息。

在一个实施例中,所述第二终端可以联网搜索与所述目标初始对象类型对应的对象,若查找到与所述目标初始对象之间的匹配度满足第二预设阈值的对象,则根据查找到的对象对所述目标初始对象进行更新,以得到初始信息。所述第一预设阈值和所述第二预设阈值可以相同,也可以不相同。

在一个实施例中,所述步骤s601-s605还可以由所述第一终端执行,可以是所述第一终端将所述第一语音信息转化为初始信息发送给所述第二终端。

s606、所述第一终端和/或所述第二终端检测作用在用户界面上的操作;在一个实施例中,第二终端根据语音信息生成初始信息并输出在所述用户界面上后,用户可以判断用户界面上所显示的初始信息是否正确,若所述初始信息不正确时,第二终端可以通过针对初始信息中识别错误的信息进行文本操作修改,也可以点击所述用户界面上显示的语音更正标识,重新录入语音信息进行修改。

s607、当检测到针对所述初始信息的第一操作时,在所述第一终端和/或所述第二终端上输出与所述初始信息对应的候选信息;

在一个实施例中,当所述第二终端检测到针对所述初始信息的第一操作时,确定所述第一操作选中的目标对象,并显示预览界面,所述预览界面显示所述目标对象的候选对象,所述候选信息包括第一操作选中的目标对象对应的预览界面;在一个实施例中,所述第一操作包括:长按、重按、滑动、隔空手势操作、相邻两次点击操作之间的时间间隔小于预设阈值的n次点击操作,所述n为大于等于2的整数中的至少一种。

s608、当检测到针对所述候选信息的第二操作时,获取更正对象;根据所述更正对象更新所述初始信息,得到目标信息,和/或在所述第一终端和/或所述第二终端上输出目标信息。

在一个实施例中,所述第二操作包括:长按、重按、滑动、隔空手势操作、相邻两次点击操作之间的时间间隔小于预设阈值的n次点击操作,所述n为大于等于2的整数中的至少一种,所述第一操作和所述第二操作可以相同,也可以不同。

在一个实施例中,所述s606、s607、s608还可以由所述第一终端执行,可以是所述第一终端接收第一语音信息,转化为初始信息,获取所述初始信息的目标对象并在预览界面上显示所述目标对象的候选对象,根据所述获选对象获取更正对象,并根据所述更正对象更新所述初始信息,得到目标信息和/或显示所述目标信息。

在一个实施例中,当所述s606中检测到用户界面上的操作是针对语音更正标识的操作时,本实施例还可以包括以下步骤:s6011、当检测针对所述语音更正标识的操作时,所述第二终端通过所述语音更正标识重新录入语音更正信息;

s6012、根据所述语音更正信息更新所述初始信息;和/或,通过所述第二终端输出所述语音更正信息和/或所述初始信息。

在一个实施例中,所述s6011-s6012还可以由所述第一终端执行,当所述第一终端检测到针对语音更正标识的操作时,所述第一终端通过所述语音更正标识重新录入语音更正信息,并接收所述语音更正信息,根据所述语音更正信息更新所述初始信息;和/或,通过所述第一终端,输出所述语音更正信息和/或所述初始信息。

s609、所述第二终端对所述初始信息或所述目标信息进行语义分析,输出显示控制指令;在一个实施例中,所述第二终端通过所述目标信息生成控制指令,调用相应的程序。

在一个实施例中,所述初始信息的类型或所述目标信息的类型,包括文本、图像、音频、视频、文件中的至少一种。

在一个实施例中,所述初始信息、所述候选信息、所述目标信息、所述控制指令的显示位置,可以包括当前界面、预设固定屏幕区域、悬浮窗口中的至少一种,四者显示的位置可以相同,也可以不同。

在本发明实施例中,通过所述第一终端以及第二终端相互配合使用,由所述第一终端接收语音信息,由所述第二终端将所述语音信息转化为文本信息,并对所述文本信息进行文字和语音修改,所述第一终端与所述第二终端可以通过有线或者无线方式连接,满足了用户语音接收的多元化需求,同时,当所述第二终端不具有语音接收功能,但通过所述第一终端配合使用,实现所述语音识别的功能,适用性更好。

请参见图7,图7是本发明的语音识别装置的结构示意图,本发明实施例的所述装置可以设置在智能终端,该智能终端具体可以是智能手机、平板电脑、智能可穿戴设备、车载系统、电视等终端,所述装置包括如下模块:语义解析模块701,用于接收第一语音信息,将所述第一语音信息转化为初始信息,输出所述初始信息。

在一个实施例中,所述语音识别装置在运行所述语义解析模块的过程中,还具体运行查找模块702:所述查找模块702用于获取根据所述第一语音信息中转化得到的目标初始对象;识别所述目标初始对象的类型;根据所述目标初始对象类型得到初始信息。在一个实施例中,所述查找模块702还用于调取所述目标初始对象类型对应的关联数据库,若在所述关联数据库中查找到与所述目标初始对象之间的匹配度满足第一预设阈值的对象,则根据查找到的对象对所述目标初始对象进行更新,以得到初始信息;在一个实施例中,所述查找模块702还用于联网搜索与所述目标初始对象类型对应的对象,若查找到与所述目标初始对象之间的匹配度满足第二预设阈值的对象,则根据查找到的对象对所述目标初始对象进行更新,以得到初始信息。

在一个实施例中,所述查找模块702还用于当识别所述目标初始对象的类型为联系人类型时,则将终端存储的通讯录数据库作为所述关联数据库。

在一个实施例中,所述查找模块702还用于当识别所述目标初始对象的类型为应用名称类型时,则将终端记录的应用数据库作为所述关联数据库。

在一个实施例中,所述查找模块702还用于当识别所述目标初始对象的类型为未知类型时,则联网搜索与所述目标初始对象类型对应的对象。

显示模块703,用于当检测到针对所述初始信息的第一操作时,输出与所述初始信息对应的候选信息;

获取模块704,用于当检测到针对所述候选信息的第二操作时,获取更正对象;

更正模块705,用于根据所述更正对象更新所述初始信息,得到和/或输出目标信息。

在一个实施例中,还可以运行处理语音更正模块706:所述语音更正模块706用于输出语音更正标识;通过所述语音更正标识重新录入语音更正信息;根据所述语音更正信息更新所述初始信息;和/或,输出所述语音更正信息。

命令生成模块707,用于对所述初始信息或所述目标信息进行语义分析,输出控制指令。

可以理解的是,本发明实施例中各个功能模块的具体实现可参考前述方法项实施例的相关描述,在此不赘述。

在本发明实施例中,是针对初始信息中识别错误的内容进行选择性的替换修改,操作简单,节省时间,符合用户使用需求,能够实现快速、准确的对语音信息进行识别和修改,提高语音识别效率。再请参见图8,图8是本发明智能终端的结构示意图。本发明实施例所述的智能终端可以是指:智能手机、平板电脑、智能可穿戴设备等终端。所述智能终端至少包括处理器801、存储装置802和用户接口803,所述处理器801、所述存储装置802和所述用户接口803相互连接,其中,所述存储装置802用于存储计算机程序,所述计算机程序包括程序指令,所述处理装置801用于执行所述程序指令。

所述用户接口803可以是指能够接收到用户输入操作的触摸显示屏,能够接收到语音输入的麦克风等设备,能够向用户发出声音提醒的扬声器,能够接收到用户所输入语音消息的麦克风等。。

所述存储装置802可以包括易失性存储器(volatilememory),例如随存取存储器(random-accessmemory,ram);存储装置也可以包括非易失性存储器(non-volatilememory),例如快闪存储器(flashmemory),固态硬盘(solid-statedrive,ssd)等;存储装置还可以包括上述种类的存储器的组合。

所述处理器801可以是中央处理器(centralprocessingunit,cpu)。所述处理器还可以进一步包括硬件芯片。上述硬件芯片可以是专用集成电路(application-specificintegratedcircuit,asic),可编程逻辑器件(programmablelogicdevice,pld)等。上述pld可以是现场可编程逻辑门阵列(field-programmablegatearray,fpga),通用阵列逻辑(genericarraylogic,gal)等。

在一个实施例中,所述存储装置802还用于存储程序指令所述处理器801可以调用所述程序指令:接收第一语音信息,将所述第一语音信息转化为初始信息,输出所述初始信息;当检测到针对所述初始信息的第一操作时,输出与所述初始信息对应的候选信息;当检测到针对所述候选信息的第二操作时,获取更正对象;根据所述更正对象更新所述初始信息,得到和/或输出目标信息。

在一个实施例中,所述处理器801,在执行接收第一语音信息,将所述第一语音信息转化为初始信息时,获取根据所述第一语音信息中转化得到的目标初始对象;识别所述目标初始对象的类型;根据所述目标初始对象类型得到初始信息。

在一个实施例中,所述处理器801,在执行所述根据所述目标初始对象类型得到初始信息时,所述处理器801具体用于调取所述目标初始对象类型对应的关联数据库,若在所述关联数据库中查找到与所述目标初始对象之间的匹配度满足第一预设阈值的对象,则根据查找到的对象对所述目标初始对象进行更新,以得到初始信息;或,联网搜索与所述目标初始对象类型对应的对象,若查找到与所述目标初始对象之间的匹配度满足第二预设阈值的对象,则根据查找到的对象对所述目标初始对象进行更新,以得到初始信息。

在一个实施例中,所述处理器801,在执行所述根据所述目标初始对象类型得到初始信息时,所述处理器801具体用于当识别所述目标初始对象的类型为联系人类型时,则将终端存储的通讯录数据库作为所述关联数据库;和/或,当识别所述目标初始对象的类型为应用名称类型时,则将终端记录的应用数据库作为所述关联数据库;和/或,当识别所述目标初始对象的类型为未知类型时,则联网搜索与所述目标初始对象类型对应的对象。

在一个实施例中,所述处理器801还用于输出语音更正标识;通过所述语音更正标识重新录入语音更正信息;根据所述语音更正信息更新所述初始信息;和/或,输出所述初始信息和/或所述语音更正信息。

在一个实施例中,所述处理器801还用于对所述初始信息或所述目标信息进行语义分析,输出控制指令。

可以理解的是,本发明实施例中所述的处理器801的具体实现可参考前述方法项实施例的相关描述,在此不赘述。

此外,本发明还公开了一种计算机存储介质,所述计算机存储介质中存储有程序指令,所述程序指令被执行时,用于实现如图1或图3、图4或图6所述的语音识别方法。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的程序可存储于一计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,所述的存储介质可为磁碟、光盘、只读存储记忆体(read-onlymemory,rom)或随机存储记忆体(randomaccessmemory,ram)等。

以上所揭露的仅为本发明的部分实施例而已,当然不能以此来限定本发明之权利范围,本领域普通技术人员可以理解实现上述实施例的全部或部分流程,并依本发明权利要求所作的等同变化,仍属于发明所涵盖的范围。

技术特征:

1.一种语音识别方法,其特征在于,包括步骤:

接收第一语音信息,将所述第一语音信息转化为初始信息,输出所述初始信息;

当检测到针对所述初始信息的第一操作时,输出与所述初始信息对应的候选信息;

当检测到针对所述候选信息的第二操作时,获取更正对象;

根据所述更正对象更新所述初始信息,得到和/或输出目标信息。

2.根据权利要求1所述的方法,其特征在于,接收第一语音信息,将所述第一语音信息转化为初始信息,包括:

获取根据所述第一语音信息中转化得到的目标初始对象;

识别所述目标初始对象的类型;

根据所述目标初始对象类型得到初始信息。

3.根据权利要求2所述的方法,其特征在于,所述根据所述目标初始对象类型得到初始信息包括:

调取所述目标初始对象类型对应的关联数据库,若在所述关联数据库中查找到与所述目标初始对象之间的匹配度满足第一预设阈值的对象,则根据查找到的对象对所述目标初始对象进行更新,以得到初始信息;或,

联网搜索与所述目标初始对象类型对应的对象,若查找到与所述目标初始对象之间的匹配度满足第二预设阈值的对象,则根据查找到的对象对所述目标初始对象进行更新,以得到初始信息;

所述第一预设阈值和所述第二预设阈值相同或不同。

4.根据权利要求3所述的方法,其特征在于,

当识别所述目标初始对象的类型为联系人类型时,则将终端存储的通讯录数据库作为所述关联数据库;和/或,

当识别所述目标初始对象的类型为应用名称类型时,则将终端记录的应用数据库作为所述关联数据库;和/或,

当识别所述目标初始对象的类型为未知类型时,则联网搜索与所述目标初始对象类型对应的对象。

5.根据权利要求1至4任一所述的方法,其特征在于,还包括:

对所述初始信息或所述目标信息进行语义分析,输出控制指令。

6.根据权利要求5所述的方法,其特征在于,

输出所述初始信息的位置包括当前界面、预设固定屏幕区域、悬浮窗口中的至少一种,或

输出所述候选信息的位置包括当前界面、预设固定屏幕区域、悬浮窗口中的至少一种,或

输出所述目标信息的位置包括当前界面、预设固定屏幕区域、悬浮窗口中的至少一种,或

输出所述控制指令的位置包括当前界面、预设固定屏幕区域、悬浮窗口中的至少一种;

所述初始信息、所述候选信息、所述目标信息以及所述控制指令输出位置相同或不同。

7.根据权利要求5所述的方法,其特征在于,所述方法应用于所述语音识别系统,所述语音识别系统包括至少一个第一终端,至少一个第二终端,所述第一终端用以接收所述第一语音信息,所述第二终端用以输出所述控制指令。

8.根据权利要求1至4任一所述的方法,其特征在于,还包括:

输出语音更正标识;

通过所述语音更正标识重新录入语音更正信息;

根据所述语音更正信息更新所述初始信息;和/或,

输出所述初始信息和/或所述语音更正信息。

9.根据权利要求8所述的方法,其特征在于,所述方法应用于所述语音识别系统,所述语音识别系统包括至少一个第一终端,至少一个第二终端,所述第一终端用以接收第一语音信息,所述第二终端用以输出所述语音更正标识,并接收所述重新录入的语音更正信息。

10.根据权利要求1至4任一所述的方法,其特征在于,

所述初始信息的类型或所述目标信息的类型,包括文本、图像、音频、视频、文件中的至少一种;和/或,

所述第一操作或所述第二操作包括:长按、重按、滑动、隔空手势操作、相邻两次点击操作之间的时间间隔小于预设阈值的n次点击操作,所述n为大于等于2的整数中的至少一种;

所述第一操作和所述第二操作相同或不同。

11.根据权利要求1至4任一所述的方法,其特征在于,

输出所述初始信息的位置包括当前界面、预设固定屏幕区域、悬浮窗口中的至少一种,或

输出所述候选信息的位置包括当前界面、预设固定屏幕区域、悬浮窗口中的至少一种,或

输出所述目标信息的位置包括当前界面、预设固定屏幕区域、悬浮窗口中的至少一种;

所述初始信息、所述候选信息以及所述目标信息的输出位置相同或不同。

12.根据权利要求1至4任一所述的方法,其特征在于,所述方法应用于所述语音识别系统,所述语音识别系统包括至少一个第一终端,至少一个第二终端,所述第一终端用以接收第一语音信息,所述第二终端用以输出所述初始信息或输出所述候选信息或输出所述目标信息。

13.一种语音识别方法,所述方法应用于语音识别系统,所述语音识别系统包括至少一个第一终端,至少一个第二终端,其特征在于,包括:

从所述第一终端接收第一语音信息,并将所述第一语音信息转化为初始信息;

根据所述初始信息得到和/或输出目标信息。

14.根据权利要求13的方法,其特征在于:所述根据所述初始信息得到和/或输出目标信息包括:

在所述第一终端和/或所述第二终端上输出所述初始信息;

当检测到针对所述初始信息的第一操作时,在所述第一终端和/或所述第二终端上输出与所述初始信息对应的候选对象;

当检测到针对所述候选信息的第二操作时,获取更正对象;

根据所述更正对象更新所述初始信息,得到目标信息,和/或在所述第一终端和/或所述第二终端上输出目标信息。

15.根据权利要求14的方法,其特征在于:

输出所述初始信息的位置包括当前界面、预设固定屏幕区域、悬浮窗口中的至少一种,或

输出所述候选信息的位置包括当前界面、预设固定屏幕区域、悬浮窗口中的至少一种,或

输出所述目标信息的位置包括当前界面、预设固定屏幕区域、悬浮窗口中的至少一种;

所述初始信息、所述候选信息以及所述目标信息的显示位置相同或不同;

和/或,

所述第一操作或所述第二操作包括:长按、重按、滑动、隔空手势操作、相邻两次点击操作之间的时间间隔小于预设阈值的n次点击操作,所述n为大于等于2的整数中的至少一种;

所述第一操作和所述第二操作相同或不同。

16.根据权利要求13至15任一所述的方法,其特征在于,所述从所述第一终端接收第一语音信息,并将所述第一语音信息转化为初始信息,包括:

获取根据所述第一语音信息中转化得到的目标初始对象;

识别所述目标初始对象的类型;

根据所述目标初始对象类型得到初始信息。

17.根据权利要求16所述的方法,其特征在于,所述根据所述目标初始对象类型得到初始信息步骤,包括:

调取所述目标初始对象类型对应的关联数据库,若在所述关联数据库中查找到与所述目标初始对象之间的匹配度满足第一预设阈值的对象,则根据查找到的对象对所述目标初始对象进行更新,以得到初始信息;或,

联网搜索与所述目标初始对象类型对应的对象,若查找到与所述目标初始对象之间的匹配度满足第二预设阈值的对象,则根据查找到的对象对所述目标初始对象进行更新,以得到初始信息;

所述第一预设阈值和所述第二预设阈值相同或不同。

18.根据权利要求17所述的方法,其特征在于,

当识别所述目标初始对象的类型为联系人类型时,则将终端存储的通讯录数据库作为所述关联数据库;和/或,

当识别所述目标对象的类型为应用名称类型时,将终端记录的系统应用数据库作为所述关联数据库;和/或,

当识别所述目标初始对象的类型为未知类型时,则联网搜索与所述目标初始对象类型对应的对象。

19.根据权利要求13至15任一所述的方法,其特征在于,还包括:

对所述初始信息或所述目标信息进行语义分析,输出控制指令。

20.根据权利要求19所述的方法,其特征在于,

通过所述第一终端和/或所述第二终端输出所述初始信息的位置包括当前界面、预设固定屏幕区域、悬浮窗口中的至少一种,或

通过所述第一终端和/或所述第二终端输出所述候选信息的位置包括当前界面、预设固定屏幕区域、悬浮窗口中的至少一种,或

通过所述第一终端和/或所述第二终端输出所述目标信息的位置包括当前界面、预设固定屏幕区域、悬浮窗口中的至少一种,或

通过所述第一终端和/或所述第二终端输出所述控制指令的位置包括当前界面、预设固定屏幕区域、悬浮窗口中的至少一种;

所述初始信息、所述候选信息、所述目标信息以及所述控制指令输出位置相同或不同。

21.根据权利要求13至15任一所述的方法,其特征在于,还包括:

通过所述第一终端和/或所述第二终端输出语音更正标识;

接收通过所述语音更正标识重新录入的语音更正信息;

根据所述语音更正信息更新所述初始信息;和/或,

通过所述第一终端和/或所述第二终端,输出所述语音更正信息和/或所述初始信息。

22.根据权利要求21所述的方法,其特征在于,

通过所述第一终端和/或所述第二终端输出所述初始信息的位置包括当前界面、预设固定屏幕区域、悬浮窗口中的至少一种,或

输出所述候选信息的位置包括当前界面、预设固定屏幕区域、悬浮窗口中的至少一种,或

输出所述目标信息的位置包括当前界面、预设固定屏幕区域、悬浮窗口中的至少一种;

所述初始信息、所述候选信息以及所述目标信息的输出位置相同或不同。

23.根据权利要求13至15任一所述的方法,其特征在于,

所述初始信息的类型或所述目标信息的类型,包括文本、图像、音频、视频、文件中的至少一种。

24.一种智能终端,其特征在于,包括显示器、处理器和存储器其中,所述存储器用于存储计算机程序,所述计算机程序包括程序指令,所述处理器被配置用于调用所述程序指令,执行如权利要求1至6或8或10至11中任一项所述的语音识别方法。

25.一种语音识别系统,其特征在于,包括至少一第一终端,至少一第二终端,其特征在于,所述第一终端包括第一处理器和第一存储器,所述第二终端包括第二处理器和第二存储器,其中,所述第一存储器和/或所述第二存储器用于存储计算机程序,所述计算机程序包括程序指令,所述第一处理器和/或所述第二处理器被配置用于调用所述程序指令,执行如权利要求7或9或12或13至23中任一项所述的语音识别方法。

26.根据权利要求25所述的系统,其特征在于,所述第一终端包括第一显示屏,和/或所述第二终端包括第二显示屏。

27.一种计算机存储介质,其特征在于,所述计算机存储介质中存储有程序指令,所述程序指令被执行时,用于实现如权利要求1至23中任一项所述的语音识别方法。

技术总结

本发明实施例公开了一种语音识别方法、终端、系统以及计算机存储介质,其中的方法可包括:接收第一语音信息,将所述第一语音信息转化为初始信息,输出所述初始信息;当检测到针对所述初始信息的第一操作时,输出与所述初始信息对应的候选信息;当检测到针对所述候选信息的第二操作时,获取更正对象;根据所述更正对象更新所述初始信息,得到和/或输出目标信息;本发明能够实现快速、准确的对语音信息进行识别和修改,提高语音识别效率。

技术研发人员:肖明;李凌志;陆伟峰;朱荣昌;唐僖僖

受保护的技术使用者:深圳传音控股股份有限公司

技术研发日:.11.07

技术公布日:.02.21

本内容不代表本网观点和政治立场,如有侵犯你的权益请联系我们处理。
网友评论
网友评论仅供其表达个人看法,并不表明网站立场。