第一句子网 > 语音识别方法装置服务器和存储介质与流程

语音识别方法装置服务器和存储介质与流程

时间：2020-02-05 14:32:37

相关推荐

语音识别方法装置服务器和存储介质与流程

本发明实施例涉及语音识别技术领域，尤其涉及一种语音识别方法、装置、服务器和存储介质。

背景技术：

地图语音搜索是目前地图重要的功能，通过使用语音进行输入与交互，替代手动输入来进行地图类信息的搜索查询，可以极大方便用户输入，更适用于地图驾车场景。

目前，可以调用第三方成熟的语音输入法接口，为地图语音搜索提供语音识别功能的支持。其中，所采用的语音识别模型通常为基于大规模互联网数据训练得到的，具有语音识别的通用性。或者，利用具有地图领域经验的地图语料，重新训练一版专用于地图语音识别的模型。

然而，通用的语音识别模型缺少地图领域经验，不适用于地图语音搜索场景。当将通用的语音识别模型使用到地图场景中后，地图里各地图类信息的名称有大部分在通用语音识别模型中均是低频、少见、甚至是不存在的生疏词汇，直接使用通用的语音识别模型准确率会非常差。此外基于地图语料重新训练专用的语音识别模型的成本较高，且难以克服噪音、区域差异导致的地图信息识别错误的问题，地图语音搜索的准确率较低。

技术实现要素：

本发明实施例提供了一种语音识别方法、装置、服务器和存储介质，能够提高地图语音搜索的语音识别准确率。

第一方面，本发明实施例提供了一种语音识别方法，包括：

对当前用户语音进行地图信息搜索，确定匹配的至少一个候选信息；

依据当前用户的地图领域特征，对所述至少一个候选信息进行消歧处理，以确定所述当前用户语音的地图信息识别结果。

第二方面，本发明实施例提供了一种语音识别装置，包括：

候选信息确定模块，用于对当前用户语音进行地图信息搜索，确定匹配的至少一个候选信息；

语音识别消歧模块，用于依据当前用户的地图领域特征，对所述至少一个候选信息进行消歧处理，以确定所述当前用户语音的地图信息识别结果。

第三方面，本发明实施例提供了一种服务器，包括：

一个或多个处理器；

存储器，用于存储一个或多个程序；

当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现本发明任意实施例所述的语音识别方法。

第四方面，本发明实施例提供了一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现本发明任意实施例所述的语音识别方法。

本发明实施例通过对用户语音进行专门的地图信息搜索，确定与用户语音匹配的多个候选信息，并依据当前用户的地图领域特征，对多个候选信息进行消歧处理，从多个候选信息中筛选出与用户最匹配的候选信息作为地图信息识别结果。本发明实施例通过对于地图领域信息的专项搜索得到的候选信息进行消歧处理，不仅去除了可能存在的通用领域知识对于地图搜索的干扰，而且避免了歧义以及口音等导致的误判，使得搜索得到的地图信息识别结果更加符合用户习惯和需求，大幅提高了地图语音搜索的语音识别准确率。

附图说明

图1为本发明实施例一提供的一种语音识别方法的流程图；

图2为本发明实施例二提供的一种语音识别方法的流程图；

图3为本发明实施例二提供的语音识别的整体架构图；

图4为本发明实施例三提供的一种语音识别装置的结构示意图；

图5为本发明实施例四提供的一种服务器的结构示意图。

具体实施方式

下面结合附图和实施例对本发明实施例作进一步的详细说明。可以理解的是，此处所描述的具体实施例仅仅用于解释本发明实施例，而非对本发明的限定。另外还需要说明的是，为了便于描述，附图中仅示出了与本发明实施例相关的部分而非全部结构。

另外还需要说明的是，为了便于描述，附图中仅示出了与本申请相关的部分而非全部内容。在更加详细地讨论示例性实施例之前应当提到的是，一些示例性实施例被描述成作为流程图描绘的处理或方法。虽然流程图将各项操作(或步骤)描述成顺序的处理，但是其中的许多操作可以被并行地、并发地或者同时实施。此外，各项操作的顺序可以被重新安排。当其操作完成时所述处理可以被终止，但是还可以具有未包括在附图中的附加步骤。所述处理可以对应于方法、函数、规程、子例程、子程序等等。

实施例一

图1为本发明实施例一提供的一种语音识别方法的流程图，本实施例可适用于依据用户语音进行地图信息搜索的情况，该方法可由一种语音识别装置来执行，该装置可以采用软件和/或硬件的方式实现，优选是配置于服务器。该方法具体包括如下：

S110、对当前用户语音进行地图信息搜索，确定匹配的至少一个候选信息。

在本发明具体实施例中，地图产品都提供了地图信息搜索功能，尤其是为了便于驾驶导航的语音搜索功能。当前用户语音是指用户使用地图产品时，向地图产品所输入的用于地图信息查询的语音搜索请求，用户语音中可以包括至少一个待搜索地点的相关信息、对于待搜索地点的限制条件等。地图产品对于用户提交的语音搜索请求，搜索相关的POI(Point of Interest，兴趣点)数据并返回给用户，地图中的每一条POI数据可以包括名称、类别、经纬度以及重要度等多种信息。通常地图搜索可以包括精确搜索和模糊搜索，其中，精确搜索是指地图搜索中，用户提交的语音搜索请求是针对某个具体POI数据点的查找，模糊搜索可以是基于sug引擎，根据语音搜索请求中的部分信息、相似度或修正后的语音进行的宽泛搜索。

本实施例中，采用语音识别模型对用户语音进行识别，语音识别模型通常可以包括声学子模型和语言子模型。其中，为了提高地图信息搜索的准确度，采用通用语料和地图语料同时训练语音识别模型。本实施了中为了降低语音识别模型训练的成本，在传统的基于通用语料训练的通用语音识别模型的基础上，鉴于地图中的POI数据有较大部分属于低频、少见的生疏词汇，因此可以直接采用地图语料对通用语音识别模型中的语言子模型进行二次训练，以加强语音识别模型对于地图语料的识别能力。

本实施例中，区别于传统的地图搜索中将用户语音识别为文本，并依据文本进行搜索的方式。在新方案中，语音识别不直接输出文本，而是改为输出由多个音素构成的音素表示作为模糊音，从而基于模糊音进行地图信息搜索。其中，模糊音可以是指非严格要求的拼音，即模糊音在形式上类似于拼音，但是模糊音中可能存在不符合拼音拼写规则的差异，且模糊音从整体上仍然保留了声音相关的特征。从而基于模糊音进行搜索，得到与模糊音发音相匹配的至少一个候选信息。其中，候选信息可以是与用户发音相同或相近的候选识别文本，也可以是与用户口音一致或关联扩展的候选识别文本。

具体的，在语音识别模型中，通常只有识别出对应的文本信息，才能视为一次正常的语音识别过程，进而可以从中提取出任一环节的中间信息。因此，本实施例通过对通用语音识别模型中语言子模型的二次训练，提高地图类信息的识别命中率，以减少地图类信息无法识别的异常情况。相应的，采用地图语料训练的语音识别模对用户语音进行识别而得到识别文本时，即一次正常的语音识别后，可以获取用户语音基于声学子模型识别的音素表示，将用户语音的音素表示作为模糊音，且无需或者尽量少的考虑文本识别结果。进而基于模糊音进行搜索，在搜索的过程中，可以实现对音素表示的纠错和扩展，得到多个不同的音素表示作为变异音素表示，并搜索得到与原音素表示以及变异音素表示分别相匹配的候选信息。

示例性的，假设基于用户语音识别出模糊音输出为“cangshangcun”，基于模糊音进行地图信息搜索，可以匹配得到的候选信息包括“通州区苍上村”、“通州区仓上村”以及“通州区仓场村”等。

S120、依据当前用户的地图领域特征，对至少一个候选信息进行消歧处理，以确定当前用户语音的地图信息识别结果。

在本发明具体实施例中，鉴于语音识别只能以用户发音为依据进行搜索，语音搜索中可能存在与用户语音发音相同但内容无关联的搜索结果，也可能存在用户口音偏差导致的错误搜索结果。因此本实施例在得到与用户语音相匹配的至少一个候选信息之后，还需要对候选信息进行消除歧义处理，以滤除候选信息中的干扰信息，提高地图信息识别结果确定的准确度。

本实施例中，可以采用当前用户的地图领域特征对候选信息进行消歧处理。具体的，当前用户的地图领域特征包括当前地图搜索场景特征，当前用户行为特征，以及候选文本的地图信息搜索质量特征中的至少一项。

其中，当前地图搜索场景特征可以包括用户当前进行搜索时用户本身所处的场景特征，例如用户当前的位置，进而可以依据用户当前位置与候选信息所表示位置之间的空间位置关系，例如空间隶属、空间相邻以及空间远离等，对候选信息进行筛选。示例性的，根据用户当前的GPS信息确定用户当前所处于的城市、行政区域等，可以滤除该城市、行政区域以外的候选信息。此外，当前地图搜索场景特征还可以包括用户语音中的空间位置描述，例如用户语音中对POI的区域限制等空间位置描述，进而可以依据空间位置描述滤除不满足限制条件的候选信息。示例性的，用户语音中包括限制信息“A城市的POI点B”，候选信息中包括“S城市的POI点B”，进而滤除该候选信息。

其次，当前用户行为特征可以包括用户进行地图搜索的历史搜索行为，鉴于用户对于同一POI的重复搜索概率较大，因此可以根据用户的历史搜索行为，确定各个候选信息的重复搜索概率，进而滤除重复搜索概率较低的候选信息。此外，当前用户行为特征还可以包括用户的口音特征。通常根据地域差异，用户可能存在前后鼻音不分的情况，例如an与ang、en与eng、in与ing、ian与iang以及uan与uang等，平舌与翘舌不分的情况，例如z与zh、c与ch以及s与sh等，或者对于个别区域的用户，用户可能存在f与h、r与l不分的情况等。因此本实施例中的地图语音搜索，可以基于用户的历史搜索行为，确定用户的发音的偏向特征等发音习惯，从而对用户存在发音偏向的音素进行保留和扩展，以避免仅能够根据用户已偏向的发音导致识别错误的情况。示例性的，假设采用打分的方式对候选信息进行筛选，若确定当前用户对于f与h的发音偏向为f，则在检测到存在f音素的候选信息时，将f音素扩展为h音素，并同时将h音素的候选信息的打分设置为与f音素的候选信息相同，进而以最大可能囊括可能正确的候选信息。

此外，可以预先将地图语料或者地图类信息确定为地图类信息库，地图类信息库中存储有真实存在的POI的相关信息。相应的，候选文本的地图信息搜索质量特征可以包括候选信息与预设地图类信息库中的地图类信息之间的相似度，即通过将候选信息与真实存在的POI的文本相似度的计算，可以进一步确定候选信息是否属于一个真实存在的POI，避免通用语料中相同或相近发音的词汇对于地图搜索的干扰。相应的，若候选信息与预设地图类信息库中的地图类信息匹配成功或者相似度大于一定的阈值，则说明该候选信息为一个较优的地图搜索结果。进而滤除地图搜索质量较差的候选信息。此外，候选文本的地图信息搜索质量特征还可以包括地图搜索中的广大用户对于候选信息所表示位置的历史搜索需求分布。例如用户对于人烟稀少地区的地图搜索需求较低，对于繁华地区的地图搜索需求较高。因此可以依据广大用户的历史搜索行为，实时或定时的分析各个POI的搜索需求，从而滤除搜索需求较低的候选信息。

值得注意的是，本实施例分别列举了三种地图领域特征，且每种地图领域特征包括至少两种具体情况。其中，本实施例中的地图领域特征不局限于上述示例，任何可以对候选信息进行合理筛选以消除歧义的特征都可以应用与本实施例中，且每种地图领域特征中情况的划分也不局限于上述示例。

本实施例中，可以依据地图领域特征中的一种或多种，确定候选信息与当前用户的关联程度，依据候选信息与当前用户的关联程度，确定候选信息中与当前用户语音之间存在歧义的歧义信息，从而滤除候选信息中的歧义信息，以得到当前用户语音的地图信息识别结果。

示例性的，假设依据候选文本的地图信息搜索质量对候选信息进行消歧，且候选信息中包括“王家卫”以及“王家味”，则通过地图信息搜索质量的检测，可以确定候选信息“王家卫”为通用语料中的导演姓名，而候选信息“王家味”为某餐厅名称，属于实际存在的地图POI，进而候选信息“王家卫”为歧义信息，对其进行滤除，避免对识别结果的干扰。

本实施例的技术方案，通过对用户语音进行专门的地图信息搜索，确定与用户语音匹配的多个候选信息，并依据当前用户的地图领域特征，对多个候选信息进行消歧处理，从多个候选信息中筛选出与用户最匹配的候选信息作为地图信息识别结果。本发明实施例通过对于地图领域信息的专项搜索得到的候选信息进行消歧处理，不仅去除了可能存在的通用领域知识对于地图搜索的干扰，而且避免了歧义以及口音等导致的误判，使得搜索得到的地图信息识别结果更加符合用户习惯和需求，大幅提高了地图语音搜索的语音识别准确率。

实施例二

本实施例在上述实施例一的基础上，提供了语音识别方法的一个优选实施方式，能够基于用户语音的音素表示进行地图信息模糊搜索。图2为本发明实施例二提供的一种语音识别方法的流程图，如图2所示，该方法具体包括如下：

S210、对当前用户语音进行声学特征识别，确定当前用户语音的音素表示。

在本发明具体实施例中，采用语音识别模型对用户语音进行识别，语音识别模型通常可以包括声学子模型和语言子模型。其中，为了提高地图信息搜索的准确度，采用通用语料和地图语料同时训练语音识别模型。即在传统的基于通用语料训练的通用语音识别模型的基础上，鉴于地图中的POI数据有较大部分属于低频、少见的生疏词汇，因此可以直接采用地图语料对通用语音识别模型中的语言子模型进行二次训练，以加强语音识别模型对于地图语料的识别能力。

本实施例中，采用地图语料训练的语音识别模型对用户语音进行识别得到识别文本，确定为正常的语音识别后，可以获取用户语音基于声学子模型进行声学特征识别得到的音素表示，将用户语音的音素表示作为模糊音。其中，音素是根据语音的自然属性划分出来的最小语音单位。从声学性质来看，音素是从音质角度划分出来的最小语音单位；从生理性质来看，一个发音动作形成一个音素，例如ma包含m、a两个发音动作，是两个音素。相同发音动作发出的音就是同一音素，不同发音动作发出的音就是不同音素，例如ma-mi中，两个m发音动作相同，是相同音素，而a、i发音动作不同，是不同音素。在语音学上将由一个或数个音素组成的语音结构基本单位称为音节。在汉语里，通常一个汉字的字音就是一个音节，普通话的基本音节是由一个到多个音素按一定结合规律构成。

本实施例中，可以将通过声学子模型进行声学特征识别得到的音素表示作为模糊音，模糊音可以是指非严格要求的拼音，即模糊音在形式上类似于拼音，但是模糊音中可能存在不符合拼音拼写规则的差异，且模糊音从整体上仍然保留了声音相关的特征。示例性的，假设用户语音为“苍上村”，则基于对用户实际语音的识别，可以得到音素表示为“cangshangcun”、“canshangcun”、“changshangcun”或“cagshangcun”等。

S220、依据音素表示进行地图信息搜索，确定与音素表示发音匹配的至少一个候选信息。

在本发明具体实施例中，音素表示中尽可能囊括了可能正确的发音表示，从而基于音素表示进行地图信息搜索，可以得到与用户发音相同或相近的候选识别文本，也可以是与用户口音一致或关联扩展的候选识别文本。

可选的，对音素表示进行纠错和音素扩展，确定至少一个变异音素表示；获得与音素表示，以及至少一个变异音素表示发音匹配的至少一个候选信息。

本实施例中，可以以声学子模型识别得到的音素表示为基本音素表示，在基本音素表示的基础上，对基础音素表示进行纠错和扩展，得到与基本音素表示不同的至少一个变异音素表示。其中，对基础音素表示的纠错是指对基础音素表示中存在不符合拼音规则的音素进行修正。例如，在上述实施例中，对于音素表示“cagshangcun”可以修正为变异音素表示“cangshangcun”。对基础音素表示的扩展是指对基础音素表示中可能存在发音偏差的音素进行关联扩展，即将可能存在发音偏差的音素的多种可能偏差结果，都关联得到不同的变异音素表示，避免用户口音问题导致语音识别根源错误。通过变异音素表示的获得，可以尽可能地将可能正确的发音表示都囊括进来，以便提高地图语音搜索的准确率。从而分别基于音素表示和变异音素表示进行地图搜索，匹配得到与音素表示，以及至少一个变异音素表示发音匹配的至少一个候选信息。

示例性的，可以预先设置音素模糊匹配表，在该音素模糊匹配表中定义匹配规则，例如：z＝zh、c＝ch、s＝sh、an＝ang、en＝eng、in＝ing、ian＝iang、uan＝uang、iong＝ing、f＝h、r＝l以及l＝n等。例如，当用户语音为“胡建”时，得到其基本音素表示为“hujian”，进而基于音素的扩展，可以得到至少一个变异音素表示为“fujian”。通过对音素表示的扩展，解决了由于用户口齿不清、发音不准确造成的语音识别识别或者识别错误等问题，进一步提高本实施例中地图信息搜索的准确率。

通常地图搜索可以包括精确搜索和模糊搜索，其中，精确搜索是指地图搜索中用户提交的语音搜索请求是针对某个具体POI数据点的查找，模糊搜索可以是基于sug引擎，根据语音搜索请求中的部分信息、相似度等进行的宽泛搜索。值得注意的是，音素表示的纠错和扩展过程可以是独立于地图信息搜索之外的独立的处理过程，也可以是集成与地图信息搜索功能之内的预处理过程。

S230、依据地图领域特征，确定至少一个候选信息与当前用户的关联程度。

在本发明具体实施例中，当前用户的地图领域特征包括当前地图搜索场景特征，当前用户行为特征，以及候选文本的地图信息搜索质量特征中的至少一项。

可选的，当前地图搜索场景特征通过如下方式确定：根据当前用户的当前位置与候选信息所表示位置之间的空间位置关系，确定当前地图搜索场景特征；和/或，将当前用户语音中对于候选信息所表示位置的空间位置描述，作为当前地图搜索场景特征。

本实施例中，在地图信息搜索中，候选信息通常均表示具体的地图POI，进而候选信息可以间接表示POI的具体位置或位置范围。鉴于用户进行地图信息搜索时往往是正在要前往或计划前往某个目的地，进而可以以用户当前的位置为中心，向外辐射查找与音素表示匹配的POI。例如优先从本市召回POI作为候选信息。因此本实施例可以根据当前用户的当前位置与候选信息所表示位置之间的空间位置关系，例如空间隶属、空间相邻以及空间远离等，确定当前地图搜索场景特征，以对候选信息进行筛选。示例性的，用户当前位置隶属于城市A，候选信息1所表示位置隶属于城市A，候选信息2所表示位置隶属于城市B，则可以确定当前用户的当前位置与候选信息1所表示位置之间的空间位置关系为空间相邻，确定当前用户的当前位置与候选信息2所表示位置之间的空间位置关系为空间远离。

此外，在地图信息搜索中，用户语音中可能包含对于待搜索POI的空间位置描述，空间位置描述中包含了待搜索POI与其他至少一个位置或位置范围之间的关系。因此本实施例可以将当前用户语音中对于候选信息所表示位置的空间位置描述，作为当前地图搜索场景特征，以对候选信息进行筛选。示例性的，假设用户语音为“城市A的餐厅S”，则将餐厅S隶属于城市A的空间位置描述这一限制条件作为当前地图搜索场景特征。

可选的，当前用户行为特征通过如下方式确定：确定当前用户对于候选信息所表示位置的历史搜索行为，和当前用户的发音习惯；根据历史搜索行为和/或当前用户的发音习惯，确定当前用户行为特征。

本实施例中，对于当前正在进行地图信息搜索的用户，可以获取该用户的历史搜索行为，并确定当前用户对于候选信息所表示位置的历史搜索行为，将当前用户对于候选信息所表示位置的历史搜索行为作为当前用户行为特征。例如可以得到当前用户对于候选信息所表示位置的历史搜索时间和历史搜索次数。此外，可以基于用户的历史搜索行为，确定用户发音的偏向特征等发音习惯，将当前用户的发音习惯作为当前用户行为特征。例如确定当前用户对于f和h的发音偏向为h。

可选的，候选文本的地图信息搜索质量特征通过如下方式确定：确定候选信息与预设地图类信息库中的地图类信息之间的相似度，和地图搜索类用户对于候选信息所表示位置的历史搜索需求分布；根据相似度和/或历史搜索需求分布，确定候选文本的地图信息搜索质量特征。

本实施例中，可以预先将地图语料或者地图类信息确定为地图类信息库，地图类信息库中存储有真实存在的POI的相关信息。其中，若候选信息与预设地图类信息库中的地图类信息相匹配，则可以确定该候选信息为实际存在的POI，而非通用语料中发音相似的干扰词语。因此本实施例可以将候选信息与预设地图类信息库中的地图类信息之间的相似度，作为候选文本的地图信息搜索质量特征。示例性的，可以预先设定相似度阈值，若候选信息与预设地图类信息库中的地图类信息之间的相似度满足预设相似度阈值，则可以确定该候选信息的地图信息搜索质量较高。

此外，地图搜索类用户的历史搜索行为，可以从宏观上反映了广大用户对于地图信息的搜索趋势，因此可以实时或定时的获取地图搜索类用户的历史搜索行为，确定地图搜索类用户对于候选信息所表示位置的历史搜索需求分布，将地图搜索类用户对于候选信息所表示位置的历史搜索需求分布，作为候选文本的地图信息搜索质量特征。示例性的，地图类用户对于城市A的市中心区域中POI的搜索需求较高，而对于城市A周边开发区的搜索需求较低。又例如，随着小视频的发展，近期内地图类用户对于某网红POI的搜索需求大幅度增高。

本实施例中，依据地图领域特征中的至少一项，确定各个候选信息与当前用户的关联程度。示例性的，对于当前地图搜索场景特征，可以基于空间隶属关系，确定用户当前所隶属的区域或城市，对于与该区域或城市之间具有相同隶属关系的候选信息，确定该候选信息与用户的关联程度为较大值。例如，当前用户的当前位置隶属于城市A，则将隶属于城市A的候选信息与用户的关联程度设置为较大值。此外，还可以对于满足用户语音中空间位置描述的候选信息，确定该候选信息与当前用户之间的关联程度为较大值，而反之，对于不满足空间位置描述的候选信息，确定该候选信息与当前用户之间的关联程度为较小值，甚至为零。

示例性的，对于当前用户行为特征，基于用户重复搜索概率较大为原则，可以依据当前用户的历史搜索行为中，对于候选信息所表示位置的历史搜索时间和历史搜索数量，对于一定历史搜索时间内历史搜索数量越高的候选信息，确定其与当前用户的关联程度越大。此外，还可以结合当前用户的发音习惯，若确定当前用户对于至少两个音素的发音存在混淆，则可以确定该至少两个音素对应的候选信息与当前用户之间的关联程度相同。

再例如，对于候选文本的地图信息搜索质量，若依据候选信息与预设地图类信息库中地图类信息之间的相似度，确定该候选信息为实际存在的地图POI，则确定该候选信息的地图搜索质量较高，可以设置该候选信息与当前用户之间的关联程度为较大值。此外，还可以依据历史搜索需求分布，若候选信息所表示位置的历史搜索需求越高，则可以设置该候选信息与当前用户之间的关联程度越大。

本实施例中，可以综合地图领域特征中基于各项特征确定的候选信息与当前用户之间的关联程度，综合得到候选信息基于各方面特征而确定的关联程度。其中，可以基于大数据和机器学习模型来综合候选信息在各项特征下的关联程度，得到候选信息与当前用户之间的关联程度；关联程度还可以采用打分的方式，通过对地图领域特征中的各项特征预设权重，基于各项特征的打分结果和权重进行加权求和，得到候选信息与当前用户之间的关联程度。

S240、依据至少一个候选信息与当前用户的关联程度，确定与当前用户语音之间存在歧义的歧义信息。

在本发明具体实施例中，可以依据候选信息与当前用户的关联程度，对候选信息进行排序，确定关联程度较低的候选信息为地图搜索中干扰搜索结果的歧义信息。其中，可以预先设置关联程度阈值，或者百分比阈值，将低于关联程度阈值，或者关联程度较低的预设百分比阈值数量的候选信息，确定为歧义信息。

S250、从至少一个候选信息中滤除歧义信息，以确定当前用户语音的地图信息识别结果。

在本发明具体实施例中，将歧义信息从候选信息中滤除，可以将滤除后的候选信息作为地图信息识别结果，按照关联程度由高至低的顺序展示给用户，以使用户优先看到与本人关联程度最高的地图信息识别结果，还可以参考获得关联程度相对较低的候选信息。或者还可以直接将关联程度最高的候选信息作为地图信息识别结果，并展示给用户。

示例性的，图3为本实施例中语音识别的整体架构图。如图3所示，用户向地图搜索客户端输入语音搜索请求，语音识别模型依据接收到的用户语音进行语音识别，确定音素表示作为模糊音。其中，语音识别模型是在基于通用语料训练得到的通用语音识别模型的基础上，采用地图语料进行二次训练后得到的语音识别模型，进而避免了语音识别模型高成本的重新训练，不仅保持了通用领域的知识，而且提高了语音识别模型对于地图信息的识别准确率。其次，采用模糊音进行地图搜索，搜索中包括音素表示的纠错和扩展，从而搜索得到多个候选信息。其中，基于地图搜索的强大匹配能力，替代简单的拼音到文字的匹配，直接滤除了可能存在的通用领域知识的干扰。最终采用当前用户的地图领域特征对候选信息进行消歧处理，以得到与当前用户关联程度最强的前N个识别文本，将识别文本或者择其关联程度最高的识别文本作为精确文本反馈给用户。

本实施例的技术方案，通过基于地图语料优化的语音识别模型，对当前用户语音进行声学特征识别，确定当前用户语音的音素表示，作为模糊音进行音素表示的纠错和扩展，并依据模糊音进行地图信息搜索，得到至少一个可能性候选信息，最终依据当前用户的地图领域特征确定候选信息与当前用户的关联程度，对多个候选信息进行消歧处理，从多个候选信息中筛选出与用户最匹配的候选信息作为地图信息识别结果。本发明实施例通过模糊音的识别，不仅保留了用户语音声音相关的特征，而且规避了文字选择错误的问题，通过语音识别模型的优化以及模糊音的地图搜索，替代了简单的拼音到文字的匹配，去除了可能存在的通用领域知识对于地图搜索的干扰，避免了歧义以及口音等导致的误判，大幅提高了地图语音搜索的语音识别准确率。

实施例三

图4为本发明实施例三提供的一种语音识别装置的结构示意图，本实施例可适用于依据用户语音进行地图信息搜索的情况，该装置可配置于服务器，可实现本发明任意实施例所述的语音识别方法。该装置具体包括如下：

候选信息确定模块410，用于对当前用户语音进行地图信息搜索，确定匹配的至少一个候选信息；

语音识别消歧模块420，用于依据当前用户的地图领域特征，对所述至少一个候选信息进行消歧处理，以确定所述当前用户语音的地图信息识别结果。

可选的，所述语音识别消歧模块420具体用于：

依据所述地图领域特征，确定所述至少一个候选信息与所述当前用户的关联程度；

依据所述至少一个候选信息与所述当前用户的关联程度，确定与所述当前用户语音之间存在歧义的歧义信息；

从所述至少一个候选信息中滤除所述歧义信息，以确定所述当前用户语音的地图信息识别结果。

可选的，所述当前用户的地图领域特征包括当前地图搜索场景特征，当前用户行为特征，以及候选文本的地图信息搜索质量特征中的至少一项。

可选的，所述当前地图搜索场景特征通过如下方式确定：

根据所述当前用户的当前位置与候选信息所表示位置之间的空间位置关系，确定所述当前地图搜索场景特征；和/或，

将所述当前用户语音中对于候选信息所表示位置的空间位置描述，作为当前地图搜索场景特征。

可选的，所述当前用户行为特征通过如下方式确定：

确定所述当前用户对于候选信息所表示位置的历史搜索行为，和所述当前用户的发音习惯；

根据所述历史搜索行为和/或所述当前用户的发音习惯，确定所述当前用户行为特征。

可选的，所述候选文本的地图信息搜索质量特征通过如下方式确定：

确定候选信息与预设地图类信息库中的地图类信息之间的相似度，和地图搜索类用户对于候选信息所表示位置的历史搜索需求分布；

根据所述相似度和/或所述历史搜索需求分布，确定所述候选文本的地图信息搜索质量特征。

可选的，所述候选信息确定模块410包括：

音素识别单元4101，用于对所述当前用户语音进行声学特征识别，确定所述当前用户语音的音素表示；

地图搜索单元4102，用于依据所述音素表示进行地图信息搜索，确定与所述音素表示发音匹配的至少一个候选信息。

可选的，所述地图搜索单元4102具体用于：

对所述音素表示进行纠错和音素扩展，确定至少一个变异音素表示；

获得与所述音素表示，以及所述至少一个变异音素表示发音匹配的至少一个候选信息。

本实施例的技术方案，通过各个功能模块之间的相互配合，实现了音素表示(即模糊音)的识别、模糊音的修正和扩展、基于模糊音的地图信息搜索、地图领域特征的确定、候选信息的消歧以及精确识别文本的反馈等功能。本发明实施例通过对于地图领域信息的专项搜索得到的候选信息进行消歧处理，不仅去除了可能存在的通用领域知识对于地图搜索的干扰，而且避免了歧义以及口音等导致的误判，使得搜索得到的地图信息识别结果更加符合用户习惯和需求，大幅提高了地图语音搜索的语音识别准确率。

实施例四

图5为本发明实施例四提供的一种服务器的结构示意图，图5示出了适于用来实现本发明实施例实施方式的示例性服务器的框图。图5显示的服务器仅仅是一个示例，不应对本发明实施例的功能和使用范围带来任何限制。

图5显示的服务器12仅仅是一个示例，不应对本发明实施例的功能和使用范围带来任何限制。

如图5所示，服务器12以通用计算设备的形式表现。服务器12的组件可以包括但不限于：一个或者多个处理器16，系统存储器28，连接不同系统组件(包括系统存储器28和处理器16)的总线18。

总线18表示几类总线结构中的一种或多种，包括存储器总线或者存储器控制器，外围总线，图形加速端口，处理器或者使用多种总线结构中的任意总线结构的局域总线。举例来说，这些体系结构包括但不限于工业标准体系结构(ISA)总线，微通道体系结构(MAC)总线，增强型ISA总线、视频电子标准协会(VESA)局域总线以及外围组件互连(PCI)总线。

服务器12典型地包括多种计算机系统可读介质。这些介质可以是任何能够被服务器12访问的可用介质，包括易失性和非易失性介质，可移动的和不可移动的介质。

系统存储器28可以包括易失性存储器形式的计算机系统可读介质，例如随机存取存储器(RAM)30和/或高速缓存存储器32。服务器12可以进一步包括其它可移动/不可移动的、易失性/非易失性计算机系统存储介质。仅作为举例，存储系统34可以用于读写不可移动的、非易失性磁介质(图5未显示，通常称为“硬盘驱动器”)。尽管图5中未示出，可以提供用于对可移动非易失性磁盘(例如“软盘”)读写的磁盘驱动器，以及对可移动非易失性光盘(例如CD-ROM,DVD-ROM或者其它光介质)读写的光盘驱动器。在这些情况下，每个驱动器可以通过一个或者多个数据介质接口与总线18相连。系统存储器28可以包括至少一个程序产品，该程序产品具有一组(例如至少一个)程序模块，这些程序模块被配置以执行本发明实施例各实施例的功能。

具有一组(至少一个)程序模块42的程序/实用工具40，可以存储在例如系统存储器28中，这样的程序模块42包括但不限于操作系统、一个或者多个应用程序、其它程序模块以及程序数据，这些示例中的每一个或某种组合中可能包括网络环境的实现。程序模块42通常执行本发明实施例所描述的实施例中的功能和/或方法。

服务器12也可以与一个或多个外部设备14(例如键盘、指向设备、显示器24等)通信，还可与一个或者多个使得用户能与该服务器12交互的设备通信，和/或与使得该服务器12能与一个或多个其它计算设备进行通信的任何设备(例如网卡，调制解调器等等)通信。这种通信可以通过输入/输出(I/O)接口22进行。并且，服务器12还可以通过网络适配器20与一个或者多个网络(例如局域网(LAN)，广域网(WAN)和/或公共网络，例如因特网)通信。如图所示，网络适配器20通过总线18与服务器12的其它模块通信。应当明白，尽管图中未示出，可以结合服务器12使用其它硬件和/或软件模块，包括但不限于：微代码、设备驱动器、冗余处理器、外部磁盘驱动阵列、RAID系统、磁带驱动器以及数据备份存储系统等。

处理器16通过运行存储在系统存储器28中的程序，从而执行各种功能应用以及数据处理，例如实现本发明实施例所提供的语音识别方法。

实施例五

本发明实施例五还提供一种计算机可读存储介质，其上存储有计算机程序(或称为计算机可执行指令)，该程序被处理器执行时用于执行一种语音识别方法，该方法包括：

对当前用户语音进行地图信息搜索，确定匹配的至少一个候选信息；

依据当前用户的地图领域特征，对所述至少一个候选信息进行消歧处理，以确定所述当前用户语音的地图信息识别结果。

本发明实施例的计算机存储介质，可以采用一个或多个计算机可读的介质的任意组合。计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括：具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本文件中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。

计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质，该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。

计算机可读介质上包含的程序代码可以用任何适当的介质传输，包括——但不限于无线、电线、光缆、RF等等，或者上述的任意合适的组合。

可以以一种或多种程序设计语言或其组合来编写用于执行本发明实施例操作的计算机程序代码，所述程序设计语言包括面向对象的程序设计语言—诸如Java、Smalltalk、C++，还包括常规的过程式程序设计语言—诸如”C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中，远程计算机可以通过任意种类的网络——包括局域网(LAN)或广域网(WAN)—连接到用户计算机，或者，可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。

注意，上述仅为本发明的较佳实施例及所运用技术原理。本领域技术人员会理解，本发明不限于这里所述的特定实施例，对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本发明的保护范围。因此，虽然通过以上实施例对本发明实施例进行了较为详细的说明，但是本发明实施例不仅仅限于以上实施例，在不脱离本发明构思的情况下，还可以包括更多其他等效实施例，而本发明的范围由所附的权利要求范围决定。

技术特征：

1.一种语音识别方法，其特征在于，包括：

对当前用户语音进行地图信息搜索，确定匹配的至少一个候选信息；

依据当前用户的地图领域特征，对所述至少一个候选信息进行消歧处理，以确定所述当前用户语音的地图信息识别结果。

2.根据权利要求1所述的方法，其特征在于，所述依据当前用户的地图领域特征，对所述至少一个候选信息进行消歧处理，以确定所述当前用户语音的地图信息识别结果，包括：

依据所述地图领域特征，确定所述至少一个候选信息与所述当前用户的关联程度；

依据所述至少一个候选信息与所述当前用户的关联程度，确定与所述当前用户语音之间存在歧义的歧义信息；

从所述至少一个候选信息中滤除所述歧义信息，以确定所述当前用户语音的地图信息识别结果。

3.根据权利要求2所述的方法，其特征在于，所述当前用户的地图领域特征包括当前地图搜索场景特征，当前用户行为特征，以及候选文本的地图信息搜索质量特征中的至少一项。

4.根据权利要求3所述的方法，其特征在于，所述当前地图搜索场景特征通过如下方式确定：

根据所述当前用户的当前位置与候选信息所表示位置之间的空间位置关系，确定所述当前地图搜索场景特征；和/或，

将所述当前用户语音中对于候选信息所表示位置的空间位置描述，作为当前地图搜索场景特征。

5.根据权利要求3所述的方法，其特征在于，所述当前用户行为特征通过如下方式确定：

确定所述当前用户对于候选信息所表示位置的历史搜索行为，和所述当前用户的发音习惯；

根据所述历史搜索行为和/或所述当前用户的发音习惯，确定所述当前用户行为特征。

6.根据权利要求3所述的方法，其特征在于，所述候选文本的地图信息搜索质量特征通过如下方式确定：

确定候选信息与预设地图类信息库中的地图类信息之间的相似度，和地图搜索类用户对于候选信息所表示位置的历史搜索需求分布；

根据所述相似度和/或所述历史搜索需求分布，确定所述候选文本的地图信息搜索质量特征。

7.根据权利要求1所述的方法，其特征在于，所述对当前用户语音进行地图信息搜索，确定匹配的至少一个候选信息，包括：

对所述当前用户语音进行声学特征识别，确定所述当前用户语音的音素表示；

依据所述音素表示进行地图信息搜索，确定与所述音素表示发音匹配的至少一个候选信息。

8.根据权利要求7所述的方法，其特征在于，所述依据所述音素表示进行地图信息搜索，确定与所述音素表示发音匹配的至少一个候选信息，包括：

对所述音素表示进行纠错和音素扩展，确定至少一个变异音素表示；

获得与所述音素表示，以及所述至少一个变异音素表示发音匹配的至少一个候选信息。

9.一种语音识别装置，其特征在于，包括：

候选信息确定模块，用于对当前用户语音进行地图信息搜索，确定匹配的至少一个候选信息；

语音识别消歧模块，用于依据当前用户的地图领域特征，对所述至少一个候选信息进行消歧处理，以确定所述当前用户语音的地图信息识别结果。

10.一种服务器，其特征在于，包括：

一个或多个处理器；

存储器，用于存储一个或多个程序；

当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现如权利要求1-8中任一项所述的语音识别方法。

11.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现如权利要求1-8中任一项所述的语音识别方法。

技术总结

本发明实施例公开了一种语音识别方法、装置、服务器和存储介质。该方法包括：对当前用户语音进行地图信息搜索，确定匹配的至少一个候选信息；依据当前用户的地图领域特征，对所述至少一个候选信息进行消歧处理，以确定所述当前用户语音的地图信息识别结果。本发明实施例通过对于地图领域信息的专项搜索得到的候选信息进行消歧处理，不仅去除了可能存在的通用领域知识对于地图搜索的干扰，而且避免了歧义以及口音等导致的误判，使得搜索得到的地图信息识别结果更加符合用户习惯和需求，大幅提高了地图语音搜索的语音识别准确率。

技术研发人员：李扬

受保护的技术使用者：北京百度网讯科技有限公司

技术研发日：.06.28

技术公布日：.10.08

本内容不代表本网观点和政治立场，如有侵犯你的权益请联系我们处理。

网友评论

网友评论仅供其表达个人看法，并不表明网站立场。