第一句子网 > 一种智能语音助手的交互方法装置设备及存储介质与流程

一种智能语音助手的交互方法装置设备及存储介质与流程

时间：2021-08-17 14:17:41

本发明涉及人工智能技术，尤其涉及一种智能语音助手的交互方法、装置、设备及存储介质。

背景技术：

人工智能(ai，artificialintelligence)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法和技术及应用系统。

随着人工智能技术的发展，市场上出现了各种各样的智能语音助手产品，智能语音助手可以是一个很有亲和力的受用户欢迎的三维形象，具有和用户之间进行语音交互的功能，可以增强用户对应用产品的好感度以及增强用户的粘性，能较大程度提升用户体验，开发这样一个具有虚拟形象的智能语音助手的过程中涉及到后台，云端，美术，终端等多个方面，因此，对于各种内容提供商所发布的客户端来说，由于技术水平和开发成本的制约，难以在客户端中实现理想的智能语音助手。

技术实现要素：

本发明实施例提供一种智能语音助手的交互方法、装置、设备及存储介质，能够针对各种客户端提供高效和可配置的智能语音助手的一站式解决方案，从而有效地降低开发成本。

本发明实施例的技术方案是这样实现的：

本发明实施例提供一种智能语音助手的交互方法，包括：

从服务器获取虚拟形象的资源以及对应所述资源的配置信息，并从所述资源中提取对应所述智能语音助手的虚拟形象的模型资源；

根据所述模型资源、所述配置信息中的默认配置项目指示的资源，呈现所述智能语音助手的虚拟形象；

根据对应所述智能语音助手的交互指令查询所述配置信息，得到符合所述交互指令的配置项目；

从所述服务器下发的资源中，提取所述配置项目中所指示的形象资源以及话术资源；

基于所述形象资源，控制所述虚拟形象呈现符合所述交互指令的形象，并基于所述话术资源，控制所述虚拟形象播放符合所述交互指令的语音。

本发明实施例提供一种智能语音助手的交互方法，包括：

获取智能语音助手的虚拟形象的资源，并生成对应所述资源的配置信息；

向客户端下发所述智能语音助手的资源以及对应所述资源的配置信息，以使所述客户端执行以下操作：

呈现所述语音助手的虚拟形象；

基于所述形象资源，控制所述虚拟形象呈现符合所述交互指令的形象，并基于所述话术资源，控制所述虚拟形象播放符合所述交互指令的语音。

本发明实施例提供一种智能语音助手的交互装置，包括：

资源管理模块，用于从服务器获取虚拟形象的资源以及对应所述资源的配置信息，并从所述资源中提取对应所述智能语音助手的虚拟形象的模型资源；

配置项目查询模块，用于根据对应所述智能语音助手的交互指令查询所述配置信息，得到符合所述交互指令的配置项目；

资源提取模块，用于从所述服务器下发的资源中，提取所述配置项目中所指示的形象资源以及话术资源；

动画功能模块，用于根据所述模型资源、所述配置信息中的默认配置项目指示的资源，呈现所述智能语音助手的虚拟形象；用于基于所述形象资源，控制所述虚拟形象呈现符合所述交互指令的形象，并基于所述话术资源，控制所述虚拟形象播放符合所述交互指令的语音。

在上述方案中，所述资源管理模块，还用于：

向所述服务器提交携带有客户端的版本和对应所述虚拟形象的虚拟形象标识的资源获取请求，以使

所述服务器根据所述版本以及所述虚拟形象标识，在数据库中查询到适配于所述客户端的版本且对应所述虚拟形象的资源；

接收所述服务器下发的适配于所述客户端的版本且对应所述虚拟形象的资源以及对应所述资源的配置信息。

在上述方案中，所述动画功能模块，还用于：

根据所述配置信息中默认配置项目指示的形象资源，在所述模型资源对应的模型的基础上，呈现所述智能语音助手的虚拟形象的默认形象；

其中，所述默认形象包括：所述虚拟形象的默认皮肤以及默认道具。

所述动画功能模块，还用于

根据所述配置信息中的默认配置项目指示的话术资源，播放对应所述虚拟形象的语音。

在上述方案中，所述配置项目查询模块，还用于：

当所述交互指令包括语音交互指令时，对所述语音交互指令进行语音识别和语义识别，得到表征所述虚拟形象所处环境的场景信息、以及表征执行所述语音交互指令的关键字的条件信息；根据所述场景信息和所述条件信息查询所述配置信息，得到符合所述场景信息和所述条件信息的配置项目；和/或

当所述交互指令为触摸交互指令时，呈现对应所述智能语音助手的以下至少之一的意图选项：智能对话，设备控制，车机留言，切换所述智能语音助手的虚拟形象，添加所述智能语音助手的道具，切换所述智能语音助手所处的场景，设置所述智能语音助手的活跃时间；基于被选中的意图选项所表征的意图查询所述配置信息，得到符合所述意图的配置项目；和/或

将对应所述智能语音助手的交互指令发送到所述服务器，以使所述服务器对所述交互指令进行语义识别，得到所述交互指令的意图；根据所述意图查询所述配置信息，得到符合所述意图的配置项目。

在上述方案中，所述动画功能模块，还用于：

当所述交互指令的意图为与所述虚拟形象进行对话时，基于对应所述对话的形象资源，控制所述虚拟形象执行与对话结果的情绪对应的反馈动作；基于对应所述对话的话术资源，控制所述虚拟形象播放符合对话问答特征的语音；和/或

当所述交互指令的意图为控制设备时，基于对应控制操作的形象资源，控制所述虚拟形象呈现对设备的控制操作，基于对应控制操作的话术资源，控制所述虚拟形象播放表征控制结果的语音；和/或

当所述交互指令的意图为查看车机留言时，基于对应查看车机留言的形象资源，控制所述虚拟形象呈现查看车机留言的动作，基于对应查看车机留言的话术资源，控制所述虚拟形象播放车机留言的语音。

本发明实施例提供一种智能语音助手的交互装置，包括：

资源配置模块，用于获取智能语音助手的虚拟形象的资源，并生成对应所述资源的配置信息；

资源下发模块，用于向客户端下发所述智能语音助手的资源以及对应所述资源的配置信息，以使所述客户端执行以下操作：

呈现所述语音助手的虚拟形象；

基于所述形象资源，控制所述虚拟形象呈现符合所述交互指令的形象，并基于所述话术资源，控制所述虚拟形象播放符合所述交互指令的语音。

在上述方案中，所述资源配置模块，还用于：

接收美术资源提供方上传的所述智能语音助手的形象资源，并创建所述智能语音助手的话术资源；

其中，所述形象资源包括以下至少之一：场景资源，模型资源，皮肤资源和动作资源；

当接收到新虚拟形象的形象资源时，为所述接收的形象资源分配新版本标识，并

生成对应新版本的配置信息，所述配置信息包括以下至少之一：场景资源配置项目，模型资源配置项目，皮肤资源配置项目，动作资源配置项目和话术资源配置项目；

当接收到所述智能语音助手的形象资源是已有虚拟形象的更新资源时，更新所述已有虚拟形象的对应版本的形象资源和配置信息。

在上述方案中，所述装置还包括：语音语义识别模块，用于：

接收所述客户端上传的对应的智能语音助手的交互指令；

当所述交互指令为语音交互指令时，对所述语音交互指令进行语音识别得到文本信息，对所述文本信息进行语义识别，得到所述交互指令的意图，并发送到所述客户端，以使

所述客户端根据所述意图查询所述配置信息，得到符合所述意图的配置项目，根据所述配置项目中所指示的形象资源，控制所述虚拟形象呈现符合所述交互指令的形象，并

根据所述配置信息中指示的所述话术资源，控制所述虚拟形象播放符合所述交互指令的语音；

其中，所述意图包括以下至少之一：

智能对话，设备控制，车机留言，切换所述智能语音助手的虚拟形象，添加所述智能语音助手的道具，切换所述智能语音助手所处的场景，设置所述智能语音助手的活跃时间。

在上述方案中，所述装置还包括：声纹信号处理模块，用于：

提取所述语音交互指令的声纹特征参数；

根据所述声纹特征参数，对发起所述语音交互指令的用户的身份进行识别；

当所述用户被识别为授权用户时，确定继续对所述文本信息进行语义识别；

当所述用户被识别为非授权用户时，返回所述用户不具备操作权限的提示信息至所述客户端。

在上述方案中，所述资源配置模块，还用于：

针对所述交互指令的潜在的各个候选的意图，执行以下处理：

将用于响应所述意图的资源与所述意图对应的场景信息和条件信息进行关联形成对应的配置项目，以基于所述配置项目组合形成对应所述意图的配置信息。

在上述方案中，所述资源配置模块，还用于：

将用于响应对话意图的形象资源和话术资源，与所述对话意图的场景信息和条件信息进行绑定，以生成对应的配置项目，其中，所述对话意图包括聊天、知识问答和天气询问至少之一；

将用于响应控制设备意图的形象资源和话术资源，与所述控制设备意图对应的场景信息和条件信息进行绑定，以生成对应的配置项目，其中，所述控制设备意图包括以下至少之一：通过车辆中的客户端控制家居设备，通过家居设备中的客户端控制车辆；

将用于响应查看车机留言意图的形象资源和话术资源，与所述查看车机留言意图对应的场景信息和条件信息进行绑定，以生成对应的配置项目。

本发明实施例提供一种智能语音助手的交互设备，所述设备包括：

存储器，用于存储可执行指令；

处理器，用于执行所述存储器中存储的可执行指令时，实现本发明实施例提供的智能语音助手的交互方法。

本发明实施例提供一种存储介质，存储有可执行指令，用于引起处理器执行时，实现本发明实施例提供的智能语音助手的交互方法。

本发明实施例具有以下有益效果：

本发明实施例实现了智能语音助手的资源和配置的一套完整的智能语音助手的解决方案，使得内容提供厂商能快速，低成本地接入以在各种产品中灵活应用智能语音助手的功能，节约了重复开发成本。

附图说明

图1是本发明实施例提供的智能语音助手的交互系统架构的一个可选的结构示意图；

图2a是本发明实施例提供的智能语音助手的交互设备的一个可选的结构示意图；

图2b是本发明实施例提供的智能语音助手的交互设备的一个可选的结构示意图；

图3是本发明实施例提供的智能语音助手的交互方法的一个可选的流程示意图；

图4a-4b是本发明实施例提供的智能语音助手的交互方法的一个可选的流程示意图；

图5是本发明实施例提供的智能语音助手的交互系统的模块架构图；

图6是本发明实施例提供的智能语音助手的资源配置架构图；

图7是本发明实施例提供的智能语音助手的终端流程图。

具体实施方式

为了使本发明的目的、技术方案和优点更加清楚，下面将结合附图对本发明作进一步地详细描述，所描述的实施例不应视为对本发明的限制，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例，都属于本发明保护的范围。

在以下的描述中，涉及到“一些实施例”，其描述了所有可能实施例的子集，但是可以理解,“一些实施例”可以是所有可能实施例的相同子集或不同子集，并且可以在不冲突的情况下相互结合。

在以下的描述中，所涉及的术语“第一\第二\第三”仅仅是是区别类似的对象，不代表对应对象的特定排序，可以理解地，“第一\第二\第三”在允许的情况下可以互换特定的顺序或先后次序，以使这里描述的本发明实施例能够以除了在这里图示或描述的以外的顺序实施。

除非另有定义，本文所使用的所有的技术和科学术语与属于本发明的技术领域的技术人员通常理解的含义相同。本文中所使用的术语只是为了描述本发明实施例的目的，不是旨在限制本发明。

对本发明实施例进行进一步详细说明之前，对本发明实施例中涉及的名词和术语进行说明，本发明实施例中涉及的名词和术语适用于如下的解释。

1)智能语音助手：智能语音助手是智能语音交互的典型应用场景，实现了基于语音输入的交互模式，通过说话就可以得到反馈结果。

2)皮肤：虚拟形象的装饰品，包括：衣服、装备等等、可用于装饰各个虚拟形象。

3)道具：用于搭配虚拟形象所使用的武器、工具等等。

4)渲染：将三维场景中的模型，按照设定好的环境、灯光、材质及渲染参数二维投影成数字图像的过程。

在相关技术中，智能语音助手的解决方案只提供了语音交互，并没有三维形象的展示，也不具备跟三维虚拟形象的交互功能，例如触摸反馈，或者只提供了基于三维虚拟形象的视觉系统，只具有表情形态动画，并没有动作和话术相关配置，并不能根据用户的输入得到对应的反馈，资源也不能实时下发，不可运营。

目前市面上，如果需要做一个具备三维虚拟形象的智能语音助手的应用，需要进行以下几个方面的开发，能提供人工智能，语音语义识别等能力的后台，能够提供相应形象资源的美术提供方，例如动作，角色模型等，用于上传和管理资源和对应配置的云端系统，用于处理用户交互和渲染/显示智能语音助手的虚拟形象的终端，因此，开发这样一个具备三维虚拟形象的智能语音助手的应用的成本是很高的，本技术方案提供了完整的一套解决方案，包括后台，云端，美术，终端，只要内容提供商或者应用开发方简单接入，并且在云端上传形象资源，完成话术动作配置，这样就能在应用客户端实现三维虚拟形象的智能语音助手的功能。另外，相较于由内容提供商独立开发智能语音助手而言，统一由美术资源提供方进行形象资源的开发，可以保证虚拟形象的呈现质量。

本发明实施例提供一种智能语音助手的交互方法、装置、设备及存储介质，能够实现智能语音助手与用户之间的语音交互以及三维形象展示，下面说明本发明实施例提供的智能语音助手的交互设备的示例性应用，本发明实施例提供的设备可以实施为笔记本电脑，平板电脑，台式计算机，机顶盒，移动设备(例如，移动电话，便携式音乐播放器，个人数字助理，专用消息设备，便携式游戏设备)等各种类型的用户终端，也可以实施为服务器。下面，将说明设备实施为终端以及服务器时的示例性应用。

参见图1，图1是本发明实施例提供的智能语音助手的交互系统100的一个可选的架构示意图，包括终端400、网络300、服务器200、智能设备500以及美术资源提供方600。终端400通过网络300连接服务器200，网络300可以是广域网或者局域网，又或者是二者的组合。服务器200包括后台服务器200-1和云端服务器200-2，终端400用于处理用户交互和渲染/显示智能语音助手的虚拟形象，例如，在客户端410的图形界面上显示智能语音助手的虚拟形象，后台服务器200-1用于提供人工智能，语音/语义识别等功能，云端服务器200-2用于上传和管理资源和对应的配置资源。交互系统100的具体实现过程如下：云端服务器200-2接收由美术资源提供方上传的智能语音助手的虚拟形象的资源，并生成对应资源的配置信息；后台服务器200-1向客户端下发智能语音助手的资源以及对应资源的配置信息，终端400上的客户端410从后台服务器200-1获取虚拟形象的资源以及对应资源的配置信息，在客户端410接收到用户针对智能语音助手的交互指令，其根据对应智能语音助手的交互指令查询配置信息，得到符合交互指令的配置项目，从服务器200-1下发的资源中，提取配置项目中所指示的形象资源以及话术资源，以控制虚拟形象呈现符合交互指令的形象并播放符合交互指令的语音，以实现用户与智能语音助手之间的语音交互功能以及三维形象互动功能。

在一些实施例中，系统架构100还可以包括智能设备500，通过客户端410接收到用户针对智能设备500的控制指令，客户端410通过后台服务器200-1或者本地控制的方式将控制指令发送至智能设备500，客户端410可以实时获取到控制执行的执行情况，并通过相应的形象和话术对用户展示出控制指令执行情况。

可以理解，后台服务器200-1和云端服务器200-2可以为集成于同一设备上的不同服务模块，也可以为设置于不同设备上的独立的服务模块。

参见图2a，图2a是本发明实施例提供的智能语音助手的交互设备的一个可选的结构示意图，以交互设备为终端为例，图2a所示的终端400包括：至少一个处理器410、存储器450、至少一个网络接口420和用户接口430。终端400中的各个组件通过总线系统440耦合在一起。可理解，总线系统440用于实现这些组件之间的连接通信。总线系统440除包括数据总线之外，还包括电源总线、控制总线和状态信号总线。但是为了清楚说明起见，在图2a中将各种总线都标为总线系统440。

处理器410可以是一种集成电路芯片，具有信号的处理能力，例如通用处理器、数字信号处理器(dsp，digitalsignalprocessor)，或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等，其中，通用处理器可以是微处理器或者任何常规的处理器等。

用户接口430包括使得能够呈现媒体内容的一个或多个输出装置431，包括一个或多个扬声器和/或一个或多个视觉显示屏。用户接口430还包括一个或多个输入装置432，包括有助于用户输入的用户接口部件，比如键盘、鼠标、麦克风、触屏显示屏、摄像头、其他输入按钮和控件。

存储器450可以是可移除的，不可移除的或其组合。示例性的硬件设备包括固态存储器，硬盘驱动器，光盘驱动器等。存储器450可选地包括在物理位置上远离处理器410的一个或多个存储设备。

存储器450包括易失性存储器或非易失性存储器，也可包括易失性和非易失性存储器两者。非易失性存储器可以是只读存储器(rom，readonlymemory)，易失性存储器可以是随机存取存储器(ram，randomaccessmemory)。本发明实施例描述的存储器450旨在包括任意适合类型的存储器。

在一些实施例中，存储器450能够存储数据以支持各种操作，这些数据的示例包括程序、模块和数据结构或者其子集或超集，下面示例性说明。

操作系统451，包括用于处理各种基本系统服务和执行硬件相关任务的系统程序，例如框架层、核心库层、驱动层等，用于实现各种基础业务以及处理基于硬件的任务；

网络通信模块452，用于经由一个或多个(有线或无线)网络接口420到达其他计算设备，示例性的网络接口420包括：蓝牙、无线相容性认证(wifi)、和通用串行总线(usb，universalserialbus)等；

呈现模块453，用于经由一个或多个与用户接口430相关联的输出装置431(例如，显示屏、扬声器等)使得能够呈现信息(例如，用于操作外围设备和显示内容和信息的用户接口)；

输入处理模块454，用于对一个或多个来自一个或多个输入装置432之一的一个或多个用户输入或互动进行检测以及翻译所检测的输入或互动。

在一些实施例中，本发明实施例提供的智能语音助手的交互装置可以采用软件方式实现，图2a示出了存储在存储器450中的智能语音助手的交互装置455，其可以是程序和插件等形式的软件，包括以下软件模块：资源管理模块4551、配置项目查询模块4552、资源提取模块4553以及动画功能模块4554。这些模块是逻辑上的，因此根据所实现的功能可以进行任意的组合或进一步拆分，将在下文中说明各个模块的功能。

参见图2b，图2b是本发明实施例提供的智能语音助手的交互设备的一个可选的结构示意图，以交互设备为服务器为例，图2b所示的服务器200包括：至少一个处理器210、存储器250、至少一个网络接口220和用户接口230。服务器200中的各个组件通过总线系统240耦合在一起。可理解，总线系统240用于实现这些组件之间的连接通信。总线系统240除包括数据总线之外，还包括电源总线、控制总线和状态信号总线。但是为了清楚说明起见，在图2中将各种总线都标为总线系统240。

处理器210可以是一种集成电路芯片，具有信号的处理能力，例如通用处理器、数字信号处理器(dsp，digitalsignalprocessor)，或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等，其中，通用处理器可以是微处理器或者任何常规的处理器等。

用户接口230包括使得能够呈现媒体内容的一个或多个输出装置231，包括一个或多个扬声器和/或一个或多个视觉显示屏。用户接口230还包括一个或多个输入装置232，包括有助于用户输入的用户接口部件，比如键盘、鼠标、麦克风、触屏显示屏、摄像头、其他输入按钮和控件。

存储器250可以是可移除的，不可移除的或其组合。示例性的硬件设备包括固态存储器，硬盘驱动器，光盘驱动器等。存储器250可选地包括在物理位置上远离处理器210的一个或多个存储设备。

存储器250包括易失性存储器或非易失性存储器，也可包括易失性和非易失性存储器两者。非易失性存储器可以是只读存储器(rom，readonlymemory)，易失性存储器可以是随机存取存储器(ram，randomaccessmemory)。本发明实施例描述的存储器250旨在包括任意适合类型的存储器。

在一些实施例中，存储器250能够存储数据以支持各种操作，这些数据的示例包括程序、模块和数据结构或者其子集或超集，下面示例性说明。

操作系统251，包括用于处理各种基本系统服务和执行硬件相关任务的系统程序，例如框架层、核心库层、驱动层等，用于实现各种基础业务以及处理基于硬件的任务；

网络通信模块252，用于经由一个或多个(有线或无线)网络接口420到达其他计算设备，示例性的网络接口420包括：蓝牙、无线相容性认证(wifi)、和通用串行总线(usb，universalserialbus)等；

呈现模块253，用于经由一个或多个与用户接口230相关联的输出装置231(例如，显示屏、扬声器等)使得能够呈现信息(例如，用于操作外围设备和显示内容和信息的用户接口)；

输入处理模块254，用于对一个或多个来自一个或多个输入装置232之一的一个或多个用户输入或互动进行检测以及翻译所检测的输入或互动。

在一些实施例中，本发明实施例提供的智能语音助手的交互装置可以采用软件方式实现，图2b示出了存储在存储器250中的智能语音助手的交互装置255，其可以是程序和插件等形式的软件，包括以下软件模块：资源配置模块2551、资源下发模块2552、语音语义识别模块2553以及声纹信号处理模块2554。这些模块是逻辑上的，因此根据所实现的功能可以进行任意的组合或进一步拆分，将在下文中说明各个模块的功能。

在另一些实施例中，本发明实施例提供的智能语音助手的交互装置可以采用硬件方式实现，作为示例，本发明实施例提供的装置可以是采用硬件译码处理器形式的处理器，其被编程以执行本发明实施例提供的智能语音助手的交互方法，例如，硬件译码处理器形式的处理器可以采用一个或多个应用专用集成电路(asic，applicationspecificintegratedcircuit)、dsp、可编程逻辑器件(pld，programmablelogicdevice)、复杂可编程逻辑器件(cpld，complexprogrammablelogicdevice)、现场可编程门阵列(fpga，field-programmablegatearray)或其他电子元件。

本发明实施例提供的智能语音助手的交互方法的实施流程分为两个阶段，第一阶段涉及到服务器获取资源并对资源进行配置，第二阶段涉及到客户端通过接收到的服务器下发的资源及配置与用户进行语音交互和形象交互的过程，下面分别针对上述两个阶段对本申请的实施流程进行说明。

下面结合图3示出的步骤301-304对服务器上所进行的资源配置过程进行说明。

参见图3，图3是本发明实施例提供的智能语音助手的交互方法的一个可选的流程示意图。

在步骤301中，服务器获取智能语音助手的虚拟形象的资源。

在步骤302中，服务器生成对应资源的配置信息。

在一些实施例中，步骤301中获取智能语音助手的虚拟形象的资源可以具体通过以下方式实现，接收美术资源提供方上传的智能语音助手的形象资源，并创建智能语音助手的话术资源，形象资源包括以下至少之一：场景资源，模型资源，皮肤资源和动作资源；步骤302中生成对应资源的配置信息，具体通过以下两种方式来实现，当接收到新虚拟形象的形象资源时，为接收的形象资源分配新版本标识，并生成对应新版本的配置信息，配置信息包括以下至少之一：场景资源配置项目，模型资源配置项目，皮肤资源配置项目，动作资源配置项目和话术资源配置项目；当接收到智能语音助手的形象资源是已有虚拟形象的更新资源时，更新已有虚拟形象的对应版本的形象资源和配置信息。

在一些实施例中，美术资源提供方上传的资源可以存储在云端服务器的数据库，也可以存储在后台服务器，这里的形象资源包括以下至少之一：场景资源，模型资源，皮肤资源，动作资源，这里的话术资源可以对应体现为虚拟形象在呈现时所播放的话术。

在一些实施例中，当接收到新虚拟形象的形象资源时，为接收的形象资源分配新版本标识，并生成对应新版本的配置信息，配置信息包括以下至少之一：场景资源配置项目，模型资源配置项目，皮肤资源配置项目，动作资源配置项目和话术资源配置项目。具体而言，对于新的语音助手，其对应的形象资源即为这个新的语音助手下的第一个资源版本，为形象资源分配新的版本标识，以使得对资源版本进行管理，在资源版本管理的过程中，对资源的版本标识与客户端的版本进行对应配置，当接收到智能语音助手的形象资源是已有虚拟形象的更新资源时，更新已有虚拟形象的对应版本的形象资源和配置信息，具体而言，可以是对已有的版本资源进行更新，也可以是保留原有的版本，根据美术提供方的上传的形象资源创建新的版本。

在步骤303中，服务器向客户端下发智能语音助手的资源以及对应资源的配置信息。

在步骤304中，客户端执行以下操作：呈现语音助手的虚拟形象；基于形象资源，控制虚拟形象呈现符合交互指令的形象，并基于话术资源，控制虚拟形象播放符合交互指令的语音。

在一些实施例中，在执行完步骤303中向客户端下发所述智能语音助手的资源以及对应所述资源的配置信息之后，还可以执行以下技术方案：接收所述客户端上传的对应的智能语音助手的交互指令；当所述交互指令为语音交互指令时，对所述语音交互指令进行语音识别得到文本信息，对所述文本信息进行语义识别，得到所述交互指令的意图，并发送到所述客户端，以使所述客户端根据所述意图查询所述配置信息，得到符合所述意图的配置项目，根据配置项目中所指示的形象资源，控制所述虚拟形象呈现符合所述交互指令的形象，并根据所述配置信息中指示的所述话术资源，控制所述虚拟形象播放符合所述交互指令的语音；其中，所述意图包括以下至少之一：智能对话，设备控制，车机留言，切换所述智能语音助手的虚拟形象，添加所述智能语音助手的道具，切换所述智能语音助手所处的场景，设置所述智能语音助手的活跃时间。

在一些实施例中，在向客户端下发了智能语音助手的资源以及对应资源的配置信息之后，客户端会向服务器上传对应的智能语音助手的交互指令，交互指令可以为语音交互指令或者是触摸交互指令，当服务器接收到客户端上传的语音交互指令时，对语音交互指令进行语音识别，以将所接收到的语音转化为文本，再对经转化得到的文本进行语义分析得到交互指令的意图，并将所得到的意图返回给客户端，在配置好的资源中，有一种维度的配置方式是根据意图对资源进行配置，客户端根据服务器返回的意图查询对应的配置信息，得到符合意图的配置项目，基于配置项目所指示的形象资源和话术资源，控制虚拟形象呈现符合交互指令的形象以及播放对应的语音。

这里的意图和前述实施例中所提的意图相同，意图可以为智能对话，设备控制，车机留言，切换所述智能语音助手的虚拟形象，添加所述智能语音助手的道具，切换所述智能语音助手所处的场景，设置所述智能语音助手的活跃时间。部分意图的指令可以基于本地客户端执行完成，部分意图的指令需要通过服务器远程执行。

在一些实施例中，在对文本信息进行语义识别之前，还可以执行以下技术方案，提取语音交互指令的声纹特征参数；根据声纹特征参数，对发起语音交互指令的用户的身份进行识别；当用户被识别为授权用户时，确定继续对文本信息进行语义识别；当用户被识别为非授权用户时，返回用户不具备操作权限的提示信息至客户端。

在一些实施例中，服务器在对客户端发送的语音交户指令进行执行之前，会对语音交互指令的发起者进行授权认证，由于不同的用户可以使用相同的终端上的客户端向智能语音交互助手发送交互指令，为了防止恶意用户在授权用户不知情的情况下与智能语音助手进行交互，例如，通过智能语音助手控制家电等等会造成危害的情形，服务器会对接收到的语音指令进行声纹识别，通过声纹特征参数对发起语音交互指令的用户的身份进行识别，当用户为授权用户时，会继续对文本信息进行语义识别，以对语音交互指令进行响应，当用户为非授权用户时，会返回警告性质的提醒信息至客户端，提示用户不具备操作权限，并在授权通过之前，不会对文本信息进行语义识别。

在一些实施例中，资源的配置是基于意图维度进行的，该维度所对应的生成对应资源的配置信息的技术方案如下：针对交互指令的潜在的各个候选的意图，执行以下处理：将用于响应意图的资源与意图对应的场景信息和条件信息进行关联形成对应的配置项目，以基于配置项目组合形成对应意图的配置信息。

在一些实施例中，这里的意图可以分为对话意图、控制设备意图以及与车机留言相关的意图，基于上述意图的划分，将用于响应意图的资源和意图对应的场景信息和条件信息进行管理形成对应的配置项目的具体实现方案如下，将用于响应对话意图的形象资源和话术资源，与对话意图的场景信息和条件信息进行绑定，以生成对应的配置项目，其中，对话意图包括聊天、知识问答和天气询问至少之一；将用于响应控制设备意图的形象资源和话术资源，与控制设备意图对应的场景信息和条件信息进行绑定，以生成对应的配置项目，其中，控制设备意图包括以下至少之一：通过车辆中的客户端控制家居设备，通过家居设备中的客户端控制车辆；将用于响应查看车机留言意图的形象资源和话术资源，与查看车机留言意图对应的场景信息和条件信息进行绑定，以生成对应的配置项目。

下面结合图4示出的步骤401-406对客户端上所进行的智能语音助手与用户进行语音交互和形象交互的过程进行说明。

参见图4a，图4a是本发明实施例提供的智能语音助手的交互方法的一个可选的流程示意图，将结合图4a示出的步骤401-406进行说明。

在步骤401中，客户端从服务器获取虚拟形象的资源以及对应资源的配置信息。

在步骤402中，客户端从资源中提取对应智能语音助手的虚拟形象的模型资源。

这里的资源可以具体包括模型资源、场景资源、动作资源、皮肤资源、道具资源、特效资源或者话术资源等类型的资源。同时，这里的场景资源、动作资源、皮肤资源、道具资源以及特效资源或者话术资源均是对应于虚拟形象的，可以是针对于一个虚拟形象的资源包。

参见图4b，基于图4a，图4b是本发明实施例提供的智能语音助手的交互方法的一个可选的流程示意图，将结合图4b示出的步骤4011-4013进行说明。

在步骤401中，客户端从服务器获取虚拟形象的资源以及对应所述资源的配置信息，可以通过执行下述步骤4011-4013具体实现。

步骤4011中，客户端向服务器提交携带有客户端的版本和对应虚拟形象的虚拟形象标识的资源获取请求。

步骤4012中，服务器根据版本以及虚拟形象标识，在数据库中查询到适配于客户端的版本且对应虚拟形象的资源。

步骤4013中，客户端接收服务器下发的适配于客户端的版本且对应虚拟形象的资源以及对应资源的配置信息。

在一些实施例中，客户端向服务器提交资源获取请求，资源获取请求中携带有虚拟形象标识，从而获取对应于虚拟形象标识的资源，这里的资源中包括围绕特定虚拟形象所配置的场景资源、动作资源、皮肤资源、道具资源、特效资源或者话术资源等类型的资源。资源获取请求中还携带有客户端的版本信息，对于同一个虚拟形象而言，可以具有对应不同客户端版本的资源配置，针对于不同的客户端版本，其所能使用的资源配置不相同，例如，对应客户端1.0版本的资源可以具有三个场景，而对应客户端2.0版本的资源可以具有5个场景。服务器根据资源获取请求中携带的客户端版本以及对应虚拟形象的虚拟形象标识在数据库中查询出符合客户端版本要求的对应虚拟形象的资源，并将查询出的资源以及对应资源的配置信息下发到提交资源获取请求的客户端。

在一些实施例中，配置信息包括对应各种场景和条件的配置项目以及初始化呈现的配置项目，服务器下发的资源和配置，可以是对应所请求的虚拟形象的完整资源和配置信息，也可以是部分的资源以及对应的配置信息，例如，基于历史数据统计的热门资源，服务器仅下发对应所请求的虚拟形象的热门资源和对应的配置信息，从而缩短传输延迟。

在一些实施例中，客户端可以先从服务器获取对应资源的配置信息，通过对配置信息进行分析，然后结合应用当前的需求，从服务器获取对应当前需求的部分或者全部的资源。例如，应用当前的需求是与虚拟形象进行问答交互，那么可以对所接收到的配置信息进行分析，仅仅获取对应于问答意图的话术资源以及形象资源，从而可以缩短获取资源的时间。

在步骤403中，客户端根据模型资源、配置信息中的默认配置项目指示的资源，呈现智能语音助手的虚拟形象，其可以通过以下方式实现：根据配置信息中默认配置项目指示的形象资源，在所述模型资源对应的模型的基础上，呈现智能语音助手的虚拟形象的默认形象，其中，默认形象包括：虚拟形象的默认皮肤以及默认道具，这里的模型资源可以是二维的模型或是三维的模型，在呈现了智能语音助手的虚拟形象的默认形象之后，客户端还会根据配置信息中的默认配置项目指示的话术资源，播放对应虚拟形象的语音。

在一些实施例中，对于一个特定的虚拟形象，在首次呈现在客户端的显示界面上时，会以初始化的默认形象出现，初始化的默认形象可以包括虚拟形象首次呈现所处的默认场景，虚拟形象首次呈现所展示的皮肤，虚拟形象首次出现所佩戴的道具，以及围绕于虚拟形象的特效。在此基础上，呈现虚拟形象时，还可以播放对应虚拟形象的语音，例如，对应于虚拟形象的问候语，或者虚拟形象本身具有相关性的语句。

在步骤404中，客户端根据对应智能语音助手的交互指令查询配置信息，得到符合交互指令的配置项目。

在步骤404中客户端根据对应智能语音助手的交互指令查询配置信息，得到符合交互指令的配置项目，可以通过执行下述步骤具体实现。

当交互指令包括语音交互指令时，对语音交互指令进行语音识别和语义识别，得到表征虚拟形象所处环境的场景信息、以及表征执行语音交互指令的关键字的条件信息。根据场景信息和条件信息查询配置信息，得到符合场景信息和条件信息的配置项目。这里的配置项目可以为在资源配置阶段所生成的场景资源配置项目，模型资源配置项目，皮肤资源配置项目，动作资源配置项目和话术资源配置项目。

在一些实施例中，当交互指令包括语音交互指令时，对语音交互指令进行语音识别和语义识别，得到表征虚拟形象所处环境的场景信息、以及表征执行语音交互指令的关键字的条件信息。根据场景信息和条件信息查询配置信息，得到符合场景信息和条件信息的配置项目。这里对语音交互指令进行语音识别和语义识别的过程可以是在客户端本地执行，也可以将语音交互指令发送至服务器，由服务器通过自动语音识别asr技术(asr，automaticspeechrecognition)，对语音交互指令进行语音识别。

在一些实施例中，基于语音识别得到的文字，得到表征虚拟形象所处环境的场景信息、以及表征执行语音交互指令的关键字的条件信息，例如，当语音交互指令为“今天天气如何”，服务器会返回天气的数据是下雨，将“天气”作为形象配置以及话术配置的使用场景的场景信息，将“下雨”作为形象配置以及话术配置的使用条件的条件信息，进而根据场景信息和条件信息对下发的资源的配置信息进行查询，以得到符合天气这个场景的场景信息和下雨这个条件的条件信息的配置项目。

在步骤404中客户端根据对应智能语音助手的交互指令查询配置信息，得到符合交互指令的配置项目，可以通过执行下述步骤具体实现。

当交互指令为触摸交互指令时，呈现对应智能语音助手的以下至少之一的意图选项：智能对话，设备控制，车机留言，切换智能语音助手的虚拟形象，添加智能语音助手的道具，切换智能语音助手所处的场景，设置智能语音助手的活跃时间。

这里的智能对话包括聊天意图、知识问答意图、天气查询意图等等，这里的设备控制包括通过车载系统上的智能语音助手客户端控制家具智能设备、在家里通过终端上的智能语音助手客户端控制车内的智能设备，这里的车机留言指的是通过车载系统上的智能语音助手客户端向对应智能语音助手的智能产品发送留言。基于被选中的意图选项所表征的意图查询配置信息，得到符合意图的配置项目。这里的配置项目可以为在资源配置阶段所生成的场景资源配置项目，模型资源配置项目，皮肤资源配置项目，动作资源配置项目和话术资源配置项目。

在一些实施例中，交互指令可以为触摸交互指令，对智能语音助手的虚拟形象进行触摸，在触摸时可以呈现针对智能语音助手的各个意图选项，通过接收到用户的选择操作，可以确定触摸交互指令所表征的针对智能语音助手的意图，这里的意图对应于配置信息中相应的配置项目，例如关于道具、场景和活跃时间的配置项目，从而得到符合意图的配置项目。

在一些实施例中，客户端还可以通过触摸交互指令对应的触摸模式，确定对应触摸模式的意图，这里的触摸模式可以为轻触模式、按压模式、两指点击模式，为不同的触摸模式配置不同的意图，通过获取交互指令的触摸模式以在本地确定出对应的意图。

在步骤404中客户端根据对应智能语音助手的交互指令查询配置信息，得到符合交互指令的配置项目，可以通过执行下述步骤具体实现。

将对应智能语音助手的交互指令发送到服务器，以使服务器对交互指令进行语义识别，得到交互指令的意图。根据意图查询配置信息，得到符合意图的配置项目。这里的配置项目可以为在资源配置阶段所生成的场景资源配置项目，模型资源配置项目，皮肤资源配置项目，动作资源配置项目和话术资源配置项目。

在一些实例中，交互指令的意图可以通过服务器对交互指令进行分析得到，将对应智能语音助手的交互指令发送到服务器，以使服务器对交互指令进行语义识别，得到交互指令的意图，服务器将所得到的交互指令的意图返回给客户端，使客户端根据所得到的意图查询配置信息，得到符合意图的配置项目。

在一些实施例中，通过服务器中的语音识别模块、和文本转语音(tts，text-to-speech)模块以及声纹信号处理模块对交互指令进行语义分析，以得到交互指令的意图，再根据意图查询配置信息以获取符合意图的配置项目。与上述实施例类似，这里的意图对应于配置信息中相应的配置项目，例如关于道具、场景和活跃时间的配置项目。

在步骤405中，客户端从服务器下发的资源中，提取配置项目中所指示的形象资源以及话术资源。

这里，配置信息中的配置项目文件可以用于指示形象资源和话术资源，并通过配置项目文件读取其所指示的形象资源以及话术资源，这里的形象资源包括场景资源、动作资源、皮肤资源、道具资源和特效资源等类型的以视觉方式呈现的资源。这里的话术资源则是配置的文本资源或语音资源。

在步骤406中，客户端基于形象资源，控制虚拟形象呈现符合交互指令的形象，并基于话术资源，控制虚拟形象播放符合交互指令的语音。

在一些实施例中，可以通过这样的方式来实现上述步骤406，当交互指令的意图为与虚拟形象进行对话时，基于对应对话的形象资源，控制虚拟形象执行与对话结果的情绪对应的反馈动作；当交互指令的意图为与虚拟形象进行对话时，基于对应对话的话术资源，控制虚拟形象播放符合对话问答特征的语音。

在一些实施例中，当交互指令意图为与虚拟形象进行对话时，例如与交互虚拟形象进行知识问答，对于知识问答这一意图而言，会有特定配置的形象资源，形象资源中对应的场景可以是与知识问答相关的场景，例如构造的某个知识问答节目现场，形象资源中对应的皮肤可以是参与知识问答的学者装扮等等，形象资源中对应的动作可以是符合问答的动作。

例如，对于提问而言，其对应的动作可以为提问的动作，对于回答而言，其对应的动作可以为回答的动作，对于评价回答而言，其对应的动作可以为与回答结果的特征相符的动作，步骤404客户端查找到的配置项目中还可以有皮肤、特效等等配置项目，从而进行虚拟形象呈现时，基于对应皮肤、特效资源对虚拟形象进行呈现。在进行反馈时，随着对话结果的变化，对于该意图的形象资源配置项下的皮肤、特效、场景和动作也可以发生变化，另外，可以通过基于神经网络的问答模型，对交互语音指令进行回答。

在一些实施例中，可以通过这样的方式来实现上述步骤406，当交互指令的意图为控制设备时，基于对应控制操作的形象资源，控制虚拟形象呈现对设备的控制操作；当交互指令的意图为控制设备时，基于对应控制操作的话术资源，控制虚拟形象播放表征控制结果的语音。

在一些实施例中，当交互指令意图为通过车载系统的客户端上的虚拟形象控制家中的智能设备时，例如，控制家中的设备开启，对于控制家中的设备开启这一意图而言，会有特定配置的形象资源，形象资源中对应的场景可以是由虚拟形象开启设备的场景，形象资源中对应的动作可以是符合控制操作的动作，例如，对于开灯的控制操作而言，其对应的动作可以为按下灯开关的动作，同时，作为道具的灯被点亮，步骤404客户端查找到的配置项目中还可以有皮肤、特效、道具等等配置项目，从而进行虚拟形象呈现时，基于对应皮肤、特效、道具资源对虚拟形象进行呈现，在进行控制操作时，随着控制状态的变化，所表征的控制结果也会发生变化，对于该意图的形象资源的配置项下的皮肤、特效、场景和动作也可以发生变化。

在一些实施例中，可以通过这样的方式来实现上述步骤406，当交互指令的意图为查看车机留言时，基于对应查看车机留言的形象资源，控制虚拟形象呈现查看车机留言的动作；当交互指令的意图为查看车机留言时，基于对应查看车机留言的话术资源，控制虚拟形象播放车机留言的语音。

在一些实施例中，当交互指令意图为通过车载系统的客户端上的虚拟形象对家中的对应于客户端的智能机器人进行留言并查询留言时，对于车机留言的意图而言，会有特定配置的形象资源，形象资源中对应的场景可以是进行留言或者查询留言的场景，形象资源中对应的动作可以是查看车技留言的动作或者是对智能机器人进行留言的动作，步骤404客户端查找到的配置项目中还可以有皮肤、特效、道具等等配置项目，从而进行虚拟形象呈现时，基于对应皮肤、特效、道具资源对虚拟形象进行呈现，在进行车机留言操作或者查询车机留言时，随着车机留言过程以及查询留言过程中智能机器人状态的变化，对于该意图的形象资源的配置项下的皮肤、特效、场景和动作也可以发生变化。另外，语音交互过程可以体现为由虚拟形象输出留言的与语音内容。

下面，将说明本发明实施例在一个实际的应用场景中的示例性应用。

智能语音助手的交互系统主要包括用于提供ai/语音语义识别功能的后台服务器，负责形象资源管理和话术动作配置管理的云端服务器，负责解析话术动作配置，处理用户交互以及三维智能语音助手的渲染的终端。此方案目前用于游戏机器应用(安卓操作系统/苹果操作系统)，车载系统。

参见图5，图5是本发明实施例提供的智能语音助手的交互系统的模块架构图，如图5所示，该模块架构图分为了终端部分和服务器部分，服务器部分分为后台服务器和云台服务器。

对于终端而言，终端具有如下的业务能力，业务能力是指应用客户端具备的功能，例如，形象管理功能，文本转语音播放功能，智能语音助手养成功能，商城功能以及和虚拟形象进行交互的功能。

形象管理功能是基于各个资源管理模块实现的，这里的各个管理功能模块包括：动作管理模块，声音管理模块，场景管理模块，灯光管理模块，道具管理模块，特效管理模块和配置项目查询模块。对于文本转语音播放功能而言，指的是应用客户端可以将文本转化成语音，并对语音进行播放；对于养成功能而言，指的是增加虚拟形象和用户之间的亲密度衡量标准，随着亲密度的增加，之前未被解锁的动作资源和话术资源可以被解锁并进行加载使用，即虚拟形象新增与亲密度对应的动作资源和话术资源，或者，随着亲密度的增加，商城中未被解锁的物品可以被解锁并购买，或者，随着亲密度的增加，未被解锁的功能可以被解锁，并使虚拟形象具备与亲密度对应的功能；对于商场功能而言，指的是设置一个虚拟商城，用户可以在虚拟商城里为虚拟形象购买皮肤道具。

虚拟形象交互功能包括：跳舞，触摸反馈，道具动作，场景切换，声音口型，长短待机以及角色切换。对于跳舞而言，指的是控制虚拟形象按照事先设定的舞蹈动作进行跳舞；对于触摸反馈而言，指的是对虚拟形象进行触摸使虚拟形象做出相应的反馈动作，例如点击虚拟形象的手，虚拟形象会做招手的动作；对于道具动作而言，指的是为虚拟形象配置相应的道具，并会做出与道具相应的动作；对于场景切换而言，指的是为虚拟形象切换其所处的场景；对于声音口型而言，指的是虚拟形象进行语音输出的时候，会查询对应于语音的口型，使虚拟形象的声音和口型匹配；对于长短待机而言，指的是控制虚拟形象的活跃时间；对于角色切换而言，指的是控制智能语音助手切换成不同的虚拟形象。

除了上述提到的资源管理模块之外，终端中还内置有任务管理模块，基础功能模块，适配模块和底层本地框架，基础功能模块包括：网络功能模块，存储功能模块，日志上报模块，文本转语音模块，输入模块以及动画模块。资源管理模块和基础功能模块都是在渲染引擎中开发完成的，适配模块是指渲染引擎跟底层通信的适配层，例如，在渲染引擎中需要用到系统音量调节接口，因此需要调用安卓/苹果的接口，本地框架层是指安卓/苹果的接口。

对于后台服务器而言，后台服务器中设置有语音识别模块、文本转语音模块和声纹信号处理模块，语音识别模块用于对语音进行语音识别，文本转语音模块用于将文本转化为语音进行播放，声纹信号处理模块用于对声音进行权限识别，以根据声音中对说话者的身份进行识别。对于云端服务器而言，云端服务器中设置有云端内容管理系统，云端内容管理系统中包括：资源管理端和话术配置管理端。资源管理端包括对皮肤资源、场景资源、动作资源、道具资源以及其他形象资源进行管理，话术配置管理端是指基于形象资源进行话术配置。

由后台服务器和云端服务器中内置的模块实现了用于支撑终端业务功能的支撑模块，支撑模块中包括意图识别和云端管理。意图识别中包括有闲聊意图、知识问答意图、查询天气意图、家控车意图、车控家意图以及车机留言意图。对于闲聊意图而言，指的是用户与智能语音助手的交互内容为闲聊；对于知识问答意图而言，指的是用户与智能语音助手的交互内容为知识问答；对于查询天气意图而言，指的是用户与智能语音助手的交互内容为查询天气；对于家控车意图而言，指的是通过移动终端上的智能语音助手控制车里的空调或者控制车启动；对于车控家而言，指的是通过车载系统上的智能语音助手控制家里的智能设备；对于车机留言而言，指的是通过车载系统上的智能语音助手对智能机器人进行留言，这里的智能机器人是和智能语音助手对应的机器人。云端管理系统中包括形象资源管理、动作话术管理以及资源及配置版本管理。

参见图6，图6是本发明实施例提供的智能语音助手的资源配置架构图，如图6所示，内容提供商需要在服务器上注册一个客户端身份标识，得到客户端身份标识之后，内容提供商可以向服务器上传形象资源，上传形象资源的过程如下：创建虚拟形象，系统会生成虚拟形象对应的虚拟形象标识，针对于虚拟形象创建不同的资源版本，将场景，动作等形象资源添加到对应的资源版本，在添加资源之后，根据虚拟形象标识配置对应的话术，并选择对应的资源版本导入相关的动作资源，再选择使用场景和使用条件进行动作及话术的配置。这里的配置是具体为在什么样的场景和条件下应该触发什么样的动作话术，例如，对于“今天天气如何”这个交互指令而言，后台会返回“下雨”这个使用条件，根据“天气”这个使用场景，和“下雨”这个使用条件去动作话术配置中查找对应的(即对应场景和条件的)的配置项目，从而确定在当前的场景和条件下需要使用什么样的话术。

资源的版本是指版本管理，因为不同的版本资源可能是不一样的，资源版本可以配置为与客户端版本相关，例如，对于1.0版本的客户端而言，其对应的资源版本中只有10个动作，对于2.0版本的客户端而言，其对应的资源版本中有20个动作，以上是通过资源版本管理来控制的。

参见图7，图7是本发明实施例提供的智能语音助手的终端流程图，如图7所示，内容提供商在云端服务器上配置部署智能语音助手的三维虚拟形象的资源，包括动作资源，模型资源，场景资源以及动作话术配置策略，如果该虚拟形象有多个动作，那需要上传多个动作的资源。上传的资源可以保存在云端数据库，并根据上传的资源生成对应的配置信息。后台服务器将资源和云端数据库生成的配置信息按照约定好的消息格式和内容进行打包，通过通信协议下发到客户端中，客户端根据后台下发的配置信息进行资源的下载，解压以及加载，当用户发出语音指令时(例如“今天星期几”)或者对屏幕上的虚拟形象进行点击触摸时(例如点击了三维虚拟形象的头部)，客户端会根据用户输入的指令去查询配置，如果查询到对应的配置，则根据配置对应的资源播放的对应的动作和话术，如果没有查询到对应的配置，则播放默认的动作和话术。

下面继续说明本发明实施例提供的智能语音助手的交互装置455的实施为软件模块的示例性结构，在一些实施例中，如图2a所示，存储在存储器450中的智能语音助手的交互装置455中的软件模块可以包括：

资源管理模块4551，用于从服务器获取虚拟形象的资源以及对应所述资源的配置信息，并从所述资源中提取对应所述智能语音助手的虚拟形象的模型资源；

配置项目查询模块4552，用于根据对应所述智能语音助手的交互指令查询所述配置信息，得到符合所述交互指令的配置项目；

资源提取模块4553，用于从所述服务器下发的资源中，提取所述配置项目中所指示的形象资源以及话术资源；

动画功能模块4554，用于根据所述模型资源、所述配置信息中的默认配置项目指示的资源，呈现所述智能语音助手的虚拟形象；用于基于所述形象资源，控制所述虚拟形象呈现符合所述交互指令的形象，并基于所述话术资源，控制所述虚拟形象播放符合所述交互指令的语音。

在一些实施例中，资源管理模块4551，还用于：

向服务器提交携带有客户端的版本和对应虚拟形象的虚拟形象标识的资源获取请求，以使

服务器根据版本以及虚拟形象标识，在数据库中查询到适配于客户端的版本且对应虚拟形象的资源；

接收服务器下发的适配于客户端的版本且对应虚拟形象的资源以及对应资源的配置信息。

在一些实施例中，动画功能模块4554，还用于：

根据配置信息中默认配置项目指示的形象资源，在模型资源对应的模型的基础上，呈现智能语音助手的虚拟形象的默认形象；

其中，默认形象包括：虚拟形象的默认皮肤以及默认道具。

动画功能模块4554，还用于

根据配置信息中的默认配置项目指示的话术资源，播放对应虚拟形象的语音。

在一些实施例中，配置项目查询模块4552，还用于：

当交互指令包括语音交互指令时，对语音交互指令进行语音识别和语义识别，得到表征虚拟形象所处环境的场景信息、以及表征执行语音交互指令的关键字的条件信息，根据场景信息和条件信息查询配置信息，得到符合场景信息和条件信息的配置项目；和/或，

当交互指令为触摸交互指令时，呈现对应智能语音助手的以下至少之一的意图选项：智能对话，设备控制，车机留言，切换智能语音助手的虚拟形象，添加智能语音助手的道具，切换智能语音助手所处的场景，设置智能语音助手的活跃时间，基于被选中的意图选项所表征的意图查询配置信息，得到符合意图的配置项目；和/或，

将对应智能语音助手的交互指令发送到服务器，以使服务器对交互指令进行语义识别，得到交互指令的意图，根据意图查询配置信息，得到符合意图的配置项目。

在一些实施例中，动画功能模块4554，还用于：

当交互指令的意图为与虚拟形象进行对话时，基于对应对话的形象资源，控制虚拟形象执行与对话结果的情绪对应的反馈动作，基于对应对话的话术资源，控制虚拟形象播放符合对话问答特征的语音；和/或，

当交互指令的意图为控制设备时，基于对应控制操作的形象资源，控制虚拟形象呈现对设备的控制操作，基于对应控制操作的话术资源，控制虚拟形象播放表征控制结果的语音；和/或，

当交互指令的意图为查看车机留言时，基于对应查看车机留言的形象资源，控制虚拟形象呈现查看车机留言的动作，基于对应查看车机留言的话术资源，控制虚拟形象播放车机留言的语音。

下面继续说明本发明实施例提供的智能语音助手的交互装置255的实施为软件模块的示例性结构，在一些实施例中，如图2b所示，存储在存储器250中的智能语音助手的交互装置255中的软件模块可以包括：

资源配置模块2551，用于获取智能语音助手的虚拟形象的资源，并生成对应资源的配置信息；

资源下发模块2552，用于向客户端下发智能语音助手的资源以及对应资源的配置信息，以使客户端执行以下操作：

呈现语音助手的虚拟形象；

基于形象资源，控制虚拟形象呈现符合交互指令的形象，并

基于话术资源，控制虚拟形象播放符合交互指令的语音。

在一些实施例中，资源配置模块2551，还用于：

接收美术资源提供方上传的智能语音助手的形象资源，并创建智能语音助手的话术资源；

其中，形象资源包括以下至少之一：场景资源，模型资源，皮肤资源和动作资源；

当接收到新虚拟形象的形象资源时，为接收的形象资源分配新版本标识，并

生成对应新版本的配置信息，配置信息包括以下至少之一：场景资源配置项目，模型资源配置项目，皮肤资源配置项目，动作资源配置项目和话术资源配置项目；

当接收到智能语音助手的形象资源是已有虚拟形象的更新资源时，更新已有虚拟形象的对应版本的形象资源和配置信息。

在一些实施例中，装置还包括：语音语义识别模块2553，用于：

接收客户端上传的对应的智能语音助手的交互指令；

当交互指令为语音交互指令时，对语音交互指令进行语音识别得到文本信息，对文本信息进行语义识别，得到交互指令的意图，并发送到客户端，以使

客户端根据意图查询配置信息，得到符合意图的配置项目，根据配置项目中所指示的形象资源，控制虚拟形象呈现符合交互指令的形象，并

根据配置信息中指示的话术资源，控制虚拟形象播放符合交互指令的语音；

其中，意图包括以下至少之一：

智能对话，设备控制，车机留言，切换智能语音助手的虚拟形象，添加智能语音助手的道具，切换智能语音助手所处的场景，设置智能语音助手的活跃时间。

在一些实施例中，装置还包括：声纹信号处理模块2554，用于：

提取语音交互指令的声纹特征参数；

根据声纹特征参数，对发起语音交互指令的用户的身份进行识别；

当用户被识别为授权用户时，确定继续对文本信息进行语义识别；

当用户被识别为非授权用户时，返回用户不具备操作权限的提示信息至客户端。

在一些实施例中，资源配置模块2551，还用于：

针对交互指令的潜在的各个候选的意图，执行以下处理：

将用于响应意图的资源与意图对应的场景信息和条件信息进行关联形成对应的配置项目，以基于配置项目组合形成对应意图的配置信息。

在一些实施例中，资源配置模块2551，还用于：

将用于响应对话意图的形象资源和话术资源，与对话意图的场景信息和条件信息进行绑定，以生成对应的配置项目，其中，对话意图包括聊天、知识问答和天气询问至少之一；

将用于响应控制设备意图的形象资源和话术资源，与控制设备意图对应的场景信息和条件信息进行绑定，以生成对应的配置项目，其中，控制设备意图包括以下至少之一：通过车辆中的客户端控制家居设备，通过家居设备中的客户端控制车辆；

将用于响应查看车机留言意图的形象资源和话术资源，与查看车机留言意图对应的场景信息和条件信息进行绑定，以生成对应的配置项目。

本发明实施例提供一种智能语音助手的交互设备，所述设备包括：

存储器，用于存储可执行指令；

处理器，用于执行所述存储器中存储的可执行指令时，实现本发明实施例提供的智能语音助手的交互方法，例如，如图3和图4a-4b示出智能语音助手的交互方法。

本发明实施例提供一种存储有可执行指令的存储介质，其中存储有可执行指令，当可执行指令被处理器执行时，将引起处理器执行本发明实施例提供的方法，例如，如图3和图4a-4b示出智能语音助手的交互方法。

在一些实施例中，存储介质可以是fram、rom、prom、eprom、eeprom、闪存、磁表面存储器、光盘、或cd-rom等存储器；也可以是包括上述存储器之一或任意组合的各种设备。

在一些实施例中，可执行指令可以采用程序、软件、软件模块、脚本或代码的形式，按任意形式的编程语言(包括编译或解释语言，或者声明性或过程性语言)来编写，并且其可按任意形式部署，包括被部署为独立的程序或者被部署为模块、组件、子例程或者适合在计算环境中使用的其它单元。

作为示例，可执行指令可以但不一定对应文件系统中的文件，可以可被存储在保存其它程序或数据的文件的一部分，例如，存储在超文本标记语言(html，hypertextmarkuplanguage)文档中的一个或多个脚本中，存储在专用于所讨论的程序的单个文件中，或者，存储在多个协同文件(例如，存储一个或多个模块、子程序或代码部分的文件)中。

作为示例，可执行指令可被部署为在一个计算设备上执行，或者在位于一个地点的多个计算设备上执行，又或者，在分布在多个地点且通过通信网络互连的多个计算设备上执行。

综上，通过本发明实施例，利用后台上传资源，利用终端上的客户端进行资源渲染，实现了用户和智能语音助手之间的语音交互和形态交互，从而形成一套包括终端和后台的智能语音助手的解决方案，使得内容提供厂商能快速，低成本地应用本解决方案，使其对应的应用产品具备智能语音助手的功能。

以上，仅为本发明的实施例而已，并非用于限定本发明的保护范围。凡在本发明的精神和范围之内所作的任何修改、等同替换和改进等，均包含在本发明的保护范围之内。

技术特征：

1.一种智能语音助手的交互方法，其特征在于，所述方法包括：

从服务器获取虚拟形象的资源以及对应所述资源的配置信息，并从所述资源中提取对应所述智能语音助手的虚拟形象的模型资源；

根据所述模型资源、所述配置信息中的默认配置项目指示的资源，呈现所述智能语音助手的虚拟形象；

根据对应所述智能语音助手的交互指令查询所述配置信息，得到符合所述交互指令的配置项目；

从所述服务器下发的资源中，提取所述配置项目中所指示的形象资源以及话术资源；

基于所述形象资源，控制所述虚拟形象呈现符合所述交互指令的形象，并

基于所述话术资源，控制所述虚拟形象播放符合所述交互指令的语音。

2.根据权利要求1所述的方法，其特征在于，

所述从服务器获取虚拟形象的资源以及对应所述资源的配置信息，包括：

向所述服务器提交携带有客户端的版本和对应所述虚拟形象的虚拟形象标识的资源获取请求，以使

所述服务器根据所述版本以及所述虚拟形象标识，在数据库中查询到适配于所述客户端的版本且对应所述虚拟形象的资源；

接收所述服务器下发的适配于所述客户端的版本且对应所述虚拟形象的资源，以及对应所述资源的配置信息。

3.根据权利要求1所述的方法，其特征在于，所述根据所述模型资源、所述配置信息中的默认配置项目指示的资源，呈现所述智能语音助手的虚拟形象，包括：

根据所述配置信息中默认配置项目指示的形象资源，在所述模型资源对应的模型的基础上，呈现所述智能语音助手的虚拟形象的默认形象；

其中，所述默认形象包括：所述虚拟形象的默认皮肤以及默认道具；

所述方法还包括：

根据所述配置信息中的默认配置项目指示的话术资源，播放对应所述虚拟形象的语音。

4.根据权利要求1所述的方法，其特征在于，所述根据对应所述智能语音助手的交互指令查询所述配置信息，得到符合所述交互指令的配置项目，包括：

当所述交互指令包括语音交互指令时，对所述语音交互指令进行语音识别和语义识别，得到表征所述虚拟形象所处环境的场景信息、以及表征执行所述语音交互指令的关键字的条件信息，根据所述场景信息和所述条件信息查询所述配置信息，得到符合所述场景信息和所述条件信息的配置项目；和/或，

当所述交互指令为触摸交互指令时，呈现对应所述智能语音助手的以下至少之一的意图选项：智能对话，设备控制，车机留言，切换所述智能语音助手的虚拟形象，添加所述智能语音助手的道具，切换所述智能语音助手所处的场景，设置所述智能语音助手的活跃时间，基于被选中的意图选项所表征的意图查询所述配置信息，得到符合所述意图的配置项目；和/或，

将对应所述智能语音助手的交互指令发送到所述服务器，以使所述服务器对所述交互指令进行语义识别，得到所述交互指令的意图，根据所述意图查询所述配置信息，得到符合所述意图的配置项目。

5.根据权利要求1-4任一项所述的方法，其特征在于，所述基于所述形象资源，控制所述虚拟形象呈现符合所述交互指令的形象，包括：

当所述交互指令的意图为与所述虚拟形象进行对话时，基于对应所述对话的形象资源，控制所述虚拟形象执行与对话结果的情绪对应的反馈动作，基于对应所述对话的话术资源，控制所述虚拟形象播放符合对话问答特征的语音；和/或，

当所述交互指令的意图为控制设备时，基于对应控制操作的形象资源，控制所述虚拟形象呈现对设备的控制操作，基于对应控制操作的话术资源，控制所述虚拟形象播放表征控制结果的语音；和/或，

6.一种智能语音助手的交互方法，其特征在于，所述方法包括：

获取智能语音助手的虚拟形象的资源，并生成对应所述资源的配置信息；

向客户端下发所述智能语音助手的资源以及对应所述资源的配置信息，以使所述客户端执行以下操作：

呈现所述语音助手的虚拟形象；

基于所述形象资源，控制所述虚拟形象呈现符合所述交互指令的形象，并

基于所述话术资源，控制所述虚拟形象播放符合所述交互指令的语音。

7.根据权利要求6所述的方法，其特征在于，所述获取智能语音助手的虚拟形象的资源，包括：

接收美术资源提供方上传的所述智能语音助手的形象资源，并创建所述智能语音助手的话术资源；

其中，所述形象资源包括以下至少之一：场景资源，模型资源，皮肤资源和动作资源；

所述生成对应所述资源的配置信息，包括：

当接收到新虚拟形象的形象资源时，为所述接收的形象资源分配新版本标识，并

所述生成对应所述资源的配置信息，包括：

当接收到所述智能语音助手的形象资源是已有虚拟形象的更新资源时，更新所述已有虚拟形象的对应版本的形象资源和配置信息。

8.根据权利要求6所述的方法，其特征在于，向客户端下发所述智能语音助手的资源以及对应所述资源的配置信息之后，所述方法还包括：

接收所述客户端上传的对应的智能语音助手的交互指令；

根据所述配置信息中指示的所述话术资源，控制所述虚拟形象播放符合所述交互指令的语音；

其中，所述意图包括以下至少之一：

9.根据权利要求8所述的方法，其特征在于，在对所述文本信息进行语义识别之前，所述方法还包括：

提取所述语音交互指令的声纹特征参数；

根据所述声纹特征参数，对发起所述语音交互指令的用户的身份进行识别；

当所述用户被识别为授权用户时，确定继续对所述文本信息进行语义识别；

当所述用户被识别为非授权用户时，返回所述用户不具备操作权限的提示信息至所述客户端。

10.根据权利要求7所述的方法，其特征在于，所述生成对应所述资源的配置信息，包括：

针对所述交互指令的潜在的各个候选的意图，执行以下处理：

11.根据权利要求10所述的方法，其特征在于，所述将用于响应所述意图的资源与所述意图对应的场景信息和条件信息进行关联形成对应的配置项目，包括：

将用于响应查看车机留言意图的形象资源和话术资源，与所述查看车机留言意图对应的场景信息和条件信息进行绑定，以生成对应的配置项目。

12.一种智能语音助手的交互装置，其特征在于，所述装置包括：

资源管理模块，用于从服务器获取虚拟形象的资源以及对应所述资源的配置信息，并从所述资源中提取对应所述智能语音助手的虚拟形象的模型资源；

配置项目查询模块，用于根据对应所述智能语音助手的交互指令查询所述配置信息，得到符合所述交互指令的配置项目；

资源提取模块，用于从所述服务器下发的资源中，提取所述配置项目中所指示的形象资源以及话术资源；

13.一种智能语音助手的交互装置，其特征在于，所述装置包括：

资源配置模块，用于获取智能语音助手的虚拟形象的资源，并生成对应所述资源的配置信息；

资源下发模块，用于向客户端下发所述智能语音助手的资源以及对应所述资源的配置信息，以使所述客户端执行以下操作：

呈现所述语音助手的虚拟形象；

基于所述形象资源，控制所述虚拟形象呈现符合所述交互指令的形象，并

基于所述话术资源，控制所述虚拟形象播放符合所述交互指令的语音。

14.一种智能语音助手的交互设备，其特征在于，所述设备包括：

存储器，用于存储可执行指令；

处理器，用于执行所述存储器中存储的可执行指令时，实现权利要求1至5中任一项或6至11中任一项所述的智能语音助手的交互方法。

15.一种存储介质，其特征在于，存储有可执行指令，用于引起处理器执行时，实现权利要求1至5中任一项或6至11中任一项所述的智能语音助手的交互方法。

技术总结

本发明提供了一种智能语音助手的交互方法、装置、设备及存储介质，涉及人工智能技术，方法包括：从服务器获取虚拟形象的资源以及对应资源的配置信息，并从资源中提取对应智能语音助手的虚拟形象的模型资源；根据模型资源、配置信息中的默认配置项目指示的资源，呈现智能语音助手的虚拟形象；根据对应智能语音助手的交互指令查询配置信息，得到符合交互指令的配置项目；从服务器下发的资源中，提取配置项目中所指示的形象资源以及话术资源；基于形象资源，控制虚拟形象呈现符合交互指令的形象，并基于话术资源，控制虚拟形象播放符合交互指令的语音，通过本发明，能够实现智能语音助手与用户之间的语音交互以及形象交互。

技术研发人员：李卓卿;龙振海

受保护的技术使用者：腾讯科技(深圳)有限公司

技术研发日：.10.16

技术公布日：.02.07

本内容不代表本网观点和政治立场，如有侵犯你的权益请联系我们处理。

网友评论

网友评论仅供其表达个人看法，并不表明网站立场。