第一句子网 > 一种交互功能的执行方法装置电子设备及存储介质与流程

一种交互功能的执行方法装置电子设备及存储介质与流程

时间：2019-01-17 15:13:46

本公开涉及互联网技术领域，尤其涉及一种交互功能的执行方法、装置、电子设备及存储介质。

背景技术：

随着互联网技术的发展，多媒体客户端向用户提供的服务逐渐多元化。例如，在多媒体客户端中，除了向用户提供多媒体播放功能，还提供了聊天、分享以及点赞等更多类型的交互功能。

相关技术中，用户在多媒体客户端中通过点击或检索等方式指定所要执行的交互功能的交互类型以及该交互类型所需的参数；进而，多媒体客户端将用户所指定的交互类型的标识和该交互类型所需的参数发送给服务器；服务器收到多媒体客户端所发送的标识和参数后，基于该标识和该参数，生成并执行操作指令；然后，将操作指令的执行结果反馈给多媒体客户端，以使多媒体客户端展示该执行结果。

然而，在多媒体客户端所提供交互功能的数量较多的情况下，用户在多媒体客户端寻找所要执行的交互功能的按钮或检索框等过程较为繁琐，耗时较长，这无疑导致交互功能的执行效率较低。

技术实现要素：

本公开提供一种交互功能的执行方法、装置、电子设备及存储介质，以提升交互功能的执行效率。本公开的技术方案如下：

根据本公开的实施例的第一方面，提供一种应用于服务器的交互功能的执行方法，包括：

接收通过多媒体客户端输入的、用于请求执行交互功能的语音指令；

基于所述语音指令的语义内容，识别所请求执行的交互功能的交互类型；

按照所述语音指令的语义内容，生成与所识别的交互类型对应的操作指令，并执行所述操作指令；

将所述操作指令的执行结果返回给所述多媒体客户端，以使所述多媒体客户端展示所述执行结果。

可选地，所述基于所述语音指令的语义内容，识别所请求执行的交互功能的交互类型，包括：

将所述语音指令的语义内容转换为文本序列，所述文本序列为所述语义内容中的各个词语以及每个词语的词性信息所组成的序列；

将所述文本序列输入至预先训练完成的交互分类模型，得到所述文本序列对应的交互类型的标识；

将所得到的标识对应的交互类型，作为所请求执行的交互功能的交互类型；

其中，所述交互分类模型为基于多个样本文本序列以及对每个所述样本文本序列标注的交互类型的标识，所训练获得的模型。

可选地，所述将所述语音指令的语义内容转换为文本序列，包括：

对所述语音指令的语义内容进行分词处理，得到各个分词以及每个分词的词性；

以每个分词以及该分词的词性为序列元素，构建文本序列，作为所述语音指令的语义内容转换成的文本序列。

可选地，所述按照所述语音指令的语义内容，生成与所识别的交互类型对应的操作指令，包括：

从所述语音指令的语义内容中提取操作关键词；

将提取出的操作关键词，填充入所识别的交互类型的指令模板中，生成所述操作指令。

可选地，所述从所述语音指令的语义内容中提取操作关键词，包括：

对所述语音指令对应的语义内容进行分词处理，得到各个分词；

利用预先训练完成的分词分类模型，对所述各个分词进行分类，得到每个分词对应的交互类型；

从所述各个分词中，提取交互类型与所识别的交互类型相同的分词，作为操作关键词；

其中，所述分词分类模型为基于样本分词以及样本分词对应的交互类型的标识，所训练获得的模型。

可选地，在将所述操作指令的执行结果返回给所述多媒体客户端之后，所述方法还包括：

将所述执行结果对应的反馈语音返回给所述多媒体客户端，以使所述多媒体客户端播放所述反馈语音。

根据本公开的实施例的第二方面，提供一种应用于多媒体客户端的交互功能的执行方法，包括：

接收用于请求执行交互功能的语音指令；

将所述语音指令发送至服务器，以使所述服务器基于所述语音指令的语义内容，识别所请求执行的交互功能的交互类型；按照所述语音指令的语义内容，生成与所识别的交互类型对应的操作指令；执行所述操作指令，并返回所述操作指令的执行结果；

接收并展示所述执行结果。

可选地，在展示所述执行结果之后，所述方法还包括：

接收所述服务器发送的所述执行结果对应的反馈语音；

播放所述反馈语音。

根据本公开的实施例的第三方面，提供一种应用于服务器的交互功能的执行装置，包括：

接收模块，被配置为接收通过多媒体客户端输入的、用于请求执行交互功能的语音指令；

识别模块，被配置为基于所述语音指令的语义内容，识别出所请求执行的交互功能的交互类型；

执行模块，被配置为按照所述语音指令的语义内容，生成与所识别的交互类型对应的操作指令，并执行所述操作指令；

第一反馈模块，被配置为将所述操作指令的执行结果返回给所述多媒体客户端，以使所述多媒体客户端展示所述执行结果。

可选地，所述识别模块，包括：转换子模块和识别子模块；

所述转换子模块，被配置为将所述语音指令的语义内容转换为文本序列，所述文本序列为所述语义内容中的各个词语以及每个词语的词性信息所组成的序列；

所述识别子模块，被配置为将所述文本序列输入至预先训练完成的交互分类模型，得到所述文本序列对应的交互类型的标识；将所得到的标识对应的交互类型，作为所请求执行的交互功能的交互类型；其中，所述交互分类模型为基于多个样本文本序列以及对每个所述样本文本序列标注的交互类型的标识，所训练获得的模型。

可选地，所述转换子模块，具体被配置为：

对所述语音指令的语义内容进行分词处理，得到各个分词以及每个分词的词性；

以每个分词以及该分词的词性为序列元素，构建文本序列，作为所述语音指令的语义内容转换成的文本序列。

可选地，所述执行模块，包括提取子模块和填充子模块；

所述提取子模块，被配置为从所述语音指令的语义内容中提取操作关键词；

所述填充子模块，被配置为将提取出的操作关键词，填充入所识别的交互类型的指令模板中，生成所述操作指令。

可选地，所述提取子模块，具体用于：

对所述语音指令对应的语义内容进行分词处理，得到各个分词；

利用预先训练完成的分词分类模型，对所述各个分词进行分类，得到每个分词对应的交互类型；

从所述各个分词中，提取交互类型与所识别的交互类型相同的分词，作为操作关键词；

其中，所述分词分类模型为基于样本分词以及样本分词对应的交互类型的标识，所训练获得的模型。

可选地，所述装置还包括：第二反馈模块；

所述第二反馈模块，被配置为将所述执行结果对应的反馈语音返回给所述多媒体客户端，以使所述多媒体客户端播放所述反馈语音。

根据本公开的实施例的第四方面，提供一种应用于多媒体客户端的交互功能的执行装置，包括：

第一接收模块，被配置为接收用于请求执行交互功能的语音指令；

发送模块，被配置为将所述语音指令发送至服务器，以使所述服务器基于所述语音指令的语义内容，识别所请求执行的交互功能的交互类型；按照所述语音指令的语义内容，生成与所识别的交互类型对应的操作指令；执行所述操作指令，并返回所述操作指令的执行结果；

展示模块，被配置为接收并展示所述执行结果。

可选地，所述装置还包括：第二接收模块和播放模块；

所述第二接收模块，被配置为接收所述服务器发送的所述执行结果对应的反馈语音；

所述播放模块，被配置为播放所述反馈语音。

根据本公开的实施例的第五方面，提供一种服务器，包括：

处理器；

用于存储所述处理器可执行指令的存储器；

其中，所述处理器被配置为执行所述指令，以实现上述任一所述的应用于服务器的交互功能的执行方法。

根据本公开的实施例的第六方面，提供一种多媒体客户端设备，包括：

处理器；

用于存储所述处理器可执行指令的存储器；

其中，所述处理器被配置为执行所述指令，以实现上述任一所述的应用于多媒体客户端的交互功能的执行方法。

根据本公开的实施例的第七方面，提供一种存储介质，所述存储介质内存储有计算机程序，当所述计算机程序被处理器执行时，实现上述任一所述的应用于服务器的交互功能的执行方法。

根据本公开的实施例的第八方面，提供一种存储介质，所述存储介质内存储有计算机程序，当所述计算机程序被处理器执行时，实现上述任一所述的应用于多媒体客户端的交互功能的执行方法。

根据本公开的实施例的第九方面，提供一种计算机程序产品，当其在计算机上运行时，使得计算机执行上述任一所述的应用于服务器的交互功能的执行方法。

根据本公开的实施例的第十方面，提供一种计算机程序产品，当其在计算机上运行时，使得计算机执行上述任一所述的应用于多媒体客户端的交互功能的执行方法。

本公开的实施例提供的技术方案至少带来以下有益效果：本方案中，用户无需在多媒体客户端中寻找所要执行交互功能的按钮或检索框等，直接在多媒体客户端输入语音指令，多媒体客户端对应的服务器就可以基于该语音指令的语义内容，识别该语音指令所请求执行的交互功能的交互类型，按照该语音指令的语义内容，生成与所识别的交互类型对应的操作指令，并执行该操作指令；然后，服务器将该操作指令的执行结果反馈给多媒体客户端。因此，本方案可以提升交互功能的执行效率。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本公开。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本公开的实施例，并与说明书一起用于解释本公开的原理，并不构成对本公开的不当限定。

图1是根据一示例性实施例示出的一种应用于服务器的交互功能的执行方法的流程图。

图2是根据一示例性实施例示出的一种应用于多媒体客户端的交互功能的执行方法的流程图。

图3是根据一示例性实施例示出的一种应用于服务器的交互功能的执行装置的框图。

图4是根据一示例性实施例示出的一种应用于多媒体客户端的交互功能的执行装置的框图。

图5是根据一示例性实施例示出的一种服务器的框图。

图6是根据一示例性实施例示出的一种多媒体客户端设备的框图。

图7是根据一示例性实施例示出的一种用于执行交互功能的装置的框图。

图8是根据一示例性实施例示出的另一种用于执行交互功能的装置的框图。

具体实施方式

为了使本领域普通人员更好地理解本公开的技术方案，下面将结合附图，对本公开的实施例中的技术方案进行清楚、完整地描述。

需要说明的是，本公开的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本公开的实施例能够以除了在这里图示或描述的那些以外的顺序实施。以下示例性实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。

为了提升交互功能的执行效率，本公开提供了一种交互功能的执行方法、装置、电子设备及存储介质。

本公开提供的交互功能的执行方法，包括应用于服务器的交互功能的执行方法和应用于多媒体客户端的交互功能的执行方法两种。可以理解的是，应用于服务器的交互功能的执行方法的执行主体，可以为服务器中的交互功能的执行装置；应用于多媒体客户端的交互功能的执行方法的执行主体，可以为多媒体客户端所在电子设备中的交互功能的执行装置。其中，本公开所针对的多媒体客户端，可以是用于提供短视频服务的客户端，当然，并不局限于此。

首先，对本公开的实施例提供的应用于服务器的交互功能的执行方法进行详细说明。如图1所示，该方法可以包括以下步骤：

s11：接收通过多媒体客户端输入的、用于请求执行交互功能的语音指令。

其中，语音指令可以由多媒体客户端的用户输入至多媒体客户端。例如，多媒体客户端中可以设置一个语音输入按钮，用户可以通过点击该按钮来输入语音指令；或者，多媒体客户端中可以预先设置一个启动语音，当多媒体客户端监测到该启动语音时，可以将该启动语音之后用户所输入的一段语音作为语音指令，当然，也可以将包含有该启动语音的一段语音作为语音指令；或者，多媒体客户端可以在监测到自身所在的电子设备被按照预定的方式执行摇晃、触摸等操作时，开启接收语音指令，并将所接收的一段语音作为语音指令。

另外，多媒体客户端中的交互功能存在多种，例如检索功能、推荐功能、闲聊功能以及点评功能等等，并不局限于此。

s12：基于语音指令的语义内容，识别所请求执行的交互功能的交互类型。

可以理解的是，该步骤中，基于语音指令的语义内容，可以识别该语音指令所请求执行的一种交互功能的交互类型。

其中，基于语音指令的语义内容，识别所请求执行的交互功能的交互类型的具体实现方式存在多种。示例性的，在一种实现方式中，基于语音指令的语义内容，识别所请求执行的交互功能的交互类型，可以包括：

将语音指令的语义内容转换为文本序列，该文本序列为语义内容中的各个词语以及每个词语的词性信息所组成的序列；

将文本序列输入至预先训练完成的交互分类模型，得到该文本序列对应的交互类型的标识；

将所得到的标识对应的交互类型，作为所请求执行的交互功能的交互类型；

其中，该交互分类模型为基于多个样本文本序列以及对每个样本文本序列标注的交互类型的标识，所训练获得的模型。

可以理解的是，在该交互分类模型输出文本序列对应的交互类型的标识之前的过程数据中，可以包含该文本序列中的每个词语对应于各种交互类型的标识的概率；其中，概率最高的一个词语所对应的交互类型的标识，即是该交互分类模型输出的该文本序列对应的交互类型的标识。

其中，在训练该交互分类模型时，可以采用对应垂直领域或通用领域的自然语料作为样本文本序列，并通过标注的方式得到每个样本文本序列所对应的交互类型的标识，从而可以基于样本文本序列和样本文本序列对应的交互类型的标识，训练该交互分类模型。并且，基于预先标注的样本文本序列对应的交互类型的标识，以及交互分类模型所输出的样本文本序列所对应的交互类型的标识是否一致的结果，计算交互分类模型的损失值；当该损失值小于预设的第一阈值时，该交互分类模型收敛，完成训练。其中，交互分类模型可以为svm(supportvectormachine)模型、cnn(convolutionalneuralnetwork，卷积神经网络)模型、rnn(recurrentneuralnetwork，循环神经网络)模型、dnn(deepneuralnetworks，深度神经网络)，等等。可以理解的是，当交互分类模型收敛时，对于任一样本文本序列而言，交互分类模型所输出的交互类型的标识，可以与预先标注的该样本文本序列所对应的交互类型的标识相同。

相应的，当交互分类模型训练完成后，将由语音指令的语义内容转换而来的文本序列输入至该交互分类模型，便可以得到该文本序列对应的交互类型的标识，从而识别出语音指令所请求执行的交互功能的交互类型。

该实现方式中，将语音指令的语义内容转换为文本序列的具体实现方式存在多种。示例性的，在第一种实现方式中，将语音指令的语义内容转换为文本序列，可以包括：对语音指令的语义内容进行分词处理，得到各个分词；以每个分词为序列元素，构建文本序列，作为所述语音指令的语义内容转换成的文本序列。

在第二种实现方式中，将语音指令的语义内容转换为文本序列，可以包括：

对语音指令的语义内容进行分词处理，得到各个分词以及每个分词的词性；

以每个分词以及该分词的词性为序列元素，构建文本序列，作为语音指令的语义内容转换成的文本序列。

其中，在第二种实现方式中，以每个分词以及该分词的词性为序列元素，构建文本序列时，可以按照每个分词在语义内容中的排序，构建文本序列。例如，假设语音指令的语义内容为“播放美食视频吧”，则所构建的文本序列可以为“播放/n美食/n视频/n吧/s”；其中，斜杠用于对将各个分词间隔开，斜杠后的字母代表斜杠前的分词的词性。可以理解的是，在构建文本序列时，各个分词的排序，也可以随机的。例如，根据语音指令的语义内容“播放美食视频吧”所构建的文本序列也可以为“吧/s播放/n视频/n美食/n”。

为了方案清楚，下面以具体的示例为例，对基于语音指令的语义内容，识别所请求执行的交互功能的交互类型的过程进行描述。

举例而言，假设语音指令的语义内容为“请帮我播放美食类的视频吧”，将该语义内容转换成的文本序列输入至交互分类模型，所得到的该文本序列对应的交互类型的标识可以为“检索功能”的标识，相应的，可以确定该语音指令请求执行“检索功能”这一交互功能；或者，假设语音指令的语义内容为“我关注的人发的作品”，将该语义内容转换成的文本序列输入至交互分类模型，所得到的该文本序列对应的交互类型的标识可以为“推荐功能”的标识，相应的，可以确定语音指令请求执行“推荐功能”这一交互功能；或者，假设语音指令的语义内容为“给这个视频点赞”，将该语义内容转换成的文本序列输入至交互分类模型，所得到的该文本序列对应的交互类型的标识可以为“点评功能”的标识，相应的，可以确定语音指令请求执行“点评功能”这一交互功能；或者，假设语音指令的语义内容为“你好”，将该语义内容转换成的文本序列输入至交互分类模型，所得到的该文本序列对应的交互类型的标识可以为“闲聊功能”的标识，相应的，可以确定该语音指令请求执行“闲聊功能”这一交互功能。

另外，关于对语音指令的语义内容进行分词处理的具体实现方式，非本公开的发明点，且与现有的分词技术相同或相似，这里不再赘述。

s13：按照语音指令的语义内容，生成与所识别的交互类型对应的操作指令，并执行该操作指令。

可以理解的是，当确定了语音指令所请求执行的交互功能的交互类型，便可以按照语音指令的语义内容，生成与该交互类型对应的操作指令。具体的，可以从该语义内容中，提取与生成该交互类型对应的操作指令相关的内容，从而生成该交互类型对应的操作指令。为了方案清楚及布局清晰，后续对按照语音指令的语义内容，生成与所识别的交互类型对应的操作指令的具体实现方式进行举例说明。

该步骤中，当生成操作指令后，便可以执行该操作指令。

s14：将操作指令的执行结果返回给多媒体客户端，以使多媒体客户端展示该执行结果。

可以理解的是，不同的交互类型，所对应的执行结果不同。为了方案清楚及布局清晰，后续对不同的交互类型，所各自对应的执行结果进行举例说明。

该步骤中，当多媒体客户端接收到服务器所发送的执行结果后，便可以相应的展示执行结果。

本公开实施例提供的交互功能的执行方法中，用户无需在多媒体客户端中寻找所要执行的交互功能的按钮或检索框等，直接在多媒体客户端输入语音指令，多媒体客户端对应的服务器就可以基于该语音指令的语义内容，识别所请求执行的交互功能的交互类型，按照该语音指令的语义内容，生成与所识别的交互类型对应的操作指令，并执行该操作指令；然后，服务器将该操作指令的执行结果反馈给多媒体客户端。因此，本方案可以提升交互功能的执行效率。

为了方案清楚及布局清晰，下面对按照语音指令的语义内容，生成与所识别的交互类型对应的操作指令的具体实现方式进行举例说明。

示例性的，在一种实现方式中，按照语音指令的语义内容，生成与所识别的交互类型对应的操作指令，可以包括：

从语音指令的语义内容中提取操作关键词；

将提取出的操作关键词，填充入所识别的交互类型的指令模板中，生成操作指令。

可以理解的是，指令模板由软件的方法组成，将提取的操作关键词作为软件的方法的输入参数，填入软件的方法中，便可以得到操作指令。

其中，从语音指令的语义内容中提取操作关键词的具体实现方式存在多种。示例性的，在一种实现方式中，从语音指令的语义内容中提取操作关键词的步骤，可以包括：

对语音指令对应的语义内容进行分词处理，得到各个分词；

利用预先训练完成的分词分类模型，对各个分词进行分类，得到每个分词对应的交互类型；

从各个分词中，提取交互类型与所识别的交互类型相同的分词，作为操作关键词；

其中，该分词分类模型为基于样本分词以及样本分词对应的交互类型的标识，所训练获得的模型。

该实现方式中，分词分类模型的训练过程可以与交互分类模型的训练过程相似，即在训练分词分类模型时，可以采用海量的词汇作为样本分词，并且，可以通过标注的方式得到每个样本分词所对应的交互类型的标识。进而，基于样本分词以及样本分词对应的交互类型的标识，训练分词分类模型。并且，基于预先标注的样本分词所对应的交互类型的标识，以及分词分类模型所输出的样本分词所对应的交互类型的标识是否一致的结果，计算分词分类模型的损失值，当该损失值小于预设的第二阈值时，该分词分类模型收敛，完成训练。这里，第二阈值与上述的第一阈值可以相同，也可以不相同，本公开对第一阈值以及第二阈值的数值及二者间的大小关系不做限定。其中，分词分类模型也可以为svm(supportvectormachine)模型、cnn(convolutionalneuralnetwork，卷积神经网络)模型、rnn(recurrentneuralnetwork，循环神经网络)模型、dnn(deepneuralnetworks，深度神经网络)，等等。可以理解的是，当分词分类模型收敛时，对于任一样本分词而言，分词分类模型所输出的样本分词对应的交互类型的标识，可以与预先标注的该样本分词所对应的交互类型的标识相同。

在实际应用中，在对样本分词对应的交互类型的标识进行标注时，可以采用样本分词分属于各种交互类型的概率的方式。该标注方式中，每个样本分词属于其所对应交互类型的标识的概率可设置为1，而该样本分词分属于其他交互类型的标识的概率可以设置为0。这样，当分词分类模型训练完成后，将分词处理得到的各个分词输入至分词分类模型，可以得到每个分词分属于各种交互类型的概率，从而可以将属于步骤s12中识别的交互类型的、且概率大于预设概率阈值的分词作为操作关键词。

在另一种实现方式中，从语音指令的语义内容中提取操作关键词的步骤，可以包括：

对语音指令对应的语义内容进行分词处理，得到各个分词以及每个分词的词性；

针对每个分词，将该分词以及该分词的词性构成文本序列输入至上述训练完成的交互分类模型，得到该分词所对应的交互类型的标识；

将所对应的交互类型的标识，与步骤s12中识别的交互类型的标识相同的分词，作为操作关键词。

可以理解的是，由于交互分类模型采用对应垂直领域或通用领域的自然语料而得，该自然语料中，既可包括句子，也可以包括词语。因此，训练完成的交互分类模型既可以预测句子所对应的交互类型的标识，也可以预测词语所对应的交互类型的标识；即交互分类模型既可以预测语音指令的语义内容所对应的交互类型的标识，也可以预测分词所对应的交互类型的标识。

在一种实现方式中，上述两种从语音指令的语义内容中提取操作关键词的实现方式中，对语音指令对应的语义内容进行分词处理的步骤，可以与步骤s12中，基于语音指令的语义内容，识别所请求执行的交互功能的交互类型时，对语音指令的语义内容进行分词处理的步骤合并，即当基于语音指令的语义内容，识别所请求执行的交互功能的交互类型时，对语音指令的语义内容进行分词处理后，可以直接获取分词处理的结果，利用分词分类模型或交互分类模型，预测语音指令的语义内容中的各个分词所对应的交互类型的标识。

可以理解的是，不同类型的交互类型的操作关键词不同。本公开中，首先确定了语音指令所请求执行的交互功能的交互类型，这样可以进一步有针对性地从语音指令的语义内容中提取与该交互类型相关的操作关键词。

并且，当提取了操作关键词后，便可以将该操作关键词填入所识别的交互类型的指令模板中，从而生成操作指令，并执行该操作指令。

为了方案清楚，下面以具体的交互功能为例，对本公开实施例提供的交互功能的执行方法进行进一步的说明。

示例1，假设语音指令的语义内容为“请帮我播放美食类的视频吧”，基于s12的步骤可以确定该语音指令请求执行“检索功能”；基于s13的步骤，可以提取与“检索功能”的交互类型所相关的操作关键词“美食”，将“美食”填入“检索功能”的交互类型的指令模板中，得到以“美食”为关键字执行检索功能的操作指令；执行该操作指令，得到视频名称包含“美食”和/或视频类别为“美食”的视频搜索结果。

示例2，假设语音指令的语义内容为“我关注的人发的作品”，基于s12的步骤可以确定该语音指令请求执行“推荐功能”，基于s13的步骤，可以提取与“推荐功能”的交互类型所相关的操作关键词“我关注的”，将“我关注的”填入“推荐功能”的交互类型的指令模板中，得到：选择推荐的类目为“我关注的”这一类目进行视频推荐的操作指令；执行该操作指令，得到推荐的类目为“我关注的”这一类目下的视频推荐结果。当然，推荐功能中的推荐的类目还存在多种，例如“热门视频”、“萌宠视频”、“新闻视频”以及“最新视频”等等。

示例3，假设语音指令的语义内容为“你好呀”；基于s12的步骤可以确定该语音指令请求执行“闲聊功能”；基于s13的步骤，可以提取与“闲聊功能”的交互类型所相关的操作关键词“你好呀”，将“你好呀”填入“闲聊功能”的交互类型的指令模板中，得到与“你好呀”对应的反馈语音。这里，反馈语音例如“你好，xxx”等等。其中，xxx具体可以为“尊敬的用户”或者具体的多媒体客户端的用户的名称等等，这都是合理的。

示例4，假设语音指令的语义内容为“给这个视频点赞”；基于s12的步骤可以确定该语音指令请求执行“点评功能”；基于s13的步骤，可以提取与“点评功能”的交互类型所相关的操作关键词“点赞”，将“点赞”填入“点评功能”的交互类型的指令模板中，得到将该视频的点赞数加1，以及点亮该视频的点赞图标的操作指令；执行该操作指令，得到该视频的点赞数加1，以及该视频的点赞图被标点亮的执行结果。

另外，本公开实施例中，从语音指令的语义内容中的所提取的操作关键词可以包含多个；相应的，该语音指令请求执行的交互类型的指令模板中，可以包含多个操作关键词的填入位置。例如，假设语音指令的语义内容为“给张三说再见”；基于s12的步骤可以确定该语音指令请求执行“聊天功能”；相应的，该“聊天功能”的交互类型的指令模板中，包含有两个操作关键词的填入位置，一个为聊天对象，一个为聊天内容。其中，在聊天对象的位置填入“张三”，在聊天内容的位置填入“再见”，便可以得到相应的操作指令，执行该操作指令，所得到的执行结果可以为：调取与张三的会话，并在该会话中添加一条内容为“再见”的新增消息。

需要说明的是，上述所示出的各个交互功能以及每个交互功能所涉及的操作关键词，仅仅作为示例，并不应该构成对本公开的限定。

可选地，在一种实现方式中，为了提升多媒体客户端的用户体验，在将操作指令的执行结果返回给多媒体客户端之后，该应用于服务器的交互功能的执行方法，还可以包括：

将执行结果对应的反馈语音返回给多媒体客户端，以使多媒体客户端播放该反馈语音。

可以理解的是，鉴于用户发出的是语音指令，因此，通过反馈语音向用户反馈该语音指令所请求执行的交互功能的执行结果，可以在用户与多媒体客户端之间建立起语音交互，从而提升多媒体客户端的用户体验。

相应于上述的应用于服务器的交互功能的执行方法，本公开的实施例还提供了一种应用于多媒体客户端的交互功能的执行方法，如图2所示，该方法可以包括：

s21：接收用于请求执行交互功能的语音指令。

这里，语音指令可以是由该多媒体客户端的用户所发出的。例如，多媒体客户端中可以设置一个语音输入按钮，用户可以通过点击该按钮来输入语音指令；或者，多媒体客户端中可以预先设置一个启动语音，当多媒体客户端监测到该启动语音时，可以将该启动语音之后用户所输入的一段语音作为语音指令，当然，也可以将包含有该启动语音的一段语音作为语音指令；或者，多媒体客户端可以在监测到自身所在的设备被按照预定的方式执行摇晃、触摸等操作时，开启接收语音指令，并将所接收的一段语音作为语音指令。

另外，多媒体客户端中的交互功能存在多种，例如检索功能、推荐功能、闲聊功能以及点评功能等等，并不局限于此。

s22：将语音指令发送至服务器，以使服务器基于语音指令的语义内容，识别所请求执行的交互功能的交互类型；按照语音指令的语义内容，生成与所识别的交互类型对应的操作指令；执行该操作指令，并返回该操作指令的执行结果。

该步骤中，关于服务器所执行各步骤的具体实现方式，在本公开的实施例提供的应用于服务器的交互功能的执行方法中已经进行过详细说明，此处不再赘述。

s23：接收并展示执行结果。

可以理解的是，由于不同的交互功能所对应的执行结果不同，故对于不同的交互功能而言，多媒体客户端在展示所接收的执行结果时，展示方式也各有不同。以上述实施例中的示例1-4为例。其中，在上述示例1中，操作关键词为“美食”的检索功能的执行结果可以为：视频名称包含“美食”和/或视频类别为“美食”的视频搜索结果。相应的，多媒体客户端可以将视频名称包含“美食”和/或视频类别为“美食”的视频搜索结果进行展示。在上述示例2中，操作关键词为“我关注的”的“推荐功能”的执行结果可以为：推荐类目为“我关注的”这一类目下的视频推荐结果。相应的，多媒体客户端可以将推荐类目为“我关注的”这一类目下的视频推荐结果进行展示。在上述示例3中，操作关键词为“你好呀”的“闲聊服务”的执行结果可以为与“你好呀”对应的反馈语音。相应的，多媒体客户端可以播放该反馈语音。在上述示例4中，操作关键词为“点赞”的“点评服务”的执行结果可以为视频的点赞数加1，以及视频的点赞图被标点亮等等。相应的，多媒体客户端可以点亮该视频的点赞图标，并将所显示的该视频的点赞数加1。

本公开的实施例提供的应用于多媒体客户端的交互功能的执行方法中，用户无需在多媒体客户端中寻找所要执行交互功能的按钮或检索框等，直接发出语音指令，多媒体客户端便可以将该语音指令发送给服务器，并接收服务器反馈的该语音指令所请求执行的交互功能的执行结果。因此，本方案可以提升交互功能的执行效率。

可选地，在一种实现方式中，为了提升多媒体客户端的用户体验，在展示执行结果之后，该应用于多媒体客户端的交互功能的执行方法，还可以包括：

接收服务器发送的执行结果对应的反馈语音；

播放该反馈语音。

可以理解的是，鉴于用户发出的是语音指令因此，通过反馈语音向用户反馈该语音指令所请求执行的交互功能的执行结果，可以在用户与多媒体客户端之间建立起语音交互，从而提升多媒体客户端的用户体验。

相应于上述的应用于服务器的交互功能的执行方法，本公开的实施例还提供了一种应用于服务器的交互功能的执行装置，如图3所示，该装置可以包括：接收模块301、识别模块302、执行模块303以第一反馈模块304。

其中，该接收模块301，被配置为接收通过多媒体客户端输入的、用于请求执行交互功能的语音指令；

该识别模块302，被配置为基于该语音指令的语义内容，识别出所请求执行的交互功能的交互类型；

该执行模块303，被配置为按照该语音指令的语义内容，生成与所识别的交互类型对应的操作指令，并执行该操作指令；

该第一反馈模块304，被配置为将该操作指令的执行结果返回给多媒体客户端，以使多媒体客户端展示该执行结果。

可选地，该识别模块302，包括：转换子模块和识别子模块；

该转换子模块，被配置为将语音指令的语义内容转换为文本序列，该文本序列为语义内容中的各个词语以及每个词语的词性信息所组成的序列；

该识别子模块，被配置为将文本序列输入至预先训练完成的交互分类模型，得到文本序列对应的交互类型的标识；将所得到的标识对应的交互类型，作为所请求执行的交互功能的交互类型；其中，该交互分类模型为基于多个样本文本序列以及对每个样本文本序列标注的交互类型的标识，所训练获得的模型。

可选地，该转换子模块，具体被配置为：

对语音指令的语义内容进行分词处理，得到各个分词以及每个分词的词性；

以每个分词以及该分词的词性为序列元素，构建文本序列，作为语音指令的语义内容转换成的文本序列。

可选地，该执行模块303，包括提取子模块和填充子模块；

该提取子模块，被配置为从语音指令的语义内容中提取操作关键词；

该填充子模块，被配置为将提取出的操作关键词，填充入所识别的交互类型的指令模板中，生成操作指令。

可选地，该提取子模块，具体用于：

对该语音指令对应的语义内容进行分词处理，得到各个分词；

利用预先训练完成的分词分类模型，对各个分词进行分类，得到每个分词对应的交互类型；

从各个分词中，提取交互类型与所识别的交互类型相同的分词，作为操作关键词；

其中，该分词分类模型为基于样本分词以及样本分词对应的交互类型的标识，所训练获得的模型。

可选地，该装置还可以包括：第二反馈模块；

该第二反馈模块，被配置为将执行结果对应的反馈语音返回给多媒体客户端，以使多媒体客户端播放该反馈语音。

本公开的实施例提供的应用于服务器的交互功能的执行装置，用户无需在多媒体客户端中寻找所要执行交互功能的按钮或检索框等，直接在多媒体客户端输入语音指令，多媒体客户端对应的服务器就可以基于该语音指令的语义内容，识别所请求执行的交互功能的交互类型，按照该语音指令的语义内容，生成与所识别的交互类型对应的操作指令，并执行该操作指令；然后，服务器将该操作指令的执行结果反馈给多媒体客户端。因此，本方案可以提升交互功能的执行效率。

相应于上述的应用于多媒体客户端的交互功能的执行方法，本公开的实施例还提供了一种应用于多媒体客户端的交互功能的执行装置，如图4所示，该装置可以包括：第一接收模块401、发送模块402以及展示模块403。

其中，该第一接收模块401，被配置为接收用于请求执行交互功能的语音指令；

该发送模块402，被配置为将该语音指令发送至服务器，以使服务器基于该语音指令的语义内容，识别所请求执行的交互功能的交互类型；按照该语音指令的语义内容，生成与所识别的交互类型对应的操作指令；执行该操作指令，并返回该操作指令的执行结果；

该展示模块403，被配置为接收并展示执行结果。

可选地，该装置还可以包括：第二接收模块和播放模块；

该第二接收模块，被配置为接收服务器发送的执行结果对应的反馈语音；

该播放模块，被配置为播放反馈语音。

本公开的实施例提供的应用于多媒体客户端的交互功能的执行装置，用户无需在多媒体客户端中寻找所要执行交互功能的按钮或检索框等，直接发出语音指令，多媒体客户端便可以将该语音指令发送给服务器，并接收服务器反馈的该语音指令所请求执行的交互功能的执行结果。因此，本方案可以提升交互功能的执行效率。

关于上述实施例中的装置，其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述，此处将不做详细阐述说明。

图5是根据一示例性实施例示出的一种服务器的框图，如图5所示，该服务器包括：

处理器510；

用于存储所述处理器510可执行指令的存储器520；

其中，所述处理器510被配置为执行所述指令，以实现上述任一所述的应用于服务器的交互功能的执行方法。

图6是根据一示例性实施例示出的一种多媒体客户端设备的框图，如图6示，该多媒体客户端设备包括：

处理器610；

用于存储所述处理器610可执行指令的存储器620；

其中，所述处理器610被配置为执行所述指令，以实现上述任一所述的应用于多媒体客户端的交互功能的执行方法。

可以理解的是，该多媒体客户端设备为上述的多媒体客户端所在的电子设备。

图7是根据一示例性实施例示出的一种用于执行交互功能的装置700的框图。例如，装置700可以是移动电话，计算机，数字广播终端，消息收发设备，游戏控制台，平板设备，医疗设备，健身设备，个人数字助理等。

参照图7，装置700可以包括以下一个或多个组件：处理组件702，存储器704，电源组件706，多媒体组件708，音频组件710，输入/输出(i/o)接口712，传感器组件714，以及通信组件716。

处理组件702通常控制装置700的整体操作，诸如与显示，电话呼叫，数据通信，相机操作和记录操作相关联的操作。处理组件702可以包括一个或多个处理器720来执行指令，以完成上述的方法的全部或部分步骤。此外，处理组件702可以包括一个或多个模块，便于处理组件702和其他组件之间的交互。例如，处理组件702可以包括多媒体模块，以方便多媒体组件708和处理组件702之间的交互。

存储器704被配置为存储各种类型的数据以支持在装置700的操作。这些数据的示例包括用于在装置700上操作的任何应用程序或方法的指令，联系人数据，电话簿数据，消息，图片，视频等。存储器704可以由任何类型的易失性或非易失性存储设备或者它们的组合实现，如静态随机存取存储器(sram)，电可擦除可编程只读存储器(eeprom)，可擦除可编程只读存储器(eprom)，可编程只读存储器(prom)，只读存储器(rom)，磁存储器，快闪存储器，磁盘或光盘。

电源组件706为装置700的各种组件提供电力。电源组件706可以包括电源管理系统，一个或多个电源，及其他与为装置700生成、管理和分配电力相关联的组件。

多媒体组件708包括在所述装置700和用户之间的提供一个输出接口的屏幕。在一些实施例中，屏幕可以包括液晶显示器(lcd)和触摸面板(tp)。如果屏幕包括触摸面板，屏幕可以被实现为触摸屏，以接收来自用户的输入信号。触摸面板包括一个或多个触摸传感器以感测触摸、滑动和触摸面板上的手势。所述触摸传感器可以不仅感测触摸或滑动动作的边界，而且还检测与所述触摸或滑动操作相关的持续时间和压力。在一些实施例中，多媒体组件708包括一个前置摄像头和/或后置摄像头。当设备700处于操作模式，如拍摄模式或视频模式时，前置摄像头和/或后置摄像头可以接收外部的多媒体数据。每个前置摄像头和后置摄像头可以是一个固定的光学透镜系统或具有焦距和光学变焦能力。

音频组件710被配置为输出和/或输入音频信号。例如，音频组件710包括一个麦克风(mic)，当装置700处于操作模式，如呼叫模式、记录模式和语音识别模式时，麦克风被配置为接收外部音频信号。所接收的音频信号可以被进一步存储在存储器704或经由通信组件716发送。在一些实施例中，音频组件710还包括一个扬声器，用于输出音频信号。

i/o接口712为处理组件702和外围接口模块之间提供接口，上述外围接口模块可以是键盘，点击轮，按钮等。这些按钮可包括但不限于：主页按钮、音量按钮、启动按钮和锁定按钮。

传感器组件714包括一个或多个传感器，用于为装置700提供各个方面的状态评估。例如，传感器组件714可以检测到设备700的打开/关闭状态，组件的相对定位，例如所述组件为装置700的显示器和小键盘，传感器组件714还可以检测装置700或装置700一个组件的位置改变，用户与装置700接触的存在或不存在，装置700方位或加速/减速和装置700的温度变化。传感器组件714可以包括接近传感器，被配置用来在没有任何的物理接触时检测附近物体的存在。传感器组件714还可以包括光传感器，如cmos或ccd图像传感器，用于在成像应用中使用。在一些实施例中，该传感器组件714还可以包括加速度传感器，陀螺仪传感器，磁传感器，压力传感器或温度传感器。

通信组件716被配置为便于装置700和其他设备之间有线或无线方式的通信。装置700可以接入基于通信标准的无线网络，如wifi，运营商网络(如2g、3g、4g或5g)，或它们的组合。在一个示例性实施例中，通信组件716经由广播信道接收来自外部广播管理系统的广播信号或广播相关信息。在一个示例性实施例中，所述通信组件716还包括近场通信(nfc)模块，以促进短程通信。例如，在nfc模块可基于射频识别(rfid)技术，红外数据协会(irda)技术，超宽带(uwb)技术，蓝牙(bt)技术和其他技术来实现。

在示例性实施例中，装置700可以被一个或多个应用专用集成电路(asic)、数字信号处理器(dsp)、数字信号处理设备(dspd)、可编程逻辑器件(pld)、现场可编程门阵列(fpga)、控制器、微控制器、微处理器或其他电子元件实现，用于执行上述方法。

在示例性实施例中，还提供了一种包括指令的存储介质，例如包括指令的存储器704，上述指令可由装置700的处理器720执行以完成上述交互功能的执行方法。可选地，存储介质可以是非临时性计算机可读存储介质，例如，所述非临时性计算机可读存储介质可以是rom、随机存取存储器(ram)、cd-rom、磁带、软盘和光数据存储设备等。

图8是根据一示例性实施例示出的一种用于执行交互功能的装置800的框图。例如，装置800可以被提供为一服务器。参照图8，装置800包括处理组件822，其进一步包括一个或多个处理器，以及由存储器832所代表的存储器资源，用于存储可由处理组件822的执行的指令，例如应用程序。存储器832中存储的应用程序可以包括一个或一个以上的每一个对应于一组指令的模块。此外，处理组件822被配置为执行指令，以执行上述交互功能的执行方法。

装置800还可以包括一个电源组件826被配置为执行装置800的电源管理，一个有线或无线网络接口850被配置为将装置800连接到网络，和一个输入输出(i/o)接口858。装置800可以操作基于存储在存储器832的操作系统，例如windowsservertm，macosxtm，unixtm,linuxtm，freebsdtm或类似的操作系统。

在示例性实施例中，还提供了一种存储介质，所述存储介质内存储有计算机程序，当所述计算机程序被处理器执行时，实现上述任一所述的应用于服务器的交互功能的执行方法。

在示例性实施例中，还提供了一种存储介质，所述存储介质内存储有计算机程序，当所述计算机程序被处理器执行时，实现上述任一所述的应用于多媒体客户端的交互功能的执行方法。

可选地，上述的存储介质可以是非临时性计算机可读存储介质，示例性的，所述非临时性计算机可读存储介质可以是rom、随机存取存储器(ram)、cd-rom、磁带、软盘和光数据存储设备等。

在示例性实施例中，还提供了一种计算机程序产品，当其在计算机上运行时，使得计算机执行上述任一所述的应用于服务器的交互功能的执行方法。

在示例性实施例中，还提供了一种计算机程序产品，当其在计算机上运行时，使得计算机执行上述任一所述的应用于多媒体客户端的交互功能的执行方法。

本领域技术人员在考虑说明书及实践这里公开的发明后，将容易想到本公开的其它实施方案。本申请旨在涵盖本公开的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本公开的真正范围和精神由权利要求书指出。

应当理解的是，本公开并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由权利要求书来限制。

技术特征：

1.一种交互功能的执行方法，其特征在于，应用于服务器，所述方法包括：

接收通过多媒体客户端输入的、用于请求执行交互功能的语音指令；

基于所述语音指令的语义内容，识别所请求执行的交互功能的交互类型；

按照所述语音指令的语义内容，生成与所识别的交互类型对应的操作指令，并执行所述操作指令；

将所述操作指令的执行结果返回给所述多媒体客户端，以使所述多媒体客户端展示所述执行结果。

2.根据权利要求1所述的方法，其特征在于，所述基于所述语音指令的语义内容，识别所请求执行的交互功能的交互类型，包括：

将所述语音指令的语义内容转换为文本序列，所述文本序列为所述语义内容中的各个词语以及每个词语的词性信息所组成的序列；

将所述文本序列输入至预先训练完成的交互分类模型，得到所述文本序列对应的交互类型的标识；

将所得到的标识对应的交互类型，作为所请求执行的交互功能的交互类型；

其中，所述交互分类模型为基于多个样本文本序列以及对每个所述样本文本序列标注的交互类型的标识，所训练获得的模型。

3.根据权利要求1所述的方法，其特征在于，在将所述操作指令的执行结果返回给所述多媒体客户端之后，所述方法还包括：

将所述执行结果对应的反馈语音返回给所述多媒体客户端，以使所述多媒体客户端播放所述反馈语音。

4.一种交互功能的执行方法，其特征在于，应用于多媒体客户端，所述方法包括：

接收用于请求执行交互功能的语音指令；

接收并展示所述执行结果。

5.一种交互功能的执行装置，其特征在于，应用于服务器，所述装置包括：

接收模块，被配置为接收通过多媒体客户端输入的、用于请求执行交互功能的语音指令；

识别模块，被配置为基于所述语音指令的语义内容，识别出所请求执行的交互功能的交互类型；

执行模块，被配置为按照所述语音指令的语义内容，生成与所识别的交互类型对应的操作指令，并执行所述操作指令；

第一反馈模块，被配置为将所述操作指令的执行结果返回给所述多媒体客户端，以使所述多媒体客户端展示所述执行结果。

6.一种交互功能的执行装置，其特征在于，应用于多媒体客户端，所述装置包括：

第一接收模块，被配置为接收用于请求执行交互功能的语音指令；

展示模块，被配置为接收并展示所述执行结果。

7.一种服务器，其特征在于，包括：

处理器；

用于存储所述处理器可执行指令的存储器；

其中，所述处理器被配置为执行所述指令，以实现权利要求1-3任一所述的方法步骤。

8.一种多媒体客户端设备，其特征在于，包括：

处理器；

用于存储所述处理器可执行指令的存储器；

其中，所述处理器被配置为执行所述指令，以实现权利要求4所述的方法步骤。

9.一种存储介质，其特征在于，所述存储介质内存储有计算机程序，当所述计算机程序被处理器执行时，实现权利要求1-3任一所述的方法步骤。

10.一种存储介质，其特征在于，所述存储介质内存储有计算机程序，当所述计算机程序被处理器执行时，实现权利要求4所述的方法步骤。

技术总结

本公开关于一种交互功能的执行方法、装置、电子设备及存储介质。该方法中，接收通过多媒体客户端输入的、用于请求执行交互功能的语音指令；基于语音指令的语义内容，识别所请求执行的交互功能的交互类型；按照语音指令的语义内容，生成与所识别的交互类型对应的操作指令，并执行操作指令；将操作指令的执行结果返回给多媒体客户端，以使多媒体客户端展示所述执行结果。本公开可以提升交互功能的执行效率。

技术研发人员：赵丽娜;赵倩;白琛

受保护的技术使用者：北京达佳互联信息技术有限公司

技术研发日：.10.09

技术公布日：.01.24

本内容不代表本网观点和政治立场，如有侵犯你的权益请联系我们处理。

网友评论

网友评论仅供其表达个人看法，并不表明网站立场。