第一句子网 > 语音交互方法装置设备以及存储介质与流程

语音交互方法装置设备以及存储介质与流程

时间：2022-04-07 10:38:18

相关推荐

语音交互方法装置设备以及存储介质与流程

本公开涉及语音交互领域，特别是涉及一种语音交互方法、装置、设备以及存储介质。

背景技术：

现有的语音交互方案大多是利用语义识别技术为用户提供与识别的语音内容一致的服务，这种方式虽然能够较好地满足用户的需求，但是需要通过精准的语义识别，才能实现语义交互，实现起来较为繁琐。

并且，在语音交互的实际应用中，除了信息推荐场景外，还存在很多与语义识别无关的场景，如用户注册场景中默认注册信息的选取，界面展示场景中为用户提供的主题、背景等界面展示信息，系统服务场景中为用户提供的用于与用户进行交互的系统形象、系统服务语音等等。

针对这类场景，如何为用户提供良好的交互服务，以提升用户的交互体验，是目前急需解决的问题。

技术实现要素：

本公开的一个目的在于提供一种能够提升用户的交互体验的语音交互方案。

根据本公开的第一个方面，提供了一种语音交互方法，用于实现用户与设备之间的交互，包括：对用户的语音输入进行特征解析，以得到能够表征语音输入的语音特征的解析结果；基于解析结果，确定用户的用户特征；以及基于用户特征，并结合用户语音输入的时机和/或设备当前的状态和/或对用户的语音输入进行解析得到的文本信息，为用户提供服务。

可选地，解析结果包括以下一项或多项：音量；音调；音色。

可选地，用户特征包括以下一项或多项：性别；年龄；年龄段；情绪状态。

可选地，服务包括：信息推荐服务；和/或功能选择服务；和/或功能设置服务。

可选地，为用户提供服务的步骤可以包括：为用户提供与语音输入相关联的服务。

可选地，为用户提供服务的步骤可以包括：为用户提供与用户特征相匹配的注册信息。

可选地，注册信息包括以下一项或多项：头像；名称；主题；背景颜色；系统服务语音；系统服务形象。

可选地，语音交互方法还包括：响应于用户的操作指令，修改注册信息；以及/或者响应于用户再次的语音输入，对再次的语音输入进行解析，以得到新的解析结果，基于新的解析结果确定用户新的用户特征，并为用户提供与新的用户特征相匹配的注册信息。

可选地，语音交互方法还包括：为多个用户分别构建注册信息，并关联地保存每个用户的历史操作信息和注册信息；识别当前语音输入是否对应于先前注册的用户；在当前语音输入对应于先前注册的用户的情况下，基于先前注册的用户的历史操作信息进行推荐。

可选地，基于特征为用户提供服务的步骤包括：基于所述用户特征，并结合所述文本信息，确定适于向所述用户展示的推荐信息；以及向所述用户展示包括所述推荐信息的界面。

可选地，界面还包括与推荐信息关联显示的提示信息，提示信息用于表征推荐信息。

可选地，为用户提供服务的步骤包括：使用与用户特征相匹配的界面展示模式为用户提供服务。

可选地，界面展示模式包括以下一项或多项：主题类型；背景颜色；字体大小；字体类型；字体颜色。

可选地，为用户提供服务的步骤包括：为用户提供与用户特征相匹配的系统服务。

可选地，为用户提供与用户特征相匹配的系统服务的步骤包括：为用户提供与用户特征相匹配的系统服务形象和/或系统服务语音。

根据本公开的第二个方面，还提供了一种智能电视语音交互方法，包括：使用本公开第一个方面述及的语音交互方法为用户提供与用户特征相匹配的电视界面和/或系统服务。

可选地，电视界面的界面展示模式与用户特征相匹配，并且/或者电视界面的界面展示内容与用户特征相匹配。

根据本公开的第三个方面，还提供了一种语音交互装置，用于实现用户与设备之间的交互，包括：第一解析模块，用于对用户的语音输入进行解析，以得到能够表征语音输入的语音特征的解析结果；用户特征确定模块，用于基于解析结果，确定用户的用户特征；以及服务模块，用于基于用户特征，并结合用户语音输入的时机和/或设备当前的状态和/或对用户的语音输入进行解析得到的文本信息，为用户提供服务。

可选地，解析结果包括以下一项或多项：音量；音调；音色。

可选地，用户特征包括以下一项或多项：性别；年龄；年龄段；情绪状态。

可选地，服务包括：信息推荐服务；和/或功能选择服务；和/或功能设置服务。

可选地，服务模块为用户提供与语音输入相关联的服务。

可选地，服务模块为用户提供与用户特征相匹配的注册信息。

可选地，注册信息包括以下一项或多项：头像；名称；主题；背景颜色；系统服务语音；系统服务形象。

可选地，语音交互装置还包括：修改模块，用于响应于用户的操作指令，修改注册信息，并且/或者，响应于用户再次的语音输入，第一解析模块对再次的语音输入进行解析，以得到新的解析结果，用户特征确定模块基于新的解析结果确定用户新的用户特征，服务模块为用户提供与新的用户特征相匹配的注册信息。

可选地，服务模块为多个用户分别构建注册信息，并关联地保存每个用户的历史操作信息和注册信息，该装置还包括：识别模块，用于识别当前语音输入是否对应于先前注册的用户；推荐模块，用于在当前语音输入对应于先前注册的用户的情况下，基于先前注册的用户的历史操作信息进行推荐。

可选地，服务模块包括：推荐信息确定模块，用于基于所述用户特征，并结合所述文本信息，确定适于向所述用户展示的推荐信息；以及展示模块，用于向所述用户展示包括所述推荐信息的界面。

可选地，界面还包括与推荐信息关联显示的提示信息，提示信息用于表征推荐信息。

可选地，服务模块使用与用户特征相匹配的界面展示模式为用户提供服务。

可选地，界面展示模式包括以下一项或多项：主题类型；背景颜色；字体大小；字体类型；字体颜色。

可选地，服务模块为用户提供与用户特征相匹配的系统服务。

可选地，服务模块为用户提供与用户特征相匹配的系统服务形象和/或系统服务语音。

根据本公开的第四个方面，还提供了一种智能电视语音交互装置，包括：语音交互装置，用于使用本公开第一个方面述及的语音交互方法为用户提供与用户的特征相匹配的电视界面和/或系统服务。

可选地，所述电视界面的界面展示模式与所述用户特征相匹配，并且/或者所述电视界面的界面展示内容与所述用户特征相匹配。

根据本公开的第五个方面，还提供了一种计算设备，包括：处理器；以及存储器，其上存储有可执行代码，当可执行代码被处理器执行时，使处理器执行如本公开第一个方面或第二个方面述及的方法。

根据本公开的第六个方面，还提供了一种非暂时性机器可读存储介质，其上存储有可执行代码，当可执行代码被电子设备的处理器执行时，使处理器执行如本公开第一个方面或第二个方面述及的方法。

由此，本公开是基于对语音输入中的语音特征进行解析得到的解析结果所确定的用户特征，为用户提供服务，实现过程较为简单，可以应用于账户注册、系统服务类型的选取、界面展示、语音搜索、声纹支付、语音登录、语音登录之后的首页个性化推荐等诸多服务场景，以提升用户体验。

附图说明

通过结合附图对本公开示例性实施方式进行更详细的描述，本公开的上述以及其它目的、特征和优势将变得更加明显，其中，在本公开示例性实施方式中，相同的参考标号通常代表相同部件。

图1示出了根据本公开一实施例的语音交互方法的示意性流程图。

图2示出了根据本公开一实施例的为用户提供的注册界面的示意图。

图3示出了根据本公开一实施例的为用户提供的展示界面的示意图。

图4A示出了根据本公开一实施例的历史观看界面的示意图。

图4B示出了根据本公开一实施例的关注界面的示意图。

图5A、图5B示出了根据本公开一实施例的为不同用户提供的展示界面的示意图。

图6示出了根据本公开一实施例的为不同用户提供的推荐信息的示意图。

图7示出了根据本公开一实施例的语音交互装置的结构的示意性方框图。

图8示出了根据本公开一实施例的计算设备的结构的示意性方框图。

具体实施方式

下面将参照附图更详细地描述本公开的优选实施方式。虽然附图中显示了本公开的优选实施方式，然而应该理解，可以以各种形式实现本公开而不应被这里阐述的实施方式所限制。相反，提供这些实施方式是为了使本公开更加透彻和完整，并且能够将本公开的范围完整地传达给本领域的技术人员。

本公开发明人注意到，用户发出的语音中蕴含的声音特征(也即语音特征)可以在一定程度上表征用户。例如，女性声音一般细而尖，男性声音一般低沉，并且不同年龄段的人的声音特征也不尽相同。因此可以通过对用户发出的语音进行分析，确定用户的性别、年龄、年龄段等客观属性。另外，用户发出的语音也可以反映用户当前的情绪状态等主观属性，如用户充满活力、心态积极向上时发出的声音一般清脆有力，用户疲惫、悲观时发出的声音一般低沉沙哑。

而现有的语音交互方案大多是利用语义识别技术为用户提供与识别的语音内容一致的服务，在方案实现过程中，并没有考虑到用户发出的语音中本身所蕴含的声音特征。

有鉴于此，本公开提出，在为用户提供服务时，可以从声音特征的角度对用户发出的语音进行解析，以得到音量、音调、音色(音品，也即声纹)等语音特征。基于解析得到的语音特征，可以确定用户的用户特征，如可以是年龄、性别、年龄段(如幼童、青年、老年)、情绪状态(如声音高昂则情绪积极，声音低沉则情绪消极)等用户特征。根据解析结果或者基于解析结果进一步确定的用户特征，可以为用户提供与解析结果或确定的用户的特征相匹配的服务，以提升用户的交互体验。

需要说明的是，在基于解析结果解析或确定的用户的特征为用户提供服务时，可以结合对用户的语音输入进行解析得到的文本信息，为用户提供服务，可以是视频、资讯等信息推荐服务，例如可以是语音搜索场景下的信息推荐服务、语音登录之后的首页个性化推荐服务等等。

另外，也可以不根据语音输入的文本信息，而结合用户语音输入的时机和/或设备当前的状态，为用户提供与语音输入的时机和/或设备当前的状态相一致的服务。例如，在设备当前的状态处于账户注册场景下时，可以为用户提供与解析结果或用户特征相匹配的注册信息，在界面展示状态下，用户发出语音输入时，还可以根据用户特征，对当前展示界面的界面展示模式(如主题、背景颜色、字体等)进行更改，也可以对系统服务形象和/或系统服务语音等系统功能进行更改。另外，还可以为用户提供其它多种场景服务，以提升用户体验，此处不再赘述。

例如，在注册场景中，用户可以说出“你好电视”、“我很高兴”、“不错”、“喵喵喵”等多种语义的语音，此处对于用户说出的语音内容不做限定。响应于用户的语音输入，可以从声音特征的角度对语音输入进行解析，得到音量、音调、音色等语音特征。根据所确定的语音特征，可以进一步确定用户特征，如可以确定用户的年龄、性别、年龄段(如幼童、青年、老年)、情绪状态(如声音高昂则情绪积极，声音低沉则情绪消极)等用户特征。根据所确定的用户特征，可以为用户提供相匹配的注册信息(可以作为默认注册信息)，如在确定用户为男性且声音高昂的的情况下，可以为用户提供成年男性头像、男性名称(如Kevin/Dick)、积极欢快的主题等信息作为默认注册信息。

再例如，在系统服务场景中，在解析结果或根据解析结果确定的用户特征表明用户为男性时，为用户提供语音交互服务的系统服务形象和系统服务语音均可以设置为女性，以吸引用户。

还例如，在界面展示场景中，还可以根据解析结果或根据解析结果确定的用户特征，实时更改当前展示界面的主题、背景颜色、字体类型、字体大小、字体颜色等界面展示模式，以使得界面的当前展示模式与解析结果或根据解析结果确定的用户的特征相匹配，提升用户体验。

另外，本公开还可以应用于其它多种服务场景，如语音搜索、语音登录、语音登录之后的首页个性化推荐、声纹支付等等，此处不再赘述。下面对本公开的语音交互方案的具体实现过程作进一步描述。

图1示出了根据本公开一实施例的语音交互方法的示意性流程图。

参见图1，在步骤S110，对用户的语音输入进行解析，以得到能够表征语音输入的语音特征的解析结果。

此处主要是对语音输入中的音量、音调、音色等语音特征进行解析。其中，音量也即响度，声波振动幅度越大则响度也越大。音调主要与声波的频率有关，声波的频率高，则音调也高。音色也即音品、声纹，因人而异，可以通过声纹识别技术确定。解析过程主要是对采集用户的语音输入，将声信号转换成电信号，利用计算机技术对语音数据进行声频分析，以得到音量、音调、音色等语音特征。其中，语音分析技术已经较为成熟，此处不再赘述。

在步骤S120,基于解析结果，确定用户的用户特征。

作为本公开的一个示例，基于解析结果，可以首先确定与用户相关的特征，如可以是性别、年龄、年龄段等客观特征，也可以是用户的情绪状态等主观特征。

在步骤S130，基于用户特征为用户提供服务。

在根据确定的用户特征为用户提供服务时，还可以结合用户语音输入的时机和/或设备当前的状态和/或对用户的语音输入进行解析得到的文本信息，以为用户提供与当前场景或用户的意图相匹配的服务。

具体地说，用户语音输入的时机、设备当前的状态可以在一定程度上表征当前服务场景或者是当前潜在的服务需求。例如，在设备首次被使用或者设备的当前展示界面为注册界面时，需要为用户提供注册服务；在设备首次启动时，响应于用户发出的语音输入，需要为用户选取系统服务语音和/或系统服务形象；在用户观看设备所展示的界面的过程中，响应于用户的语音输入，还可以实时更改当前界面的主题、背景颜色、字体等界面展示模式，以为用户提供良好的交互体验；在响应于用户的语音输入为用户提供默认注册界面后，响应于用户短时间内再次发出的语音输入，可以认为用户对默认注册界面不满意，需要以为用户提供新的注册界面。因此，在基于用户特征为用户提供服务时，可以结合用户语音输入的时机和/或设备当前的状态，以为用户提供当前场景或当前潜在需求一致的服务。

另外，对语音输入进行解析得到的文本信息可以表征语音输入的语义内容，因此，还可以结合对语音输入进行解析得到的文本信息，来为用户提供与语音输入的语义内容一致的服务。例如，在为用户提供信息推荐服务时，不仅可以根据确定的用户特征，为用户提供与用户特征相匹配的推荐信息，还可以根据对语音输入进行解析得到的文本信息(例如“播放电影”)，确定用户的服务需求(观看电影)，以为用户推荐与用户的服务需求一致的推荐信息(与用户特征匹配的电影)。

需要说明的是，在基于用户特征为用户提供服务时，可以可选地基于语音输入的时机、设备状态以及对语音输入进行解析得到的文本信息这三者中的任一项或多项。可选地，可以基于用户特征并结合文本信息，为用户提供信息推荐服务，可以基于用户特征并结合语音输入的时机和/或设备状态为用户提供界面注册、界面展示模式更改、系统服务设置等功能服务。

在本公开中，为用户提供的服务可以分为信息推荐服务、功能选择服务、功能设置服务等。其中，信息推荐服务可以是智能电视语音桌面中内容的推荐，也可以是语音搜索、语音登录、语音登录之后的首页个性化推荐等多种场景下的信息推荐服务。功能选择服务、功能设置服务可以是界面注册、界面主题设置、系统服务类型的选取等多种功能场景下的选取或设置服务。在为用户提供服务时，还可以对用户的意图进行判断，以为用户提供与语音输入相关联的服务。即，可以为用户提供与语音输入的意图相关联的服务。其中，可以根据用户的语音输入的语义内容，识别用户的意图，也可以根据语音交互服务的功能开启状态、当前展示的界面类型识别用户的意图。例如，在用户说出“你好电视”、“打开电视”等语音输入时，可以识别用户此时希望打开并观看电视，因此可以为用户提供电视首页界面。再例如，在当前展示界面为注册界面，并且语音操作功能开启状态下时，可以为用户提供注册服务。另外，还可以根据用户的位置、接收到的语音信号的强度等特征，确定用户的意图。例如，在接收到的用户的语音输入的声音较小的情况下，可以认为此时的语音输入不是用户发出的语音操作指令。

需要说明的是，对语音输入的意图进行识别仅是本公开的一个可选步骤，而非实现本公开的必要条件。实际上，本公开的方案可以应用于多种无关用户意图的场景。例如，对于界面展示场景、系统服务场景，可以响应于用户实时的语音输入(可以是用户实际发出的语音操作指令，也可以是用户发出的非语音操作指令，如可以是用户观看视频时做出的感叹或评价)的解析结果，对当前展示界面中的主题、背景、字体等界面展示模式进行更改，并且还可以对系统服务语音、系统服务形象进行更改。

如上文所述，为用户提供的服务可以是信息推荐服务，也可以是注册场景、系统服务场景、界面展示场景等多种场景下的服务。下面就本公开的语音交互方案在多种服务场景下的应用做示例性说明。应该知道，本公开还可以应用于其它多种场景，如可以应用于语音搜索、语音登录、语音登录之后的首页个性化推荐、声纹支付等等。

【注册场景】

在应用于注册场景时，可以根据解析结果或基于解析结果进一步确定的用户的特征，为用户提供与解析结果或用户特征相匹配的注册信息。其中，可以包括头像、名称、主题、背景颜色、系统服务语音、系统服务形象等多种类别的注册信息。

注册信息可以预先建立并存储。例如，可以预先存储成年男性、成年女性、儿童、动漫、卡通等多种类型的头像信息；也可以存储Kidley、Lily、Lucy等多种女性名称以及Kevin、Dick、Snake等多种男性名称；也可以存储多种不同的主题、背景颜色。

另外，注册场景还可以支持男声、女声、儿童声等多种类型的系统服务语音，并且还可以支持多种系统服务形象，如男性系统服务形象、女性系统服务形象等。

根据解析结果或基于解析结果进一步确定的用户特征，可以从预先存储的注册信息中选取符合解析结果或用户特征的注册信息，并展示给用户。

图2示出了本公开一实施例的为用户提供的注册界面示意图。

如图2所示，注册界面中可以为用户提供头像、称呼、主题等注册信息。其中，注册界面中提供的注册信息可以视为系统根据用户的语音特征预先确定的默认注册信息，用户该可以根据自身喜好对该默认注册信息进行修改。例如，用户可以通过输入操作指令，修改注册信息。如图2所示，用户也可以通过“重置声纹”选项，通过重新输入语音数据，由系统对再次的语音输入进行解析，以得到新的解析结果，并为用户提供与新的解析结果相匹配的注册信息。另外，如图2所示，用户还可以通过“删除声纹”选项，对建立的注册信息进行管理。其中，每个声纹对应的注册信息可以视为一个账户，通过对不同的声纹进行管理，可以维护多个账户。

作为本公开的一个示例，可以为多个用户分别构建注册信息，并关联地保存每个用户的历史操作信息和注册信息。由此，在为用户提供语音交互服务时，可以识别当前语音输入是否对应于先前注册的用户。在判定当前语音输入没有对应的先前注册的用户的情况下，可以为用户提供注册服务，为用户提供注册服务的过程可以参见上文描述，此处不再赘述。在判定当前语音输入对应于先前注册的用户的情况下，可以基于先前注册的用户的历史操作信息进行推荐。

如图3所示，在识别用户为已注册用户的情况下，为用户展示的界面中可以包括注册时的头像、称呼、主题、历史浏览以及其它的推荐视频。

如图4A所示，在历史观看界面，可以显示一个或多个已注册用户的历史信息，并且当前识别的用户的历史记录可以和多个已注册用户的历史记录区分显示，以便于用户操作。

如图4B所示，在关注界面，可以显示一个或多个已注册用户的关注信息，并且当前识别的用户的关注信息可以和多个已注册用户的关注信息区分显示，以便于用户操作。

【系统服务场景】

此处述及的系统服务场景是指人机语音交互场景，即由机器与用户进行语音交互的场景，可以是在语音交互功能开启状态下的任何场景。

本公开可以支持男声、女声、儿童声等多种类型的机器服务语音，并且可以支持男性、女性等系统服务形象。

在系统服务场景中，可以根据解析结果或基于解析结果进一步确定的用户特征，为用户提供与解析结果或用户特征相匹配的服务。如可以实时切换机器服务语音、系统服务形象。

【界面展示场景】

界面展示场景可以是注册界面、收藏界面、历史观看记录界面、视频首页等多种类型的界面。

在界面展示场景中，可以根据解析结果或者基于解析结果进一步确定的用户特征，为用户提供与解析结果或者用户特征相匹配的界面展示模式。其中，界面展示模式可以包括主题类型、背景颜色、字体大小、字体类型、字体颜色等。例如，在识别语音输入为童音的情况下，为用户展示的界面中的主题可以设置为卡通主题。再例如，在识别语音输入为成年男性，且声音较为疲惫的情况下，可以为用户提供风格休闲、简洁的背景。

如图5A所示，在解析结果或者基于解析结果进一步确定的用户的特征表明用户是女性的情况下，可以为用户提供女性主题，如可以提供粉红色主题，并且显示的头像可以设置为女性。如图5B所示，在解析结果或者基于解析结果进一步确定的用户的特征表明用户是儿童的情况下，可以为用户提供儿童主题，如可以提供卡通类主题，并且显示的头像可以设置为儿童。

【信息推荐场景】

在信息推荐场景下，可以仅根据能够表征语音输入的语音特征的解析结果或者基于解析结果进一步确定的用户特征，为用户推荐与解析结果或用户的特征相匹配的视频、音乐、资讯等推荐信息。如图5B所示，在解析结果或者基于解析结果确定的用户特征表明用户为儿童的情况下，可以为用户提供多种动画视频。

另外，也可以对语音输入的语义内容进行解析，以得到能够表征语音输入的语义内容的文本信息，然后基于文本信息和解析结果(或者用户特征)，确定适于向用户推荐的推荐信息，然后向用户展示包括推荐信息的界面。

也就是说，在为用户推荐信息时，可以仅根据用户发出的语音输入中的语音特征或基于语音特征进一步确定的用户特征，进行推荐。另外，也可以参考用户的语音输入中的语义内容，以为用户推荐更为精准的信息。

进一步地，在为用户推荐信息时，还可以考虑用户画像或者用户标签。其中，用户画像或者用户标签可以与用户的声纹信息(或者用户的注册信息)关联地保存，以便于根据用户的语音输入中的声纹信息，识别用户身份，获取用户画像或者用户标签。

如图6上半部分所示，在用户A和用户B都说出“播放一部电影”的情况下，可以识别语音输入的文本信息均为“播放一部电影”，由此可以确定用户A和用户B的意图均为播放电影。而用户A的声音疲惫，且当前时间是晚上，并且用户A的用户画像显示其爱好艺术片，因此可以向其推荐艺术气息浓厚的电影《布达佩斯大饭店》，并且主题背景可以设置为黑色。用户B的声音充满活力，且当前时间是周末下午，并且用户B的用户画像显示其爱好爱情片，因此可以向其推荐喜剧歌舞爱情片《爱乐之城》。

如图6下半部分所示，对于同一电视客户端或者同一家庭圈，可以根据声音识别当前用户的年龄(或者年龄段)、性别、当前情绪状态等，识别用户的身份。例如，当家庭内成员“老婆”和“孩子”分别说出“开机”时，可以根据语音输入的语音特征，识别说出“开机”的用户是孩子还是老婆，当识别结果表明当前用户的身份是老婆的情况下，可以向其推荐时尚类电影，当识别结果表明当前用户的身份是孩子的情况下，可以向其推荐动画片。

作为本公开的一个示例，在向用户展示包括推荐信息的界面时，所展示的界面中还可以包括与推荐信息关联显示的提示信息，提示信息用于表征推荐信息。其中，提示信息可以以一种或多种特征维度表征推荐信息。例如，提示信息可以基于名称、类型、展示位置、展示顺序、颜色、标签等多种特征维度表征推荐信息。

由此，用户可以通过输入(语音或文本)与提示信息对应的指令，实现对提示信息所关联的推荐信息的操作。如图3至图5B所示，推荐信息可以是图片信息，提示信息可以是与图片关联显示的数字、标题。由此，用户在对界面中展示的多个推荐信息执行操作时，可以通过输入与提示信息相应的指令，打开相应的推荐信息的具体内容。例如，用户可以通过说出(或者文本输入)数字8或者功夫熊猫，打开功夫熊猫这一视频。

如图2所示，注册界面中也可以包括与注册信息关联显示的提示信息(如图2中的数字、文字)。另外，对于其它类型的界面，界面中也可以关联地显示相关的提示信息，此处不再赘述。

本公开在应用于影视推荐时，可以根据声音识别出用户的年龄和性别，根据年龄和性别，可以在影视大数据分析中，初次推荐在这个年龄和性别人群中的喜好的影视及风格。当用户长时间使用后，可以根据浏览习惯和年龄、性别，推荐更好的个性化数据。在此基础上，如用户开机页面、语音问答界面，均可以根据用户发出的语音输入中的声音特征，将匹配的影视提前展示。

并且，在本公开的语音交互方案应用于智能电视时，本公开还可以实现为一种智能电视语音交互方法，通过使用上文述及的语音交互方法可以为用户提供与确定的用户的特征相匹配的电视界面和/或系统服务。其中，电视界面可以是首页、注册界面、历史浏览界面、关注界面等多种类型的界面，电视界面中的界面展示内容(推荐信息、注册信息、历史浏览信息、关注信息等等)以及界面展示模式都可以是基于用户特征确定的。系统服务可以是系统服务形象和/或系统服务语音的选取。本公开的语音交互方法的内容适用于智能电视语音交互方法，关于界面的展示、系统服务可以参见上文相关说明，此处不再赘述。

图7示出了根据本公开一实施例的语音交互装置的结构示意图。其中，语音交互装置700的功能模块可以由实现本发明原理的硬件、软件或硬件和软件的结合来实现。本领域技术人员可以理解的是，图7所描述的功能模块可以组合起来或者划分成子模块，从而实现上述发明的原理。因此，本文的描述可以支持对本文描述的功能模块的任何可能的组合、或者划分、或者更进一步的限定。

下面就语音交互装置700可以具有的功能模块以及各功能模块可以执行的操作做简要说明，对于其中涉及的细节部分可以参见上文描述，这里不再赘述。

如图7所示，语音交互装置700包括第一解析模块710、用户特征确定模块715以及服务模块720。

第一解析模块710用于对用户的语音输入进行解析，以得到能够表征语音输入的语音特征的解析结果，如解析结果可以包括音量、音调、音色等语音特征。用户特征确定模块715用于基于解析结果，确定用户的用户特征，如可以确定用户的性别、年龄、年龄段、情绪状态等用户特征。服务模块720用于基于用户特征，并结合用户语音输入的时机和/或所述设备当前的状态和/或对用户的语音输入进行解析得到的文本信息，为用户提供服务。例如，服务模块720可以基于用户特征为用户提供信息推荐服务，并且/或者，服务模块720还可以基于用户特征为用户提供功能选择和/或功能设置服务。

可选地，服务模块720还可以对用户的意图进行识别，以为用户提供与语音输入的意图相关联的服务。

作为本公开的一个示例，服务模块720可以为用户提供与解析结果或用户特征相匹配的注册信息。其中，注册信息可以包括头像、名称、主题、背景颜色、系统服务语音、系统服务形象等。所提供的注册信息可以作为默认注册信息，用户还可以对注册信息进行修改。

如图7所示，语音交互装置700还可以可选地包括图中虚线框所示的修改模块730。响应于用户的操作指令，修改模块730可以修改注册信息。另外，也可以响应于用户再次的语音输入，由第一解析模块710对再次的语音输入进行解析，以得到新的解析结果，由特征确定模块715基于新的解析结果确定用户的特征，并由服务模块720为用户提供与新的特征相匹配的注册信息。

可选地，服务模块720可以为多个用户分别构建注册信息，并关联地保存每个用户的历史操作信息和注册信息。语音交互装置该装置还可以可选地包括图中虚线框所示的识别模块740和推荐模块750。

识别模块740可以识别当前语音输入是否对应于先前注册的用户，在当前语音输入对应于先前注册的用户的情况下，推荐模块750可以基于先前注册的用户的历史操作信息进行推荐。

作为本公开的另一个示例，服务模块720可以为用户提供与解析结果或用户特征相匹配的推荐信息。

如图7所示，服务模块720可以可选地包括图中虚线框所示的第二解析模块721、推荐信息确定模块723以及展示模块725。

第二解析模块721可以对用户的语音输入进行解析，以得到语音输入的文本信息。推荐信息确定模块723可以基于文本信息和解析结果(或用户特征)，确定适于向用户展示的推荐信息。展示模块725可以向用户展示包括推荐信息的界面。其中，所展示的界面还可以包括与推荐信息关联显示的提示信息，提示信息用于表征推荐信息。

作为本公开的另一个示例，服务模块720可以为用户提供与解析结果或用户的特征相匹配的界面展示模式。界面展示模式可以包括主题类型、背景颜色、字体类型、字体颜色等。

作为本公开的另一个示例，服务模块720可以为用户提供与解析结果或用户的特征相匹配的系统服务。例如，服务模块720可以为用户提供与解析结果或用户的特征相匹配的系统服务形象和/或系统服务语音。

本公开还可以实现为一种智能电视语音交互装置，可以包括语音交互装置。语音交互装置可以使用本公开的语音交互方案为用户提供与所述特征相匹配的电视桌面和/或系统服务。其中，电视界面的界面展示模式和界面展示内容均可以与用户特征相匹配。关于语音交互装置的结构及可以实现的功能，可以参见图7描述，此处不再赘述。

图8示出了根据本公开一实施例的计算设备的结构示意图。

参见图8，计算设备800包括处理器810和存储器820。

处理器810可以是一个多核的处理器，也可以包含多个处理器。在一些实施例中，处理器810可以包含一个通用的主处理器以及一个或多个特殊的协处理器，例如图形处理器(GPU)、数字信号处理器(DSP)等等。在一些实施例中，处理器810可以使用定制的电路实现，例如特定用途集成电路(ASIC，Application Specific Integrated Circuit)或者现场可编程逻辑门阵列(FPGA，Field Programmable Gate Arrays)。

存储器820可以包括各种类型的存储单元，例如系统内存、只读存储器(ROM)，和永久存储装置。其中，ROM可以存储处理器810或者计算机的其他模块需要的静态数据或者指令。永久存储装置可以是可读写的存储装置。永久存储装置可以是即使计算机断电后也不会失去存储的指令和数据的非易失性存储设备。在一些实施方式中，永久性存储装置采用大容量存储装置(例如磁或光盘、闪存)作为永久存储装置。另外一些实施方式中，永久性存储装置可以是可移除的存储设备(例如软盘、光驱)。系统内存可以是可读写存储设备或者易失性可读写存储设备，例如动态随机访问内存。系统内存可以存储一些或者所有处理器在运行时需要的指令和数据。此外，存储器820可以包括任意计算机可读存储媒介的组合，包括各种类型的半导体存储芯片(DRAM，SRAM，SDRAM，闪存，可编程只读存储器)，磁盘和/或光盘也可以采用。在一些实施方式中，存储器820可以包括可读和/或写的可移除的存储设备，例如激光唱片(CD)、只读数字多功能光盘(例如DVD-ROM，双层DVD-ROM)、只读蓝光光盘、超密度光盘、闪存卡(例如SD卡、min SD卡、Micro-SD卡等等)、磁性软盘等等。计算机可读存储媒介不包含载波和通过无线或有线传输的瞬间电子信号。

存储器820上存储有可处理代码，当可处理代码被处理器处理810时，可以使处理器810执行上文述及的语音交互方法。

上文中已经参考附图详细描述了根据本发明的语音交互方法、装置以及计算设备。

此外，根据本发明的方法还可以实现为一种计算机程序或计算机程序产品，该计算机程序或计算机程序产品包括用于执行本发明的上述方法中限定的上述各步骤的计算机程序代码指令。

或者，本发明还可以实施为一种非暂时性机器可读存储介质(或计算机可读存储介质、或机器可读存储介质)，其上存储有可执行代码(或计算机程序、或计算机指令代码)，当所述可执行代码(或计算机程序、或计算机指令代码)被电子设备(或计算设备、服务器等)的处理器执行时，使所述处理器执行根据本发明的上述方法的各个步骤。

本领域技术人员还将明白的是，结合这里的公开所描述的各种示例性逻辑块、模块、电路和算法步骤可以被实现为电子硬件、计算机软件或两者的组合。

附图中的流程图和框图显示了根据本发明的多个实施例的系统和方法的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分，所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现中，方框中所标记的功能也可以以不同于附图中所标记的顺序发生。例如，两个连续的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或操作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

以上已经描述了本发明的各实施例，上述说明是示例性的，并非穷尽性的，并且也不限于所披露的各实施例。在不偏离所说明的各实施例的范围和精神的情况下，对于本技术领域的普通技术人员来说许多修改和变更都是显而易见的。本文中所用术语的选择，旨在最好地解释各实施例的原理、实际应用或对市场中的技术的改进，或者使本技术领域的其它普通技术人员能理解本文披露的各实施例。

技术特征：

1.一种语音交互方法，用于实现用户与设备之间的交互，其特征在于，包括：

对用户的语音输入进行特征解析，以得到能够表征所述语音输入的语音特征的解析结果；

基于所述解析结果，确定所述用户的用户特征；以及

基于所述用户特征，并结合用户语音输入的时机和/或所述设备当前的状态和/或对用户的语音输入进行解析得到的文本信息，为用户提供服务。

2.根据权利要求1所述的语音交互方法，其特征在于，所述解析结果包括以下一项或多项：

音量；

音调；

音色。

3.根据权利要求1所述的语音交互方法，其特征在于，所述用户特征包括以下一项或多项：

性别；

年龄；

年龄段；

情绪状态。

4.根据权利要求1所述的语音交互方法，其特征在于，所述服务包括：

信息推荐服务；和/或

功能选择服务；和/或

功能设置服务。

5.根据权利要求1所述的语音交互方法，其特征在于，所述为用户提供服务的步骤包括：

为用户提供与所述语音输入相关联的服务。

6.根据权利要求4所述的语音交互方法，其特征在于，所述为用户提供服务的步骤包括：

为用户提供与所述用户特征相匹配的注册信息。

7.根据权利要求6所述的语音交互方法，其特征在于，所述注册信息包括以下一项或多项：

头像；

名称；

主题；

背景颜色；

系统服务语音；

系统服务形象。

8.根据权利要求6所述的语音交互方法，其特征在于，还包括：

响应于用户的操作指令，修改所述注册信息；以及/或者

响应于用户再次的语音输入，对所述再次的语音输入进行解析，以得到新的解析结果，基于新的解析结果确定用户新的用户特征，并为所述用户提供与所述新的用户特征相匹配的注册信息。

9.根据权利要求6所述的语音交互方法，其特征在于，还包括：

为多个用户分别构建所述注册信息，并关联地保存每个所述用户的历史操作信息和所述注册信息；

识别当前语音输入是否对应于先前注册的用户；

在当前语音输入对应于先前注册的用户的情况下，基于先前注册的用户的历史操作信息进行推荐。

10.根据权利要求4所述的语音交互方法，其特征在于，所述为用户提供服务的步骤包括：

基于所述用户特征，并结合所述文本信息，确定适于向所述用户展示的推荐信息；以及

向所述用户展示包括所述推荐信息的界面。

11.根据权利要求10所述的语音交互方法，其特征在于，

所述界面还包括与所述推荐信息关联显示的提示信息，所述提示信息用于表征所述推荐信息。

12.根据权利要求4所述的语音交互方法，其特征在于，所述为用户提供服务的步骤包括：

使用与所述用户特征相匹配的界面展示模式为用户提供服务。

13.根据权利要求12所述的语音交互方法，其特征在于，所述界面展示模式包括以下一项或多项：

主题类型；

背景颜色；

字体大小；

字体类型；

字体颜色。

14.根据权利要求4所述的语音交互方法，其特征在于，所述为用户提供服务的步骤包括：

为用户提供与所述用户特征相匹配的系统服务。

15.根据权利要求14所述的语音交互方法，其特征在于，所述为用户提供与所述用户特征相匹配的系统服务的步骤包括：

为用户提供与所述用户特征相匹配的系统服务形象和/或系统服务语音。

16.一种智能电视语音交互方法，其特征在于，包括：

使用权利要求1至15中任何一项所述的语音交互方法为用户提供与所述用户特征相匹配的电视界面和/或系统服务。

17.根据权利要求16所述的智能电视语音交互方法，其特征在于，

所述电视界面的界面展示模式与所述用户特征相匹配，并且/或者

所述电视界面的界面展示内容与所述用户特征相匹配。

18.一种语音交互装置，用于实现用户与设备之间的交互，其特征在于，包括：

第一解析模块，用于对用户的语音输入进行特征解析，以得到能够表征所述语音输入的语音特征的解析结果；

用户特征确定模块，用于基于所述解析结果，确定所述用户的用户特征；以及

服务模块，用于基于所述用户特征，并结合用户语音输入的时机和/或所述设备当前的状态和/或对用户的语音输入进行解析得到的文本信息，为用户提供服务。

19.根据权利要求18所述的语音交互装置，其特征在于，所述解析结果包括以下一项或多项：

音量；

音调；

音色。

20.根据权利要求18所述的语音交互装置，其特征在于，所述用户特征包括以下一项或多项：

性别；

年龄；

年龄段；

情绪状态。

21.根据权利要求18所述的语音交互装置，其特征在于，所述服务包括：

信息推荐服务；和/或

功能选择服务；和/或

功能设置服务。

22.根据权利要求18所述的语音交互装置，其特征在于，

所述服务模块为用户提供与所述语音输入相关联的服务。

23.根据权利要求21所述的语音交互装置，其特征在于，

所述服务模块为用户提供与所述用户特征相匹配的注册信息。

24.根据权利要求23所述的语音交互装置，其特征在于，所述注册信息包括以下一项或多项：

头像；

名称；

主题；

背景颜色；

系统服务语音；

系统服务形象。

25.根据权利要求23所述的语音交互装置，其特征在于，还包括：

修改模块，用于响应于用户的操作指令，修改所述注册信息，并且/或者，

响应于用户再次的语音输入，所述第一解析模块对所述再次的语音输入进行解析，以得到新的解析结果，所述用户特征确定模块基于新的解析结果确定用户新的用户特征，所述服务模块为所述用户提供与所述新的用户特征相匹配的注册信息。

26.根据权利要求23所述的语音交互装置，其特征在于，所述服务模块为多个用户分别构建所述注册信息，并关联地保存每个所述用户的历史操作信息和所述注册信息，该装置还包括：

识别模块，用于识别当前语音输入是否对应于先前注册的用户；

推荐模块，用于在当前语音输入对应于先前注册的用户的情况下，基于先前注册的用户的历史操作信息进行推荐。

27.根据权利要求21所述的语音交互装置，其特征在于，所述服务模块包括：

推荐信息确定模块，用于基于所述用户特征，并结合所述文本信息，确定适于向所述用户展示的推荐信息；以及

展示模块，用于向所述用户展示包括所述推荐信息的界面。

28.根据权利要求27所述的语音交互装置，其特征在于，

所述界面还包括与所述推荐信息关联显示的提示信息，所述提示信息用于表征所述推荐信息。

29.根据权利要求21所述的语音交互装置，其特征在于，

所述服务模块使用与所述用户特征相匹配的界面展示模式为用户提供服务。

30.根据权利要求29所述的语音交互装置，其特征在于，所述界面展示模式包括以下一项或多项：

主题类型；

背景颜色；

字体大小；

字体类型；

字体颜色。

31.根据权利要求21所述的语音交互装置，其特征在于，

所述服务模块为用户提供与所述用户特征相匹配的系统服务。

32.根据权利要求31所述的语音交互装置，其特征在于，

所述服务模块为用户提供与所述用户特征相匹配的系统服务形象和/或系统服务语音。

33.一种智能电视语音交互装置，其特征在于，包括：

语音交互装置，用于使用权利要求1至15中任何一项所述的语音交互方法为用户提供与所述用户特征相匹配的电视界面和/或系统服务。

34.根据权利要求33所述的智能电视语音交互装置，其特征在于，

所述电视界面的界面展示模式与所述用户特征相匹配，并且/或者

所述电视界面的界面展示内容与所述用户特征相匹配。

35.一种计算设备，其特征在于，包括：

处理器；以及

存储器，其上存储有可执行代码，当所述可执行代码被所述处理器执行时，使所述处理器执行如权利要求1-17中任何一项所述的方法。

36.一种非暂时性机器可读存储介质，其上存储有可执行代码，当所述可执行代码被电子设备的处理器执行时，使所述处理器执行如权利要求1至17中任一项所述的方法。

技术总结

本公开提供了一种语音交互方法、装置、设备以及存储介质。对用户的语音输入进行解析，以得到能够表征语音输入的语音特征的解析结果；基于解析结果，确定用户的用户特征；以及基于用户特征，并结合用户语音输入的时机和/或设备当前的状态和/或对用户的语音输入进行解析得到的文本信息，为用户提供服务。由此，本公开通过对语音输入中的语音特征进行解析得到的解析结果，确定用户特征，基于用户特征为用户提供服务，实现过程较为简单，可以应用于智能电视中的界面注册场景、界面展示场景以及系统服务选取场景等诸多场景，以提升用户体验。

技术研发人员：姚维;卞文瀚;马骥

受保护的技术使用者：阿里巴巴集团控股有限公司

技术研发日：.02.13

技术公布日：.08.23

本内容不代表本网观点和政治立场，如有侵犯你的权益请联系我们处理。

网友评论

网友评论仅供其表达个人看法，并不表明网站立场。