第一句子网 - 唯美句子、句子迷、好句子大全
第一句子网 > 音频处理方法 装置及存储介质与流程

音频处理方法 装置及存储介质与流程

时间:2023-07-13 11:26:50

相关推荐

音频处理方法 装置及存储介质与流程

本申请实施例涉及语音处理技术领域,特别涉及一种音频处理方法、装置及存储介质。

背景技术:

目前,麦克风阵列被广泛应用于音频信号采集中,其中包括的多个麦克风一般呈圆形状均匀分布。在一些情况下,麦克风阵列采集的音频信号中可能包括有噪音,譬如,在视频会议环境中,桌面上键盘的声音、纸的沙沙声等均属于噪音。为此,通常需要对麦克风阵列的某个特定区域所采集的音频信号进行抑制处理,即,使该特定区域的音频信号处于静音状态。

在相关技术中,可以为麦克风阵列设置静音按钮,当环境中存在噪音时,用户可以按动该静音按钮,以暂时关闭该麦克风阵列。此时,该麦克风阵列暂停采集操作,如此,可以避免采集到噪音。

然而,当关闭麦克风阵列后,不仅暂停了对噪音的采集,同时也无法再对需求的音频信号进行采集。

技术实现要素:

本申请实施例提供了一种音频处理方法、装置及存储介质,可以解决关闭麦克风阵列导致无法再对需求的音频信号进行采集的问题。所述技术方案如下:

第一方面,提供了一种音频处理方法,所述方法包括:

获取多个音频采样频点对应的波束形成系数矩阵,获取到的多个波束形成系数矩阵是基于从麦克风阵列对应的圆形区域内选取的目标扇形区域确定的,所述圆形区域用于指代所述麦克风阵列的音频采集区域,所述多个波束形成系数矩阵用于控制在所述目标扇形区域指代的音频采集区域内采集的音频信号为静音状态;

分别确定所述麦克风阵列中每个麦克风采集的音频信号在所述多个音频采样频点下的频域信号;

将每个波束形成系数矩阵作为所述每个麦克风在对应音频采样频点下的频域信号的系数,对所确定的频域信号进行变换处理,得到目标音频信号。

可选地,所述方法还包括:

获取所述多个音频采样频点对应的预设阵列流形矩阵;

基于所述目标扇形区域,生成目标响应向量,所述目标响应向量包括与所述圆形区域内预先划分的k个单位扇形区域一一对应的k个响应数值,k为正整数,所述目标扇形区域不包括的单位扇形区域对应的响应数值为第一数值,所述目标扇形区域包括的单位扇形区域对应的响应数值为第二数值,所述第一数值用于表示非静音,所述第二数值用于表示静音;

基于所述目标响应向量和获取到的预设阵列流形矩阵,获取所述多个音频采样频点对应的波束形成系数矩阵。

可选地,所述基于所述目标响应向量和获取到的预设阵列流形矩阵,获取所述多个音频采样频点对应的波束形成系数矩阵,包括:

基于所述目标响应向量和获取到的预设阵列流形矩阵,通过指定公式,获取所述多个音频采样频点对应的波束形成系数矩阵,所述指定公式为:

其中,所述a(i)为第i个预设阵列流形矩阵,所述pd(θ)为所述目标响应向量,所述wi为第i个波束形成系数矩阵。

可选地,所述将每个波束形成系数矩阵作为所述每个麦克风在对应音频采样频点下的频域信号的系数,对所确定的频域信号进行变换处理,得到目标音频信号,包括:

对于所述多个音频采样频点中的每个音频采样频点,将所述每个麦克风采集的音频信号在所述音频采样频点下的频域信号进行组合,得到组合矩阵;

确定所述组合矩阵与所述音频采样频点对应的预设波束形成系数矩阵之间的乘积,得到所述麦克风阵列在所述音频采样频点下的频域信号;

对所述麦克风阵列在所述多个音频采样频点下的频域信号进行组合,并将组合后的频域信号进行傅里叶反变换处理,得到所述目标音频信号。

可选地,所述分别确定所述麦克风阵列中每个麦克风采集的音频信号在所述多个音频采样频点下的频域信号,包括:

分别对所述麦克风阵列中每个麦克风采集的音频信号进行分帧处理,得到所述每个麦克风采集的音频信号的分帧信号;

按照预设窗口大小,对所述每个麦克风采集的音频信号的分帧信号进行加窗处理,得到所述每个麦克风采集的音频信号的加窗信号;

基于所述多个音频采样频点,分别对所述每个麦克风采集的音频信号的加窗信号进行傅里叶变换处理,得到所述每个麦克风采集的音频信号在所述多个音频采样频点下的频域信号。

第二方面,提供了一种音频处理装置,所述装置包括:

获取模块,用于获取多个音频采样频点对应的波束形成系数矩阵,获取到的多个波束形成系数矩阵是基于从麦克风阵列对应的圆形区域内选取的目标扇形区域确定的,所述圆形区域用于指代所述麦克风阵列的音频采集区域,所述多个波束形成系数矩阵用于控制在所述目标扇形区域指代的音频采集区域内采集的音频信号为静音状态;

确定模块,用于分别确定所述麦克风阵列中每个麦克风采集的音频信号在所述多个音频采样频点下的频域信号;

处理模块,用于将每个波束形成系数矩阵作为所述每个麦克风在对应音频采样频点下的频域信号的系数,对所确定的频域信号进行变换处理,得到目标音频信号。

可选地,所述获取模块还用于:

获取所述多个音频采样频点对应的预设阵列流形矩阵;

基于所述目标扇形区域,生成目标响应向量,所述目标响应向量包括与所述圆形区域内预先划分的k个单位扇形区域一一对应的k个响应数值,k为正整数,所述目标扇形区域不包括的单位扇形区域对应的响应数值为第一数值,所述目标扇形区域包括的单位扇形区域对应的响应数值为第二数值,所述第一数值用于表示非静音,所述第二数值用于表示静音;

基于所述目标响应向量和获取到的预设阵列流形矩阵,获取所述多个音频采样频点对应的波束形成系数矩阵。

可选地,所述获取模块用于:

基于所述目标响应向量和获取到的预设阵列流形矩阵,通过指定公式,获取所述多个音频采样频点对应的波束形成系数矩阵,所述指定公式为:

其中,所述a(i)为第i个预设阵列流形矩阵,所述pd(θ)为所述目标响应向量,所述wi为第i个波束形成系数矩阵。

可选地,所述处理模块用于:

对于所述多个音频采样频点中的每个音频采样频点,将所述每个麦克风采集的音频信号在所述音频采样频点下的频域信号进行组合,得到组合矩阵;

确定所述组合矩阵与所述音频采样频点对应的预设波束形成系数矩阵之间的乘积,得到所述麦克风阵列在所述音频采样频点下的频域信号;

对所述麦克风阵列在所述多个音频采样频点下的频域信号进行组合,并将组合后的频域信号进行傅里叶反变换处理,得到所述目标音频信号。

可选地,所述确定模块用于:

分别对所述麦克风阵列中每个麦克风采集的音频信号进行分帧处理,得到所述每个麦克风采集的音频信号的分帧信号;

按照预设窗口大小,对所述每个麦克风采集的音频信号的分帧信号进行加窗处理,得到所述每个麦克风采集的音频信号的加窗信号;

基于所述多个音频采样频点,分别对所述每个麦克风采集的音频信号的加窗信号进行傅里叶变换处理,得到所述每个麦克风采集的音频信号在所述多个音频采样频点下的频域信号。

第三方面,提供了一种计算机可读存储介质,所述计算机可读存储介质上存储有指令,所述指令被处理器执行时实现上述第一方面所述的音频处理方法。

第四方面,提供了一种包含指令的计算机程序产品,当其在计算机上运行时,使得计算机执行上述第一方面所述的音频处理方法。

本申请实施例提供的技术方案带来的有益效果是:

获取多个音频采样频点对应的波束形成系数矩阵,获取到的多个波束形成系数矩阵是基于从麦克风阵列对应的圆形区域内选取的目标扇形区域确定的,其中,该圆形区域可以用于指代麦克风阵列的音频采集区域。分别确定麦克风阵列中每个麦克风阵列采集的音频信号在该多个音频采集频点下的频域信号,之后,将每个波束形成系数矩阵作为每个麦克风在对应音频采样频点下的频域信号的系数,对所确定的频域信号进行变换处理,得到目标音频信号,由于上述多个波束形成系数矩阵用于控制在目标扇形区域指代的音频采集区域内采集的音频信号为静音状态,因此,该目标音频信号中目标扇形区域对应的音频信号为静音状态,从而达到对需要静音区域采集的音频信号进行抑制处理的目的,即在不影响采集所需求的音频信号的情况下,还可以抑制掉需要静音的目标扇形区域的音频信号,解决了关闭麦克风阵列导致无法对需求的音频信号进行采集的问题。

附图说明

为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。

图1是根据一示例性实施例示出的一种音频处理方法的流程图。

图2是图1实施例所涉及的一种麦克风阵列对应的圆形区域的示意图。

图3是图1实施例所涉及的一种音频处理方法的流程图。

图4是根据一示例性实施例示出的一种音频处理装置的结构示意图。

图5示出了本申请一个示例性实施例提供的终端500的结构框图。

具体实施方式

为使本申请的目的、技术方案和优点更加清楚,下面将结合附图对本申请实施方式作进一步地详细描述。

在对本申请实施例提供的音频处理方法进行详细介绍之前,先对本申请实施例所涉及的应用场景和实施环境进行简单介绍。

首先,对本申请实施例涉及的应用场景进行简单介绍。

麦克风阵列一般呈圆形均匀分布,具有全向采集的特性。然而,在一些应用场景中,可能希望抑制掉麦克风阵列的某个特征区域的噪音,尽可能地采集其它区域的音频信号。譬如,在安防监控环境中,希望尽可能多的采集各个区域的音频信号,如果在监控周围有个特定区域的噪音,则会影响其他区域的音频信号的采集,此时,需要抑制掉该特定区域的噪音。再如,在某应用环境中,可能存在隐私区域,为了对隐私区域进行全面保护,用户不希望对隐私区域的音频信号进行采集,此时,需要抑制掉该隐私区域所采集的音频信号。

综上,日常生活中,在通过麦克风阵列进行音频采集的过程中,有将某个特定区域的音频信号进行抑制处理的需求,使该特定区域所采集的音频信号为静音状态。

目前,为了达到对特定区域所采集的音频信号进行抑制处理的目的,只能关闭麦克风阵列。然而,当关闭麦克风阵列后,虽然可以避免采集到噪音或隐私音频信号,但是,其它需求的音频信号也无法采集。为此,本申请实施例提供了一种音频处理方法,该音频处理方法可以对需要静音区域所采集的音频信号进行抑制处理,即在不影响采集需求的音频信号的情况下,可以抑制掉需要静音的目标扇形区域的音频信号或隐私音频信号,其具体实现过程请参见如下实施例。

其次,对本申请实施例涉及的实施环境进行简单介绍。

本申请实施例提供的音频处理方法可以由计算机设备来执行,该计算机设备中可以配置有麦克风阵列,以通过该麦克风阵列采集音频信号。进一步地,该计算机设备还可以配置有人机交互界面,该人机交互界面用于显示麦克风阵列对应的圆形区域,以便于用户从该圆形区域中选择需要静音的区域。另外,在一些实施例中,该计算机设备可以包括手机、平板电脑、计算机等,本申请实施例对此不做限定。

在介绍完本申请实施例涉及的应用场景和实施环境后,接下来将结合附图对本申请实施例提供的音频处理方法进行详细介绍。

图1是根据一示例性实施例示出的一种音频处理方法的流程图,该音频处理方法可以由上述计算机设备来执行,该音频处理方法可以包括如下几个实现步骤:

步骤101:获取多个音频采样频点对应的波束形成系数矩阵,获取到的多个波束形成系数矩阵是基于从麦克风阵列对应的圆形区域内选取的目标扇形区域确定的,该圆形区域用于指代该麦克风阵列的音频采集区域,该多个波束形成系数矩阵用于控制在该目标扇形区域指代的音频采集区域内采集的音频信号为静音状态。

在一种可能的实现方式中,该计算机设备可以先确定该多个音频采样频点对应的波束形成系数矩阵,之后,再获取所确定的多个波束形成系数矩阵。譬如,在一些实施例中,获取该多个音频采样频点对应的波束形成系数矩阵之前,当计算机设备接收到系数矩阵确定指令时,执行如下1011-1013操作。

其中,该系数矩阵确定指令可以由用户通过指定操作触发,该指定操作可以包括点击操作、滑动操作等等。

譬如,该计算机设备可以提供人机交互界面,该人机交互界面中可以提供系数矩阵确定选项,用户可以点击该系数矩阵确定选项以触发系数矩阵确定指令,该计算机设备接收到该系数矩阵确定指令后,执行确定多个音频采样频点对应的波束形成系数矩阵的操作。

接下来,对确定该多个音频采样频点对应的波束形成系数矩阵的具体实现进行介绍:

1011:获取该多个音频采样频点对应的预设阵列流形矩阵。

每个预设阵列流形矩阵通常与麦克风阵列的数量和空间排布有关,可以预先进行设置,且每个音频采样频点均对应一个预设阵列流形矩阵。譬如,当存在1024个音频采样频点时,将对应有1024个预设阵列流形矩阵,每个音频采样频点与每个预设阵列流形矩阵一一对应。其中,该多个音频采样频点可以预先设置。

1012:基于该目标扇形区域,生成目标响应向量,该目标响应向量包括与该圆形区域内预先划分的k个单位扇形区域一一对应的k个响应数值,k为正整数,该目标扇形区域不包括的单位扇形区域对应的响应数值为第一数值,该目标扇形区域包括的单位扇形区域对应的响应数值为第二数值,该第一数值用于表示非静音,该第二数值用于表示静音。

正如前文所述,麦克风阵列一般呈圆形均匀分布,在一种可能的实现方式中,该计算机设备可以在自身的人机交互界面中显示该麦克风阵列对应的圆形区域。譬如,请参见图2,该图2是根据一示例性实施例示出的一种麦克风阵列对应的圆形区域的示意图,在该麦克风阵列中包括有8个麦克风,通过该8个麦克风对圆形区域内的任一区域进行音频采集,即该圆形区域用于指代麦克风阵列的音频采集区域。

用户可以采用滑动等方式在该麦克风阵列对应的圆形区域内选取想要静音的目标扇形区域,相应地,计算机设备响应用户的选取操作,即确定所选取的目标扇形区域,譬如,确定的该目标扇形区域如图2中的21所示。

另外,还可以预先对该圆形区域进行划分,即将该圆形区域划分成k个单位扇形区域,譬如,当该k为360时,每个扇形区域对应的角度为1度。如此,计算机设备可以基于用户所选择的目标扇形区域,生成包含k个响应数值的目标响应向量,其中,每个响应数值与预先划分的k个单位扇形区域一一对应。

在一种可能的实现方式中,基于目标扇形区域生成目标响应向量的具体实现可以包括:若计算机设备中预先存储有预设响应向量,该预设响应向量中包括k个响应数值,该预设响应向量可以预先由用户进行设置,譬如,该预设响应向量中的k个响应数值均为第一数值,则在该种情况下,计算机设备可以将该预设响应向量中该目标扇形区域对应的响应数值均替换为第二数值。

其中,该第一数值和第二数值可以由用户根据实际需求自定义设置,也可以由该计算机设备默认设置,本申请实施例对此不作限定。

例如,该麦克风阵列对应的圆形区域内包括360个单位扇形区域,该目标扇形区域如图2中的21所示,该第一数值为1,该第二数值为0,即该预设响应向量中的360个响应数值均为1。该计算机设备获取预设响应向量,并将该预设响应向量中该目标扇形区域包括的单位扇形区域对应的响应数值替换为0,得到该目标响应向量。

在另一种可能的实现方式中,基于该目标扇形区域,生成目标响应向量的具体实现还可以包括:该计算机设备直接将该目标扇形区域包括的单位扇形区域对应的响应数值设置为第二数值,将该目标扇形区域不包括的单位扇形区域对应的响应数值为第一数值,从而得到目标响应向量。

也就是说,在该种实现方式中,计算机设备中不存储有预设响应向量,即该目标响应向量不是通过替换预先存储的预设响应向量中的一些响应数值得到的,而是采用数值设置的方式得到的。

1013:基于该目标响应向量和获取到的预设阵列流形矩阵,获取该多个音频采样频点对应的波束形成系数矩阵。

在一些实施例中,基于该目标响应向量和获取到的预设阵列流形矩阵,通过指定公式,获取该多个音频采样频点对应的波束形成系数矩阵,该指定公式为:

其中,该a(i)为第i个预设阵列流形矩阵,该pd(θ)为该目标响应向量,该wi为第i个波束形成系数矩阵。

如前文所述,每个音频采样频点对应一个预设阵列流形矩阵,因此,在计算过程中,存在多个预设阵列流形矩阵,从而可以对应确定多个波束形成系数矩阵,每个波束形成系数矩阵与每个音频采样频点一一对应。

需要说明的是,上述确定该多个波束形成系数矩阵的实现方式仅是示例性的,在另一些实施例中,还可以采用其它方法来确定该多个波束形成系数矩阵,譬如,该其它方法可以包括但不限于凹槽噪音法、零陷扩展技术,本申请实施例对此不做限定。

进一步地,上述获取多个音频采样频点对应的波束形成系数矩阵的具体实现还可以包括:从本地获取历史存储的多个波束形成系数矩阵。也就是说,该计算机设备中可能存储有多个波束形成系数矩阵,在一些实施例中,可以直接获取所存储的多个波束形成系数矩阵,此时,无需执行上述确定多个波束形成系数矩阵的操作。

进一步地,该计算机设备可以在接收到系数矩阵获取指令时,从本地获取多个音频采样频点对应的波束形成系数矩阵。其中,该系数矩阵获取指令可以由用户触发,该用户可以通过指定操作触发,该指定操作可以包括点击操作、滑动操作等等。

譬如,该计算机设备可以提供有系数矩阵获取选项,用户可以点击该系数矩阵获取选项以触发系数矩阵获取指令,该计算机设备接收到该系数矩阵获取指定后,从本地的指定存储位置获取该多个音频采样频点对应的波束形成系数矩阵。其中,该指定存储位置可以预先进行设置。

步骤102:分别确定该麦克风阵列中每个麦克风采集的音频信号在该多个音频采样频点下的频域信号。

在一种可能的实现方式中,该步骤102的实现过程可以包括:分别对该麦克风阵列中每个麦克风采集的音频信号进行分帧处理,得到该每个麦克风采集的音频信号的分帧信号,按照预设窗口大小,对该每个麦克风采集的音频信号的分帧信号进行加窗处理,得到该每个麦克风采集的音频信号的加窗信号,基于该多个音频采样频点,分别对该每个麦克风采集的音频信号的加窗信号进行傅里叶变换处理,得到该每个麦克风采集的音频信号在该多个音频采样频点下的频域信号。

其中,该预设窗口大小可以由用户根据实际需求自定义设置,也可以由该计算机设备默认设置,本申请实施例对此不做限定。

请参考图3,该图3是根据一示例性实施例示出的一种确定频域信号的流程图。譬如,该麦克风阵列中包括8个麦克风,该计算机设备对麦克风1采集的音频信号进行分帧处理,按照预设窗口大小,对分帧处理后得到的音频信号进行加窗处理,得到加窗信号。然后,基于多个音频采样频点,对得到的加窗信号进行傅里叶变换处理,得到麦克风1采集的音频信号在该多个音频采样频点下的频域信号,譬如,得到的频域信号包括x1(f1)、x1(f2)、x1(f3)...x1(fn),其中,f1,f2...fn分别代表n个音频采样频点;同理,该计算机设备对麦克风2采集的音频信号进行分帧处理,按照预设窗口大小,对分帧处理后得到的音频信号进行加窗处理,得到加窗信号。然后,基于多个音频采样频点,对得到的加窗信号进行傅里叶变换处理,得到麦克风2采集的音频信号在该多个音频采样频点下的频域信号,譬如,得到的频域信号包括x2(f1)、x2(f2)、x2(f3)...x2(fn)。以此类推,按照上述实现方式,该计算机设备可以确定每个麦克风采集的音频信号在该多个音频采样频点下的频域信号。如图3所示,该麦克风8采集的音频信号在多个音频采样频点下的频域信号包括:x8(f1)、x8(f2)、x8(f3)...x8(fn)。

步骤103:将每个波束形成系数矩阵作为该每个麦克风在对应音频采样频点下的频域信号的系数,对所确定的频域信号进行变换处理,得到目标音频信号。

其中,由于多个波束形成系数矩阵用于控制在该目标扇形区域指代的音频采集区域内采集的音频信号为静音状态,因此,所得到的目标音频信号中目标扇形区域对应的音频信号为静音状态。

在一种可能的实现方式中,该步骤103的具体实现过程可以包括:对于该多个音频采样频点中的每个音频采样频点,将该每个麦克风采集的音频信号在该音频采样频点下的频域信号进行组合,得到组合矩阵,确定该组合矩阵与该音频采样频点对应的预设波束形成系数矩阵之间的乘积,得到该麦克风阵列在该音频采样频点下的频域信号,对该麦克风阵列在该多个音频采样频点下的频域信号进行组合,并将组合后的频域信号进行傅里叶反变换处理,得到该目标音频信号。

譬如,请继续参考图3,计算机设备将每个麦克风采集的音频信号在音频采样频点f1下的频域信号x1(f1)、x2(f1)...x8(f1)进行组合,得到组合矩阵,通常情况下,该组合矩阵为行矩阵。然后,确定该组合矩阵与该音频采样频点f1对应的预设波束形成系数矩阵之间的乘积,得到该麦克风阵列在该音频采样频点f1下的频域信号,实际上,上述实现过程可以认为是波束形成过程。同理,该计算机设备将每个麦克风采集的音频信号在音频采样频点f2下的频域信号x1(f2)、x2(f2)...x8(f2)进行组合,得到组合矩阵。然后。确定该组合矩阵与该音频采样频点f2对应的预设波束形成系数矩阵之间的乘积,得到该麦克风阵列在该音频采样频点f2下的频域信号。以此类推,该计算机设备将每个麦克风采集的音频信号在音频采样频点fn下的频域信号x1(fn)、x2(fn)...x8(fn)进行组合,得到组合矩阵,然后,确定该组合矩阵与该音频采样频点fn对应的预设波束形成系数矩阵之间的乘积,得到该麦克风阵列在该音频采样频点fn下的频域信号。

之后,该计算机设备将得到的麦克风阵列在该多个音频采样频点下的频域信号进行组合,并将组合后的频域信号进行傅里叶反变换处理,即可得到该目标音频信号。

需要说明的是,上述仅是以得到的每个组合矩阵是行矩阵为例进行说明,在一些实施例中,得到的每个组合矩阵还可以为列矩阵,此时,可以将该列矩阵进行转秩处理,并确定转秩后的组合矩阵与每个音频采样频点对应的预设波束形成系数矩阵之间的乘积,以得到该麦克风阵列在每个音频采样频点下的频域信号。

在本申请实施例中,获取多个音频采样频点对应的波束形成系数矩阵,获取到的多个波束形成系数矩阵是基于从麦克风阵列对应的圆形区域内选取的目标扇形区域确定的,其中,该圆形区域可以用于指代麦克风阵列的音频采集区域。分别确定麦克风阵列中每个麦克风阵列采集的音频信号在该多个音频采集频点下的频域信号,之后,将每个波束形成系数矩阵作为每个麦克风在对应音频采样频点下的频域信号的系数,对所确定的频域信号进行变换处理,得到目标音频信号,由于上述多个波束形成系数矩阵用于控制在目标扇形区域指代的音频采集区域内采集的音频信号为静音状态,因此,该目标音频信号中目标扇形区域对应的音频信号为静音状态,从而达到对需要静音区域采集的音频信号进行抑制处理的目的,即在不影响采集所需求的音频信号的情况下,还可以抑制掉需要静音的目标扇形区域的音频信号。解决了关闭麦克风阵列导致无法对需求的音频信号进行采集的问题。

图4是根据一示例性实施例示出的一种音频处理装置的结构示意图,该音频处理装置可以由软件、硬件或者两者的结合实现。该音频处理装置可以包括:

获取模块410,用于获取多个音频采样频点对应的波束形成系数矩阵,获取到的多个波束形成系数矩阵是基于从麦克风阵列对应的圆形区域内选取的目标扇形区域确定的,所述圆形区域用于指代所述麦克风阵列的音频采集区域,所述多个波束形成系数矩阵用于控制在所述目标扇形区域指代的音频采集区域内采集的音频信号为静音状态;

确定模块420,用于分别确定所述麦克风阵列中每个麦克风采集的音频信号在所述多个音频采样频点下的频域信号;

处理模块430,用于将每个波束形成系数矩阵作为所述每个麦克风在对应音频采样频点下的频域信号的系数,对所确定的频域信号进行变换处理,得到目标音频信号。

可选地,所述获取模块410还用于:

获取所述多个音频采样频点对应的预设阵列流形矩阵;

基于所述目标扇形区域,生成目标响应向量,所述目标响应向量包括与所述圆形区域内预先划分的k个单位扇形区域一一对应的k个响应数值,k为正整数,所述目标扇形区域不包括的单位扇形区域对应的响应数值为第一数值,所述目标扇形区域包括的单位扇形区域对应的响应数值为第二数值,所述第一数值用于表示非静音,所述第二数值用于表示静音;

基于所述目标响应向量和获取到的预设阵列流形矩阵,获取所述多个音频采样频点对应的波束形成系数矩阵。

可选地,所述获取模块410用于:

基于所述目标响应向量和获取到的预设阵列流形矩阵,通过指定公式,获取所述多个音频采样频点对应的波束形成系数矩阵,所述指定公式为:

其中,所述a(i)为第i个预设阵列流形矩阵,所述pd(θ)为所述目标响应向量,所述wi为第i个波束形成系数矩阵。

可选地,所述处理模块430用于:

对于所述多个音频采样频点中的每个音频采样频点,将所述每个麦克风采集的音频信号在所述音频采样频点下的频域信号进行组合,得到组合矩阵;

确定所述组合矩阵与所述音频采样频点对应的预设波束形成系数矩阵之间的乘积,得到所述麦克风阵列在所述音频采样频点下的频域信号;

对所述麦克风阵列在所述多个音频采样频点下的频域信号进行组合,并将组合后的频域信号进行傅里叶反变换处理,得到所述目标音频信号。

可选地,所述确定模块420用于:

分别对所述麦克风阵列中每个麦克风采集的音频信号进行分帧处理,得到所述每个麦克风采集的音频信号的分帧信号;

按照预设窗口大小,对所述每个麦克风采集的音频信号的分帧信号进行加窗处理,得到所述每个麦克风采集的音频信号的加窗信号;

基于所述多个音频采样频点,分别对所述每个麦克风采集的音频信号的加窗信号进行傅里叶变换处理,得到所述每个麦克风采集的音频信号在所述多个音频采样频点下的频域信号。

在本申请实施例中,获取多个音频采样频点对应的波束形成系数矩阵,获取到的多个波束形成系数矩阵是基于从麦克风阵列对应的圆形区域内选取的目标扇形区域确定的,其中,该圆形区域可以用于指代麦克风阵列的音频采集区域。分别确定麦克风阵列中每个麦克风阵列采集的音频信号在该多个音频采集频点下的频域信号,之后,将每个波束形成系数矩阵作为每个麦克风在对应音频采样频点下的频域信号的系数,对所确定的频域信号进行变换处理,得到目标音频信号,由于上述多个波束形成系数矩阵用于控制在目标扇形区域指代的音频采集区域内采集的音频信号为静音状态,因此,该目标音频信号中目标扇形区域对应的音频信号为静音状态,从而达到对需要静音区域采集的音频信号进行抑制处理的目的,即在不影响采集所需求的音频信号的情况下,还可以抑制掉需要静音的目标扇形区域的音频信号。解决了关闭麦克风阵列导致无法对需求的音频信号进行采集的问题。

需要说明的是:上述实施例提供的音频处理装置在实现音频处理方法时,仅以上述各功能模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能模块完成,即将设备的内部结构划分成不同的功能模块,以完成以上描述的全部或者部分功能。另外,上述实施例提供的音频处理装置与音频处理方法实施例属于同一构思,其具体实现过程详见方法实施例,这里不再赘述。

图5示出了本申请一个示例性实施例提供的终端500的结构框图。该终端500可以是:智能手机、平板电脑、mp3播放器(movingpictureexpertsgroupaudiolayeriii,动态影像专家压缩标准音频层面3)、mp4(movingpictureexpertsgroupaudiolayeriv,动态影像专家压缩标准音频层面4)播放器、笔记本电脑或台式电脑。终端500还可能被称为用户设备、便携式终端、膝上型终端、台式终端等其他名称。

通常,终端500包括有:处理器501和存储器502。

处理器501可以包括一个或多个处理核心,比如4核心处理器、8核心处理器等。处理器501可以采用dsp(digitalsignalprocessing,数字信号处理)、fpga(field-programmablegatearray,现场可编程门阵列)、pla(programmablelogicarray,可编程逻辑阵列)中的至少一种硬件形式来实现。处理器501也可以包括主处理器和协处理器,主处理器是用于对在唤醒状态下的数据进行处理的处理器,也称cpu(centralprocessingunit,中央处理器);协处理器是用于对在待机状态下的数据进行处理的低功耗处理器。在一些实施例中,处理器501可以在集成有gpu(graphicsprocessingunit,图像处理器),gpu用于负责显示屏所需要显示的内容的渲染和绘制。一些实施例中,处理器501还可以包括ai(artificialintelligence,人工智能)处理器,该ai处理器用于处理有关机器学习的计算操作。

存储器502可以包括一个或多个计算机可读存储介质,该计算机可读存储介质可以是非暂态的。存储器502还可包括高速随机存取存储器,以及非易失性存储器,比如一个或多个磁盘存储设备、闪存存储设备。在一些实施例中,存储器502中的非暂态的计算机可读存储介质用于存储至少一个指令,该至少一个指令用于被处理器501所执行以实现本申请中方法实施例提供的音频处理方法。

在一些实施例中,终端500还可选包括有:外围设备接口503和至少一个外围设备。处理器501、存储器502和外围设备接口503之间可以通过总线或信号线相连。各个外围设备可以通过总线、信号线或电路板与外围设备接口503相连。具体地,外围设备包括:射频电路504、触摸显示屏505、摄像头506、音频电路507、定位组件508和电源509中的至少一种。

外围设备接口503可被用于将i/o(input/output,输入/输出)相关的至少一个外围设备连接到处理器501和存储器502。在一些实施例中,处理器501、存储器502和外围设备接口503被集成在同一芯片或电路板上;在一些其他实施例中,处理器501、存储器502和外围设备接口503中的任意一个或两个可以在单独的芯片或电路板上实现,本实施例对此不加以限定。

射频电路504用于接收和发射rf(radiofrequency,射频)信号,也称电磁信号。射频电路504通过电磁信号与通信网络以及其他通信设备进行通信。射频电路504将电信号转换为电磁信号进行发送,或者,将接收到的电磁信号转换为电信号。可选地,射频电路504包括:天线系统、rf收发器、一个或多个放大器、调谐器、振荡器、数字信号处理器、编解码芯片组、用户身份模块卡等等。射频电路504可以通过至少一种无线通信协议来与其它终端进行通信。该无线通信协议包括但不限于:万维网、城域网、内联网、各代移动通信网络(2g、3g、4g及5g)、无线局域网和/或wifi(wirelessfidelity,无线保真)网络。在一些实施例中,射频电路504还可以包括nfc(nearfieldcommunication,近距离无线通信)有关的电路,本申请对此不加以限定。

显示屏505用于显示ui(userinterface,用户界面)。该ui可以包括图形、文本、图标、视频及其它们的任意组合。当显示屏505是触摸显示屏时,显示屏505还具有采集在显示屏505的表面或表面上方的触摸信号的能力。该触摸信号可以作为控制信号输入至处理器501进行处理。此时,显示屏505还可以用于提供虚拟按钮和/或虚拟键盘,也称软按钮和/或软键盘。在一些实施例中,显示屏505可以为一个,设置终端500的前面板;在另一些实施例中,显示屏505可以为至少两个,分别设置在终端500的不同表面或呈折叠设计;在再一些实施例中,显示屏505可以是柔性显示屏,设置在终端500的弯曲表面上或折叠面上。甚至,显示屏505还可以设置成非矩形的不规则图形,也即异形屏。显示屏505可以采用lcd(liquidcrystaldisplay,液晶显示屏)、oled(organiclight-emittingdiode,有机发光二极管)等材质制备。

摄像头组件506用于采集图像或视频。可选地,摄像头组件506包括前置摄像头和后置摄像头。通常,前置摄像头设置在终端的前面板,后置摄像头设置在终端的背面。在一些实施例中,后置摄像头为至少两个,分别为主摄像头、景深摄像头、广角摄像头、长焦摄像头中的任意一种,以实现主摄像头和景深摄像头融合实现背景虚化功能、主摄像头和广角摄像头融合实现全景拍摄以及vr(virtualreality,虚拟现实)拍摄功能或者其它融合拍摄功能。在一些实施例中,摄像头组件506还可以包括闪光灯。闪光灯可以是单色温闪光灯,也可以是双色温闪光灯。双色温闪光灯是指暖光闪光灯和冷光闪光灯的组合,可以用于不同色温下的光线补偿。

音频电路507可以包括麦克风和扬声器。麦克风用于采集用户及环境的声波,并将声波转换为电信号输入至处理器501进行处理,或者输入至射频电路504以实现语音通信。出于立体声采集或降噪的目的,麦克风可以为多个,分别设置在终端500的不同部位。麦克风还可以是阵列麦克风或全向采集型麦克风。扬声器则用于将来自处理器501或射频电路504的电信号转换为声波。扬声器可以是传统的薄膜扬声器,也可以是压电陶瓷扬声器。当扬声器是压电陶瓷扬声器时,不仅可以将电信号转换为人类可听见的声波,也可以将电信号转换为人类听不见的声波以进行测距等用途。在一些实施例中,音频电路507还可以包括耳机插孔。

定位组件508用于定位终端500的当前地理位置,以实现导航或lbs(locationbasedservice,基于位置的服务)。定位组件508可以是基于美国的gps(globalpositioningsystem,全球定位系统)、中国的北斗系统或俄罗斯的伽利略系统的定位组件。

电源509用于为终端500中的各个组件进行供电。电源509可以是交流电、直流电、一次性电池或可充电电池。当电源509包括可充电电池时,该可充电电池可以是有线充电电池或无线充电电池。有线充电电池是通过有线线路充电的电池,无线充电电池是通过无线线圈充电的电池。该可充电电池还可以用于支持快充技术。

在一些实施例中,终端500还包括有一个或多个传感器510。该一个或多个传感器510包括但不限于:加速度传感器511、陀螺仪传感器512、压力传感器513、指纹传感器514、光学传感器515以及接近传感器516。

加速度传感器511可以检测以终端500建立的坐标系的三个坐标轴上的加速度大小。比如,加速度传感器511可以用于检测重力加速度在三个坐标轴上的分量。处理器501可以根据加速度传感器511采集的重力加速度信号,控制触摸显示屏505以横向视图或纵向视图进行用户界面的显示。加速度传感器511还可以用于游戏或者用户的运动数据的采集。

陀螺仪传感器512可以检测终端500的机体方向及转动角度,陀螺仪传感器512可以与加速度传感器511协同采集用户对终端500的3d动作。处理器501根据陀螺仪传感器512采集的数据,可以实现如下功能:动作感应(比如根据用户的倾斜操作来改变ui)、拍摄时的图像稳定、游戏控制以及惯性导航。

压力传感器513可以设置在终端500的侧边框和/或触摸显示屏505的下层。当压力传感器513设置在终端500的侧边框时,可以检测用户对终端500的握持信号,由处理器501根据压力传感器513采集的握持信号进行左右手识别或快捷操作。当压力传感器513设置在触摸显示屏505的下层时,由处理器501根据用户对触摸显示屏505的压力操作,实现对ui界面上的可操作性控件进行控制。可操作性控件包括按钮控件、滚动条控件、图标控件、菜单控件中的至少一种。

指纹传感器514用于采集用户的指纹,由处理器501根据指纹传感器514采集到的指纹识别用户的身份,或者,由指纹传感器514根据采集到的指纹识别用户的身份。在识别出用户的身份为可信身份时,由处理器501授权该用户执行相关的敏感操作,该敏感操作包括解锁屏幕、查看加密信息、下载软件、支付及更改设置等。指纹传感器514可以被设置终端500的正面、背面或侧面。当终端500上设置有物理按键或厂商logo时,指纹传感器514可以与物理按键或厂商logo集成在一起。

光学传感器515用于采集环境光强度。在一个实施例中,处理器501可以根据光学传感器515采集的环境光强度,控制触摸显示屏505的显示亮度。具体地,当环境光强度较高时,调高触摸显示屏505的显示亮度;当环境光强度较低时,调低触摸显示屏505的显示亮度。在另一个实施例中,处理器501还可以根据光学传感器515采集的环境光强度,动态调整摄像头组件506的拍摄参数。

接近传感器516,也称距离传感器,通常设置在终端500的前面板。接近传感器516用于采集用户与终端500的正面之间的距离。在一个实施例中,当接近传感器516检测到用户与终端500的正面之间的距离逐渐变小时,由处理器501控制触摸显示屏505从亮屏状态切换为息屏状态;当接近传感器516检测到用户与终端500的正面之间的距离逐渐变大时,由处理器501控制触摸显示屏505从息屏状态切换为亮屏状态。

本领域技术人员可以理解,图5中示出的结构并不构成对终端500的限定,可以包括比图示更多或更少的组件,或者组合某些组件,或者采用不同的组件布置。

本申请实施例还提供了一种非临时性计算机可读存储介质,当所述存储介质中的指令由移动终端的处理器执行时,使得移动终端能够执行上述图1所示实施例提供的音频处理方法。

本申请实施例还提供了一种包含指令的计算机程序产品,当其在计算机上运行时,使得计算机执行上述图1所示实施例提供的音频处理方法。

本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成,也可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,上述提到的存储介质可以是只读存储器,磁盘或光盘等。

以上所述仅为本申请的较佳实施例,并不用以限制本申请,凡在本申请的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本申请的保护范围之内。

技术特征:

1.一种音频处理方法,其特征在于,所述方法包括:

获取多个音频采样频点对应的波束形成系数矩阵,获取到的多个波束形成系数矩阵是基于从麦克风阵列对应的圆形区域内选取的目标扇形区域确定的,所述圆形区域用于指代所述麦克风阵列的音频采集区域,所述多个波束形成系数矩阵用于控制在所述目标扇形区域指代的音频采集区域内采集的音频信号为静音状态;

分别确定所述麦克风阵列中每个麦克风采集的音频信号在所述多个音频采样频点下的频域信号;

将每个波束形成系数矩阵作为所述每个麦克风在对应音频采样频点下的频域信号的系数,对所确定的频域信号进行变换处理,得到目标音频信号。

2.如权利要求1所述的方法,其特征在于,所述方法还包括:

获取所述多个音频采样频点对应的预设阵列流形矩阵;

基于所述目标扇形区域,生成目标响应向量,所述目标响应向量包括与所述圆形区域内预先划分的k个单位扇形区域一一对应的k个响应数值,k为正整数,所述目标扇形区域不包括的单位扇形区域对应的响应数值为第一数值,所述目标扇形区域包括的单位扇形区域对应的响应数值为第二数值,所述第一数值用于表示非静音,所述第二数值用于表示静音;

基于所述目标响应向量和获取到的预设阵列流形矩阵,获取所述多个音频采样频点对应的波束形成系数矩阵。

3.如权利要求2所述的方法,其特征在于,所述基于所述目标响应向量和获取到的预设阵列流形矩阵,获取所述多个音频采样频点对应的波束形成系数矩阵,包括:

基于所述目标响应向量和获取到的预设阵列流形矩阵,通过指定公式,获取所述多个音频采样频点对应的波束形成系数矩阵,所述指定公式为:

其中,所述a(i)为第i个预设阵列流形矩阵,所述pd(θ)为所述目标响应向量,所述wi为第i个波束形成系数矩阵。

4.如权利要求1所述的方法,其特征在于,所述将每个波束形成系数矩阵作为所述每个麦克风在对应音频采样频点下的频域信号的系数,对所确定的频域信号进行变换处理,得到目标音频信号,包括:

对于所述多个音频采样频点中的每个音频采样频点,将所述每个麦克风采集的音频信号在所述音频采样频点下的频域信号进行组合,得到组合矩阵;

确定所述组合矩阵与所述音频采样频点对应的预设波束形成系数矩阵之间的乘积,得到所述麦克风阵列在所述音频采样频点下的频域信号;

对所述麦克风阵列在所述多个音频采样频点下的频域信号进行组合,并将组合后的频域信号进行傅里叶反变换处理,得到所述目标音频信号。

5.如权利要求1所述的方法,其特征在于,所述分别确定所述麦克风阵列中每个麦克风采集的音频信号在所述多个音频采样频点下的频域信号,包括:

分别对所述麦克风阵列中每个麦克风采集的音频信号进行分帧处理,得到所述每个麦克风采集的音频信号的分帧信号;

按照预设窗口大小,对所述每个麦克风采集的音频信号的分帧信号进行加窗处理,得到所述每个麦克风采集的音频信号的加窗信号;

基于所述多个音频采样频点,分别对所述每个麦克风采集的音频信号的加窗信号进行傅里叶变换处理,得到所述每个麦克风采集的音频信号在所述多个音频采样频点下的频域信号。

6.一种音频处理装置,其特征在于,所述装置包括:

获取模块,用于获取多个音频采样频点对应的波束形成系数矩阵,获取到的多个波束形成系数矩阵是基于从麦克风阵列对应的圆形区域内选取的目标扇形区域确定的,所述圆形区域用于指代所述麦克风阵列的音频采集区域,所述多个波束形成系数矩阵用于控制在所述目标扇形区域指代的音频采集区域内采集的音频信号为静音状态;

确定模块,用于分别确定所述麦克风阵列中每个麦克风采集的音频信号在所述多个音频采样频点下的频域信号;

处理模块,用于将每个波束形成系数矩阵作为所述每个麦克风在对应音频采样频点下的频域信号的系数,对所确定的频域信号进行变换处理,得到目标音频信号。

7.如权利要求6所述的装置,其特征在于,所述获取模块还用于:

获取所述多个音频采样频点对应的预设阵列流形矩阵;

基于所述目标扇形区域,生成目标响应向量,所述目标响应向量包括与所述圆形区域内预先划分的k个单位扇形区域一一对应的k个响应数值,k为正整数,所述目标扇形区域不包括的单位扇形区域对应的响应数值为第一数值,所述目标扇形区域包括的单位扇形区域对应的响应数值为第二数值,所述第一数值用于表示非静音,所述第二数值用于表示静音;

基于所述目标响应向量和获取到的预设阵列流形矩阵,获取所述多个音频采样频点对应的波束形成系数矩阵。

8.如权利要求7所述的装置,其特征在于,所述获取模块用于:

基于所述目标响应向量和获取到的预设阵列流形矩阵,通过指定公式,获取所述多个音频采样频点对应的波束形成系数矩阵,所述指定公式为:

其中,所述a(i)为第i个预设阵列流形矩阵,所述pd(θ)为所述目标响应向量,所述wi为第i个波束形成系数矩阵。

9.如权利要求6所述的装置,其特征在于,所述处理模块用于:

对于所述多个音频采样频点中的每个音频采样频点,将所述每个麦克风采集的音频信号在所述音频采样频点下的频域信号进行组合,得到组合矩阵;

确定所述组合矩阵与所述音频采样频点对应的预设波束形成系数矩阵之间的乘积,得到所述麦克风阵列在所述音频采样频点下的频域信号;

对所述麦克风阵列在所述多个音频采样频点下的频域信号进行组合,并将组合后的频域信号进行傅里叶反变换处理,得到所述目标音频信号。

10.如权利要求6所述的装置,其特征在于,所述确定模块用于:

分别对所述麦克风阵列中每个麦克风采集的音频信号进行分帧处理,得到所述每个麦克风采集的音频信号的分帧信号;

按照预设窗口大小,对所述每个麦克风采集的音频信号的分帧信号进行加窗处理,得到所述每个麦克风采集的音频信号的加窗信号;

基于所述多个音频采样频点,分别对所述每个麦克风采集的音频信号的加窗信号进行傅里叶变换处理,得到所述每个麦克风采集的音频信号在所述多个音频采样频点下的频域信号。

11.一种计算机可读存储介质,所述计算机可读存储介质上存储有指令,其特征在于,所述指令被处理器执行时实现权利要求1-5所述的任一项方法的步骤。

技术总结

本申请公开了一种音频处理方法、装置及存储介质,属于语音处理技术领域。该方法包括:获取多个音频采样频点对应的波束形成系数矩阵,获取到的多个波束形成系数矩阵是基于从麦克风阵列对应的圆形区域内选取的目标扇形区域确定的,多个波束形成系数矩阵用于控制在目标扇形区域指代的音频采集区域内采集的音频信号为静音状态,分别确定麦克风阵列中每个麦克风采集的音频信号在多个音频采样频点下的频域信号,将每个波束形成系数矩阵作为每个麦克风在对应音频采样频点下的频域信号的系数,对确定的频域信号进行变换处理,得到目标音频信号。本申请在不影响采集需求的音频信号的情况下,可以抑制掉需要静音的目标扇形区域的音频信号。

技术研发人员:钱能锋;陈扬坤;陈展

受保护的技术使用者:杭州海康威视数字技术股份有限公司

技术研发日:.08.03

技术公布日:.02.14

本内容不代表本网观点和政治立场,如有侵犯你的权益请联系我们处理。
网友评论
网友评论仅供其表达个人看法,并不表明网站立场。