第一句子网 > AI芯片与离线语音交互

AI芯片与离线语音交互

时间：2020-02-26 14:22:10

相关推荐

AI芯片与离线语音交互

什么是离线语音交互

离线语音交互是指在没有互联网连接的情况下，通过本地设备（如手机、智能音箱等）的语音识别和语音合成技术，实现人机交互。用户可以通过语音指令控制设备进行操作，例如播放音乐、查询天气、设置闹钟等。相比在线方案，离线语音交互不依赖于网络环境，一次你更加稳定、响应更快，但因为需要在端侧芯片上运行对应的AI算法，对芯片的性能、能耗等方面也提出了更高的要求。

支持离线语音交互的芯片需要有什么特性

因为离线语音交互场景所需，这类芯片一般具备高性能、低功耗、多模态、接口开放等特点，以CSK6芯片为例，在作为离线语音交互方案中的处理核心时，为让最终产品保证在多种用户场景中的较高产品力，一般需要具备以下能力：

语音唤醒(含方言唤醒)语音识别回声消除麦克风阵列麦克风自动增益自动EQ声源定位环境感知声纹识别离线自由说环境降噪

端侧关键技术

多通道端到端

在语音识别技术中，传统的语音识别系统通常由多个模块组成，包括声学模型、语言模型和发音词典等。这些模块通常需要单独进行训练和优化，并且需要进行大量的工程设计和参数调整。而端到端则采用了一种全新的方法，将整个语音识别过程看作一个黑盒子，直接从语音信号到文本输出，不需要任何人工设计的模块和中间过程。这种方法可以大大简化语音识别系统的设计和实现，提高语音识别的效率和精度。这种方法不仅可以避免传统语音识别系统中的错误传递问题，还可以减少训练和测试的时间和工作量。

以CSK芯片的离线交互能力为例，采用多通道端到端语音技术的情况下，融合传统信号处理和深度神经网络，可以减小系统设计复杂度，降低运算负荷，语音性能提高4%，实现综合唤醒率 ≥95%，综合识别率 ≥90%。

离线自由说

离线自由说是指在不需要联网的情况下，用户可以通过非指定的语音指令与设备进行交互，用户不需要去记忆命令词，使用户可以更加自然、无压力地与设备交互。离线自由说技术需要在设备本地集成语音识别引擎，并且需要在设备上存储大量的语音数据和模型，以实现离线语音识别的功能。通常，这种技术需要具备较高的语音识别精度和处理能力。

以CSK6芯片为例，采用聆思自研的端到端技术方案，实现语义和识别同时分类，离线稳定，交互流畅，命令词由200词提升到5W+，在模拟家居环境3m10dB条件下，可以达到以下性能：

意图正确率≥90%意图串扰率≤4%支持自由说条数 ≥5万识别响应时间 ≤800ms