第一句子网 - 唯美句子、句子迷、好句子大全
第一句子网 > AI芯片与离线语音交互

AI芯片与离线语音交互

时间:2020-02-26 14:22:10

相关推荐

AI芯片与离线语音交互

什么是离线语音交互

离线语音交互是指在没有互联网连接的情况下,通过本地设备(如手机、智能音箱等)的语音识别和语音合成技术,实现人机交互。用户可以通过语音指令控制设备进行操作,例如播放音乐、查询天气、设置闹钟等。相比在线方案,离线语音交互不依赖于网络环境,一次你更加稳定、响应更快,但因为需要在端侧芯片上运行对应的AI算法,对芯片的性能、能耗等方面也提出了更高的要求。

支持离线语音交互的芯片需要有什么特性

因为离线语音交互场景所需,这类芯片一般具备高性能、低功耗、多模态、接口开放等特点,以CSK6芯片为例,在作为离线语音交互方案中的处理核心时,为让最终产品保证在多种用户场景中的较高产品力,一般需要具备以下能力:

语音唤醒(含方言唤醒)语音识别回声消除麦克风阵列麦克风自动增益自动EQ声源定位环境感知声纹识别离线自由说环境降噪

端侧关键技术

多通道端到端

在语音识别技术中,传统的语音识别系统通常由多个模块组成,包括声学模型、语言模型和发音词典等。这些模块通常需要单独进行训练和优化,并且需要进行大量的工程设计和参数调整。 而端到端则采用了一种全新的方法,将整个语音识别过程看作一个黑盒子,直接从语音信号到文本输出,不需要任何人工设计的模块和中间过程。这种方法可以大大简化语音识别系统的设计和实现,提高语音识别的效率和精度。这种方法不仅可以避免传统语音识别系统中的错误传递问题,还可以减少训练和测试的时间和工作量。

以CSK芯片的离线交互能力为例,采用多通道端到端语音技术的情况下,融合传统信号处理和深度神经网络,可以减小系统设计复杂度,降低运算负荷,语音性能提高4%,实现综合唤醒率 ≥95%综合识别率 ≥90%

离线自由说

离线自由说是指在不需要联网的情况下,用户可以通过非指定的语音指令与设备进行交互,用户不需要去记忆命令词,使用户可以更加自然、无压力地与设备交互。离线自由说技术需要在设备本地集成语音识别引擎,并且需要在设备上存储大量的语音数据和模型,以实现离线语音识别的功能。通常,这种技术需要具备较高的语音识别精度和处理能力。

以CSK6芯片为例,采用聆思自研的端到端技术方案,实现语义和识别同时分类,离线稳定,交互流畅,命令词由200词提升到5W+,在模拟家居环境3m10dB条件下,可以达到以下性能:

意图正确率≥90%意图串扰率≤4%支持自由说条数 ≥5万识别响应时间 ≤800ms

离线语音交互的典型应用场景与特点

环境特点

普遍在家居场景中使用,如卧室和客厅放置沙发、桌子、床等家居物品,容易造成声音反射,中小混响时间

噪声特点

噪声来源复杂,如阳台噪、电视噪、人声对话噪等日夜噪声环境差异明显

常见应用

电风扇、水吧台、吸顶灯、晾衣架、空调、洗衣机、冰箱、热水器、浴霸

本内容不代表本网观点和政治立场,如有侵犯你的权益请联系我们处理。
网友评论
网友评论仅供其表达个人看法,并不表明网站立场。