低功耗、常开语音命令系统的设计注意事项
语音助手和集成正在被引入市场的大多数产品、设备和技术中。话虽如此,这些有用的语音助手总是在听激活/唤醒词(如“ok Google”或“Alexa”),这已经不是什么秘密了,这通常会使用大量的电量。在科技飞速发展的世界,必须考虑这对能源消耗的...
语音助手和集成正在被引入市场的大多数产品、设备和技术中。话虽如此,这些有用的语音助手总是在听激活/唤醒词(如“ok Google”或“Alexa”),这已经不是什么秘密了,这通常会使用大量的电量。在科技飞速发展的世界,必须考虑这对能源消耗的影响。
本文提供了使用语音活动检测(VAD)的低功耗、始终在线的语音命令系统的设计注意事项。它探讨了在选择创建易于使用、节能的语音用户界面(VUI)所需的组件时的权衡和考虑因素。
VAD功能在听到唤醒词之前检测环境中的人声,这意味着当没有人在家时,您的语音助手不会浪费不必要的能量。据估计,全球有42亿数字语音助手在使用,预计到2024年,这一数字将翻一番。将这项技术应用到语音助手软件和其他依赖语音集成的产品中,将大大降低使用语音助手的人的能耗。
有几种硬件架构用于实现VUI系统。通常,典型的语音用户界面实现由麦克风组成,单个麦克风或麦克风阵列连接到音频处理器以捕获和处理语音。
传入的音频流可以在边缘音频边缘处理器、内置音频边缘处理器的智能麦克风或标准应用处理器(AP)上进行处理。边缘音频处理器针对音频信号的低功耗和低延迟处理进行了优化。除了提供输入音频的专门处理之外,边缘音频处理器还可以用于后处理音频输出信号。如果VUI系统是云连接的,则音频边缘处理器还可以通过具有无线连接的主片上系统(SoC)与云VUI接口通信。本文介绍了VUI系统的两种不同实现方式及其各自的权衡。
超低功耗VAD(语音活动检测)
图1所示的架构支持使用模拟信号路径的超低功耗VUI,包括模拟麦克风和模拟比较器,以提供唤醒触发。当检测到声学活动时,模拟信号链产生中断以唤醒音频处理器以进行语音捕获。该设备还可以包括“按键通话”功能,用户可以通过按键唤醒音频处理器。
模拟唤醒麦克风必须始终监听环境,因此该麦克风和比较器必须消耗很少的功率。Knowles IA8201是一个高效音频处理器的示例,它在最简单的唤醒触发模式下功耗小于1mW,并且具有1MB的内存用于高级音频处理。虽然图1中所示的方法为遥控器和可穿戴设备等设备中的常开VUI提供了一种简单的低功耗AAD(声学活动检测)方法,但它有局限性。这种实现唤醒了音频处理器的任何声学信号,并可能导致在嘈杂情况下的高整体系统功耗。此外,云连接的语音用户接口系统需要捕获唤醒词之前一段时间的音频数据,以提高唤醒词检测的准确性。这通常被称为预滚动,是启用Alexa的设备和其他智能扬声器设备的必备要求。
图2显示了支持智能扬声器等设备的预滚缓冲的体系结构。这些设备通常具有更大的电池和/或可能不需要单次充电的电池寿命长达几个月。VUI系统始终处于打开状态,聆听环境并在循环缓冲区中记录预滚。预滚的长度通常为500毫秒的音频数据数量级,用于校准环境噪声水平。
有几种不同的方法来设计始终在线的前端架构。音频处理器的选择取决于使用的麦克风数量,以及它们是模拟还是数字。
上述架构使用Knowles IA611进行语音活动检测,SPH0655LM4H-1 Cornell II数字麦克风进行波束形成,Knowles IA8201进行音频处理。Knowles IA611是一款智能麦克风,为系统设计师提供了以下部分所述的好处。
麦克风选择
对于图1所示的架构,单个模拟麦克风和比较器用作触发输入,以在检测到声学活动时唤醒音频处理器。尾流麦克风应为低功率模拟麦克风,其信噪比(SNR)最好高于62dB。Knowles SiSonic MEMS话筒组合为尾流话筒提供了多种选择。例如,SPV1840LR5H-B Kaskade模拟麦克风是一个很好的选择,在开启时仅消耗45µa。包括麦克风、放大器和比较器在内的常开模拟路径消耗的电流小于67µa。市场上有压电麦克风,其功率非常低(10µA),但通常SNR较低,这会影响系统性能。
对于图2所示的具有滚动前缓冲功能的架构,具有嵌入式音频处理器和足够内存的麦克风(如Knowles IA611)可以在2秒的循环缓冲区中连续捕获语音数据,是始终在线语音活动检测的可行选择。它还附带了一个移植语音触发器和命令的生态系统,例如亚马逊的Alexa。当检测到关键字时,预滚缓冲区和发出的语音音频都被发送到云自动语音识别(ASR)引擎。IA611始终处于开启状态,语音唤醒功率为0.39 mA,电池为1.8V,效率为90%,是电池供电设备(如蓝牙扬声器)语音用户界面的理想选择。该设备还接受来自数字麦克风的PDM输入,并可用于在系统唤醒后通过音频在主机BT SoC处理器上支持波束形成。
虽然对于预滚应用来说,这种始终开启的电源是可以接受的,但对于图1所示的非预滚架构,也值得考虑。如前所述,模拟唤醒麦克风将触发任何传入的声音并打开音频处理器。这在嘈杂的环境中是有问题的,例如当电视打开时,会有许多虚假的尾迹,从而导致严重的功率浪费。如果使用语音活动检测而不是低功耗模拟唤醒麦克风,系统将仅在检测到关键字时打开。在嘈杂的环境中,使用语音活动检测麦克风可能比简单的模拟唤醒麦克风更有效,这是合乎逻辑的。
图3显示了模拟数据,该数据比较了在IA611上使用VAD的典型电视遥控器与竞争压电低功率AAD麦克风和音频处理器在声学活动开启时间的不同持续时间下的电池寿命天数。当电视或其他家用电器打开时,或在其他情况下出现咿呀声等时,会出现声音活动。如图3所示,大约3小时时会出现一个交叉点,因此,在竞争对手的麦克风上使用模拟AAD与在IA611上使用语音活动检测相比,功率优势消失了。
在五小时的声学活动开启时间内,语音活动检测解决方案比基于AAD的竞争解决方案提供了八天的额外电池寿命。根据尼尔森2017年发表的一项研究,为了说明这一优势,美国成年人每天看近8小时的电视。随着对智能电视、游戏机和其他多媒体设备等互联网连接设备的需求不断增加,美国普通家庭的声学活动时间可能也会继续增加。使用基于VAD的智能唤醒将有助于系统设计者开发更节能的VUI系统。
结论
从智能家居、酒店、数字工作场所、语音支付、智能能源管理、边缘语音和医疗保健,一直到改变工厂地板的工业物联网应用,语音为新技术增加了灵活性、效率、可持续性和接受度。
用于设计语音用户界面的各种硬件架构以及麦克风部分,根据终端设备的应用程序和设计者的偏好,每种硬件架构的需求略有不同;例如,支持Alexa的设备和智能扬声器需要具有预滚缓冲功能的架构。
重要的是,电子工程师和设计师应仔细评估终端设备将如何利用语音、他们希望访问的功能,并据此确定正确的架构和麦克风组件。

拉杰·森古图万 在消费和工业应用的新技术开发、早期业务开发以及Analog Devices和Texas Instruments等公司的项目管理方面拥有超过15年的经验。作为Knowles战略营销总监,他负责系统级开发、推动风险投资和合作伙伴关系,以及物联网和消费技术(包括音频处理器、算法、麦克风、传感器和接收器)的营销战略。Raj拥有康奈尔大学MBA学位和佐治亚理工学院电气工程博士学位。