本文描述了如何利用麦克风数据的物理特性来构建声学神经网络,以提取与此类分类任务相关的信息,并将展示如何使用Qeexo AutoML执行声音识别,并解释我们的特征堆栈的一些基本概念。ST产品组合包括麦克风和相关平台,这些平台能够捕获可在轻量级设备上执行的各种分类任务所需的信息。

目录
 

  1. 为什么执行声音识别很重要?
  2. STWIN和Qeexo ML的声音识别:项目描述
  3. 传感器配置和项目实施
  4. 参数配置
  5. 结论
  6. 关于生活!


 

为什么执行声音识别很重要?

声音识别是一种基于传统模式识别理论和信号分析方法的技术,广泛应用于语音识别、音乐识别和声学海洋学等许多研究领域。通常,麦克风被视为这些领域内机器学习方法的足够的传感模态输入。麦克风能够捕获可在轻型设备上执行的各种分类任务所需的信息。
 

STWinKT1B和Qeexo ML的声音识别:项目描述

ST产品组合提供了几个安装最新MEMS麦克风的平台,如数字麦克风MP23DB01HP和模拟麦克风MP23ABS1,它们还可以采集高达80kHz的超声波信号。有了这种类型的传感器,平台Qeexo AutoML提供了一个多样化的特征堆栈,利用麦克风数据的物理特性来提取与此类分类任务相关的信息。它为想要在嵌入式设备上执行声音识别或任何其他分类任务的工程师提供了一个通用的用户友好界面。本文将向您展示如何使用Qeexo AutoML执行声音识别,并解释我们的功能堆栈的一些基本概念:这里讨论的过程不是特定于声音识别的,而是专门适用于它的,我们将使用STEVAL-STWINKT1B是一个开发套件和参考设计,它简化了先进工业物联网应用程序的原型设计和测试,如状态监测和预测性维护。您可以在此处查看如何配置它。
 

传感器配置和项目实施

要开始,请导航到培训页面,然后选择(或上传)要用于为嵌入式设备构建模型的标记培训数据。在传感器选择页面中,您可以选择麦克风传感器,以选择收集的数据,如下所示:

如果您想使用额外的传感器模态或试验特征子组,也可以使用自动传感器和特征组选择。如果选择了此选项,该工具将自动选择使类最不同的传感器和特征组。
在“推断设置”页面中,您可以手动设置实例长度和分类间隔,或者让工具通过选择“自动确定”来确定它们,如下所示。
 

 

虽然这个过程在设计上非常简单,但一些选择的细节可能显得模棱两可。我们将在这里重点介绍一些适用于声音识别的功能选择。
 

参数配置

快速傅立叶变换

时域中的信号对于人类和计算机来说都很难在相似的声源之间进行区分。变换原始声音数据的最流行的方法之一是快速傅立叶变换(FFT)。由于嵌入式设备的限制,FFT是一种有效的频率分解技术。流程如下图所示。

 
对于不同的类别,对于给定的频率仓,信号的幅度不同。例如,在下面的四张图片中,用不同的乐器产生的声音在0-800Hz的频率之间具有不同的幅度分布;即使存在高达2000Hz的差异。
 

通常的做法是,音频AI训练方法会利用该范围内增加的类可分性,通过模型训练来训练模型。最新的音频AI过程,以及Qeexo AutoML工具,不仅在训练模型时使用所有FFT系数作为输入,而且实际上聚合系数以创建复杂的特征。具体分组可以在模型选择过程中手工挑选,以适应实施约束。要选择功能组,只需选中手动功能选择页面中的复选框,如下所示。
 

 

梅尔频率倒谱系数

与FFT分析一起,声音识别最常用的特征之一是梅尔频率倒谱系数(MFCC)。原因是人类对不同频率范围的反应不同。作为一个物种,我们更有能力分辨50赫兹和100赫兹信号之间的频率差异,而不是100赫兹和10100赫兹之间的频率。换句话说,我们真的不善于区分高音(我们的耳朵以“对数”的方式检测声音)。因此,在想要复制由人类执行的任务的情况下,例如语音分离,频率较低时的差异是最重要的。信号特性的值随着频率的增加而减小。Mel尺度是通过对低频内容给予更多的重视而对高频内容给予更少的重视而形成的。将频率转换为梅尔分数的公式为:

我们建立了一个包含许多三角形滤波器的滤波器组,并将它们应用于我们的FFT特征,以再次重新缩放信号,并将其转换为相应的Mel尺度。在下面显示的Mel声谱图中,我们可以看到不同类别的Mel谱图似乎有很多差异,这使它们成为训练分类器的理想输入。
 

 

Qeexo AutoML还提供由MFCC的系数生成的特征,这些特征可以从上面显示的手动选择器中选择。如果需要,您可以通过单击传感器选择页面和特征组选择页面中显示的可视化按钮,通过UMAP图可视化所选特征。

基于这一讨论,很明显,MFCC特征将很好地用于涉及人类语音的任务。根据任务的不同,如果包括这些MFCC特征与人类听觉不具有相似性,则可能是不利的。然而,当启用自动选择时,Qeexo AutoML会执行自动特征缩减,因此在训练模型时,这不需要成为一个积极的问题。如果MFCC特征对于任务来说不是高度可分离的,假设提供了足够的数据,则在此过程中,它们将从最终模型中删除。
 

结论

Qeexo AutoML不仅提供了模型构建功能,还提供了训练模型的细节。我们提供评估指标,如混淆矩阵、折叠交叉验证、ROC曲线,甚至支持下载经过训练的模型在其他地方进行测试。如前所述,我们支持但不限于使用麦克风传感器进行声音识别。您可以自由选择任何其他提供的传感器,如加速度计和陀螺仪。如果这些额外的传感器不能提高模型性能,那么通过自动传感器选择过程,它们将不会被包括在最终的设备库中。
 

关于生活!

最后,在“模型设置”页面中,您可以选择算法,选择是否生成学习曲线和/或执行超参数调整,然后单击“开始训练”按钮开始。培训完成后,将生成一个二进制文件,并可通过单击“Push to Hardware”按钮将其闪存到设备中。一旦过程完成,您就可以对构建的模型执行实时测试,如本视频所示。享受

 
请参阅合作伙伴页面-->https://qeexo.com/
请参阅参考文章-->https://qeexo.com/sound-recognition-with-qeexo-automl/