重新发现模拟计算,实现有效的边缘AI性能
人工智能需要比当前的数字方法提高100-1000倍的性能,而内存中的模拟计算系统提供了唯一可行的前进道路。 自20世纪60年代以来,模拟计算在商业应用中的部署很少,只能用于军事应用和利基工业用例。尽管几十年来数字计算的进步主导了商业应用,但...
自20世纪60年代以来,模拟计算在商业应用中的部署很少,只能用于军事应用和利基工业用例。尽管几十年来数字计算的进步主导了商业应用,但模拟计算的一些新进步表明潮流正在转向。随着边缘人工智能应用的计算需求呈指数级增长,数字系统正努力跟上。很明显,扩展数字计算的传统方法——即转向更先进的半导体工艺节点——正在达到物理学的极限(即摩尔定律已经失效),而不断上升的制造成本将这项技术限制在少数最富有的公司。下一代人工智能处理需要新的方法。与数字系统相比,模拟计算在成本和功率方面已被证明具有10倍的优势,而且差距只会继续扩大。
在深入研究模拟系统与数字系统在人工智能时代的可行性之前,让我们看看人工智能硬件的两个关键因素:可扩展性和可访问性。人工智能算法的权重可能会有很大差异;图像识别等计算机视觉任务的权重可能为5M至100M,而自然语言处理的权重为500M至100B。随着人工智能算法变得更加复杂,这些数字将继续增加,因此人工智能硬件对于不同的应用程序具有可扩展性至关重要。当你想到可访问性时,人工智能硬件能够即时处理信息是至关重要的。延迟问题限制了用户体验,阻碍了生产力,并对某些应用程序带来严重的安全风险。
(来源:神话)
现代数字系统基于冯·诺依曼体系结构,这是一个最初于1945年引入的计算概念。该体系结构指定了用于访问和存储数据的单独的数字计算逻辑单元和存储器单元。这被实现为CPU或GPU计算逻辑访问数字系统中的外部存储器,通常是DRAM。处理大型人工智能算法暴露了冯·诺依曼体系结构的一个显著弱点,即在边缘设备中进行实时人工智能处理期间,访问存储在外部DRAM中的权重进行逻辑处理。这一弱点造成了三个系统级问题。首先,访问外部内存会增加延迟,使内存带宽成为系统性能的瓶颈。其次,访问外部存储器会消耗大量电力。而且功耗只会随着系统性能要求的增加而增加。第三,BOM成本将增加,以适应性能更高的CPU和GPU、更快、更多的DRAM以及主动冷却系统,从而消散功耗带来的热量。
一种显示出很大前景的特定方法是内存中模拟计算(CIM),它将模拟计算与闪存等非易失性存储器(NVM)配对。模拟CIM系统可以利用令人印象深刻的闪存密度进行数据存储和计算。这意味着模拟CIM处理器可以在芯片上运行多个大型、复杂的深度神经网络(DNN),从而消除了对DRAM芯片的需求。这种方法完全消除了与Von Neumann人工智能处理系统相关的数字逻辑和外部存储器瓶颈、功耗以及BOM成本。
为什么选择NVM?
让我们仔细看看NVM的优势。NVM具有令人难以置信的密度和零功率保持,这意味着存储在每个单元中的权重将在不施加功率的情况下保持不变。模拟CIM方法允许NVM单元在NVM单元内存储和执行算术运算,这是通过以快速且节能的方式组合存储器组上的小电流来实现的.通过使用NVM存储器本身,计算可以立即完成。模拟CIM系统不需要使用能量来访问外部存储器中的权重,从而大幅减少了能量使用。
在模拟CIM系统中,快闪晶体管起到可变电阻器的作用,该可变电阻器与存储在存储器中的模拟值成比例地降低传递到输出的信号电平。然后,这种效应触发了DNN计算中的乘法阶段。在累积过程中,通过聚合整列存储器单元的输出来对来自这些计算中的每一个的输出求和。这种方法允许模拟CIM系统在一步中处理整个输入向量,而不像数字处理器那样被迫高速迭代。
模拟CIM的主要优点
在DRAM中保存大重量阵列的典型数字边缘推理实现可能具有10pJ的每次乘法累积能量(MAC),而模拟CIM方法可能将其降至0.5pJ。当你考虑到基于视觉的人工智能推理处理需要数万亿次MAC计算时,能量节省加起来很快。那么,为什么数字系统要消耗这么多能量呢?有两个原因。首先,乘法运算过程。数字系统将需要并行使用大量逻辑门来实现高吞吐量,并且随着数据分辨率的提高,这一数字将继续显著增长。其次,随着分辨率和视频帧速率的增加,访问存储在外部DRAM中的权重需要大量的能量。
此外,由于NVM闪存的高密度,可以使用单个闪存晶体管作为存储介质和计算设备,以及加法器(累加器)电路,可以实现非常紧凑的系统。这也意味着您可以节省外部DRAM及其相关组件的成本。
模拟CIM系统也具有成本优势,因为它们可以在成熟的半导体工艺节点中制造。一个额外的好处是,出血边缘节点通常具有有限的供应链可用性,而更成熟的流程节点更广泛地可用且具有成本效益。
另一个好处是模拟CIM系统提供了非常低的延迟。在NVM闪存单元内存储和处理意味着即时计算结果。数据通过处理器中的数字逻辑门和存储器传播并访问外部DRAM,不存在延迟问题。相反,大规模并行矩阵运算是在芯片上实时执行的。
模拟CIM系统非常适合视频分析应用,包括对象检测、分类、姿态估计、分割和深度估计。这些系统的高帧速率和采样速率需要高水平的计算吞吐量。虽然数字系统可以支持实时人工智能处理的基本要求,但这些系统体积很大,而且非常耗电。虽然主动冷却方法是可用的,但对于许多通常非常紧凑的边缘设备来说,它们是不可行的。许多数字系统使用的另一种解决方法是将深度学习工作转移到远程云服务器,因为这些数字系统无法满足边缘人工智能应用的能量和尺寸要求。问题是,将推理推到云端通常是不切实际的。高带宽通信并不总是可用的(想想无人机吧),将推理推到云端会导致显著的延迟,这使得这种选择对于实时应用来说是不可行的。
模拟系统在适应不断变化的环境条件方面也取得了长足的进步。在过去,环境噪声可能会略微改变处理结果。已经完成了对数字过程中的模拟和数字缓解电路的重大研究和开发,这将补偿现实应用中的环境噪声。
与数字系统相比,在显著简化MAC处理的同时,模拟CIM系统将需要额外的数字元件来执行经过充分训练的神经网络。例如,最好在数字逻辑中执行激活和池化等功能。例如,Mythic用单指令、多数据(SIMD)加速器单元、协调操作的RISC-V处理器、路由数据流量的片上网络(NoC)和保存数据的本地SRAM来补充其模拟CIM核心,使人工智能推理处理器能够独立执行完整的DNN模型。这种类型的系统是非常可扩展的,因为它将每个基于模拟CIM的内核、SIMD引擎和SRAM视为处理器中的独立瓦片。通过链接一个处理器或一个板上的多个处理器中的瓦片,系统可以确保输入、输出和中间数据元素有效地流动。
模拟CIM的主要市场
凭借模拟CIM系统令人难以置信的性能、功率和成本优势,我们将看到模拟CIM集成到各种边缘人工智能应用中,包括视频安全、工业机器视觉和自动化,以及自主机器人和无人机。
对于视频安全市场来说,边缘人工智能应用程序在保护人们的安全和帮助防止损失方面非常有用。考虑一下安全摄像头如何使用人工智能算法实时检测商店行窃事件,或者机场如何检测可疑物品无人看管的情况。带有模拟CIM的边缘人工智能应用程序不仅可以即时处理信息,还可以帮助保护人们的隐私。与需要将整个视频流发送到中央处理系统的传统系统不同,模拟CIM系统可以在边缘处理信息,因此只需要将安全事件的元数据发送到指挥中心。这有助于缓解监控对隐私的担忧,同时仍能保护公众。
在工业部门,对可用于质量控制和安全的计算机视觉应用程序的需求越来越大。模拟CIM系统可以在装配线上使用,以帮助实时识别缺陷和其他生产问题。在未来,我们还将越来越多地看到人工智能驱动的机器人与人类并肩工作,运输货物,执行重复和艰巨的任务。为了确保工人的安全,机器人需要在边缘实时处理信息——这是模拟CIM系统的完美用例。
最后,无人机是模拟CIM系统的另一个关键市场。尽管在过去几年里,人们对无人机大肆炒作,但主流计算方法无法满足无人机独特的性能和功率要求。由于数字系统非常耗电,这限制了无人机的飞行时间。此外,数字系统很难运行复杂的人工智能网络。通过将模拟CIM解决方案与数字系统结合使用,无人机可以处理多个大型、复杂的DNN,其功率仅为传统系统的一小部分。
为了充分发挥人工智能行业的潜力,需要比当前的数字化方法提高100-1000倍。由于数字系统的改进步伐已经放缓,模拟CIM系统提供了满足人工智能应用的功率、性能、成本和尺寸需求的唯一途径。未来,我们将看到模拟技术的更多进步,包括NAND闪存和RRAM中的模拟计算,以及将3D存储器技术与先进的芯片工艺相集成。我们期待着在未来几年看到模拟计算推动人工智能创新的新时代。
![]() |