存储和算力矛盾日益“激化” 架构创新成AI安防“芯”唯一出路

存储和算力矛盾日益“激化” 架构创新成AI安防“芯”唯一出路

安防无疑是目前整个AI大板块当中最为火爆的一类应用场景(www.chainrank.cn)。鉴于其庞大的数据体量以及复杂多样的数据结构,加之越发智能化的分析模式,让如今的芯片技术在既需要对数据做高速计算的同时,也要随时快速的调用庞大的存储资源。

但随着芯片当中运算单元的增加,每个运算单元能够使用的存储器的带宽和大小却在逐渐减小,譬如安防领域如今很多的AI推理运算中,90%以上的运算资源几乎都消耗在数据搬运过程上,芯片内部到外部的带宽以及片上缓存空间限制了运算的效率。这也成为横亘在AI安防芯片技术与市场之间的障碍,如何通过架构的创新去突破现有桎梏,是当下一众AI安防芯片玩家们打出市场差异化的关键。

wKhk7l4FeCaAKDLMAACMl0yTTtg309.jpg

众所周知,如今的各种AI功能实现的背后,其核心的算法无疑都仰赖着一个个庞大而复杂的网络。通常,在算法运行的过程中,会有大量参数需要被存储,与此同时芯片也更要快速完成海量数据的计算,从而产生出更多新的数据,这在当下的安防应用场景可谓十分常见。对此,不少芯片厂商的设计思路基本都是通过增加并行的运算单元,例如上千个卷积单元,但这却会使得系统在有限的存储资源条件下需要调用更大的存储空间,让存储与算力之间的矛盾越发突出。

随着算法的发展和数据的变大,系统对存储带宽的要求也会越来越高,业内资深人士谢源表示:“无论是TPU、BPU,还是XPU,PU做得再快,数据还是在存储那里,所以我们需要把数据从内存搬到PU当中。但这个数据搬移过程需要的能量在整个计算中占非常大的比重,而且数据搬运的效率不会因为摩尔定律的发展而提高。”

“要突破芯片的瓶颈,并不能只是简单的往上累积算力,而是一定要把数据存储管理做好。”北京探境科技有限公司创始人兼CEO鲁勇这样认为。因为对于传统芯片来说,如今应用于以安防为代表的各类场景的AI芯片所带来的挑战,并不只是计算架构上的,更多是在存储架构间的。

毕竟,传统的芯片采用的是冯·诺依曼架构,其核心架构中的计算模块和存储单元是分离的,其中的CPU和内存并不集成在一起,只在CPU中设置了容量极小的高速缓存。这也意味着CPU在执行命令时必须先从存储单元中读取数据,谢源举例到,比如每一项任务如果有十个步骤,那么CPU会依次进行十次读取、执行、再读取、再执行,这就会造成,以及大量功耗花费在数据读取上。

更具体来看,北京知存科技有限公司CEO王绍迪表示:“当前,由于商用的神经网络非常庞大,一般都拥有数百万至数千万的权重参数,或者推理过程中需要完成几百万到上千万个乘加法运算。传统的计算系统需要将网络权重参数存在片外的非易失性存储器中,例如NAND Flash或NOR Flash。而运算过程中,又需要把部分需要的权重参数搬运到DRAM,再把小部分参数传入到芯片中的SRAM和eDRAM中,之后导入寄存器和运算单元完成运算。神经网络运算需要大面积SRAM和eDRAM来减少片内外数据搬运和提高运算效率,但是由于片上存储成本的限制,也需要高成本、高速度的DRAM来缓存片上无法容纳的权重参数和临时数据。”

这在现今的AI实际应用中,问题就会非常突出。事实上,如今大量AI芯片公司虽然都在采用不同的路径打造芯片,但归根究底都是在努力思考如何解决这一问题,且大部分针对AI加速神经网络处理而提出的硬件架构创新,实际上也都是在与这个问题做斗争。因此,如何在这个问题上走出不同的路径,并获得最受市场认可的成果,也是当前各AI安防芯片玩家致胜安防市场的差异化之道。

公司名称:衡水宜轩金属制品有限公司
主营产品:声屏障,防滑板,防风抑尘网,隔音屏,冲孔板