强打运算效率优势 DSP抢食CNN应用商机

2017-04-28 集微网
分享到:

以DSP架构驱动的CNN引擎,在成本与功耗上皆具优势。 全球DSP核心主要供货商CEVA认为,若要在嵌入式系统中实现CNN,DSP将能取代GPU和CPU,因CNN在本质上,就十分适合运用DSP。 此外,CEVA也推出CDNN网络产生器,协助将训练完成的网络,配置到边缘运算装置中,同时为市场提供更形完善的低功耗嵌入式解决方案。
QQ截图20170417212100
CEVA汽车市场部门总监Jeff VanWashenova表示,DSP能有效地实现卷积神经网络(Convolutional Neural Network, CNN),是因为DSP的架构能够实现平行处理,且其为可充分运用的核心。 相较GPU只能达到40~50%的使用率,DSP可以达到90%以上的核心使用率。

VanWashenova进一步表示,与典型的混合式CPU/GPU的处理架构方案相比,建基于DSP架构的CNN引擎,能提供高达近三倍的性能。 而且,DSP引擎除了所需电源比GPU小30倍之外,所需的内存带宽,也只有约GPU的五分之一。 CNN算法,属于乘法和加法密集型(Multiply-accumulate, MAC),因此本质上十分适合运用DSP。 也就是说,若要在嵌入式系统中实现CNN,DSP不仅能够取代GPU和CPU,而且成本和功耗更低。

VanWashenova指出,当神经网络配置到现场进行「推断」时,CEVA拥有的优势便可充分发挥,这些优势不仅展现在处理方面,还在于可采用现有的网络,并可在嵌入式DSP上运行。 神经网络的训练过程是在大型运算平台上完成,并具有32位浮点精度。 然而,训练完成的网络,对于低功耗嵌入式解决方案来说通常太大,因此可运用CEVA的CDNN网络产生器,将网络转换成16位定点。 该工具不仅可缩小网络规模,还可优化该网络,以便在CEVA XM DSP和CDNN硬件加速器上运行。

这也是目前CEVA客户经常面临的问题,就是如何把一些在GPU这样大型且昂贵的运算器平台上所开发的网络,进行实际配置。 因为在大规模部署的产品中,功率、尺寸和效能都有所限制,与大型运算平台并不相同。

对AI而言,要求最严苛的领先市场就是汽车产业。 为了确保汽车应用的可靠性和性能,必须降低延迟,而且精度是至关重要的。 除此之外,汽车正在使用的摄影相机功能,从2百万像素(MP)到8百万像素,帧率通常在30fps或更高。 且往往是多个摄影相机一起使用,并有多个并行处理同时地进行。

VanWashenova指出,CEVA目前正与许多领先的一级汽车供货商和原始设备制造商合作,以确保透过硬件和软件两方面,皆能支持网络和拓朴结构。 在硬件方面,CEVA提供视觉和神经网络处理器和加速器(CEVA-XM、CDNN HWA),而软件方面则提供神经网络软件框架(CDNN2)。


×
官方微信