带宽是提高AI加速性能的关键因素

发布时间:2020/5/21 20:55:03 访问次数:1750

MAX7300ATL提升内存访问带宽是提高AI加速性能的另一关键因素，因为FPGA与内存的数据交互在整个计算过程中占比很高，有时甚至超过了计算本身所消耗的时间。直接提高内存访问带宽的方法包括提高DDR位宽、增加传输所用的高速接口资源、提高DMA传输的时钟频率等。另外也可以通过复用FPGA芯片上的内存资源（RAM）以及计算和传输交叠执行(overlap)等方法，减少与外部DDR存储的交互，降低数据传输的开销。

两大关键技术实现四倍算力提升，FPGA中的计算主要依靠DSP实现，高效使用DSP是保证FPGA算力的关键。EdgeBoard FPGA中的DSP采用DSP48E2架构，包括一个27-bit的预加法器（pre-adder），一个27x18的乘法器（mult）和一个48-bit的ALU。

在EdgeBoard的FPGA设计中，充分利用DSP48E2本身的特点，采用supertile和INT8移位计算技术，实现了四倍算力提升。

Scale算子主要在图像预处理时使用，将输入图像每一个通道的全部像素点乘以该通道对应的scale值，然后加上bias。如果我们将dw-conv的卷积核大小设成1x1，行列stride都设置成1，pad设置成0，卷积核参数值设成scale，就可以通过dw-conv完成scale算子的功能。通过分析发现，batch-normalize，elementwise-mul和dropout等算子都可以通过scale算子来实现。

矩阵运算单元MPU负责实现convolution，完成3维输入图像（H x W x C）和4维卷积核（N x K1 x K2 x C）的乘加操作，单个卷积核的通道数和输入图像的通道数相同，而卷积核的数量N决定了输出的通道数，如图10所示。full connection 算子实现的1维输入数组（长度C）和2维权重（N x C）的乘加操作。将 full connection输入数组扩展成 H x W x C, 输出扩展成 N x K1 x K2 x C, 其中H, W, K1和K2均设置成1，这样 full connection就可以调用convolution来实现。另外，在计算 deconv 时，通过SDK对卷积核进行分拆、重排，就可以通过调用conv来实现deconv，同样带来了极大的收益。

应变式扭矩测量法的优点是结构简单、灵敏度高、适应性强、成本低廉、操作简便、技术成熟、应用范围广、测量精度高、响应速度快、性能稳定可靠、温度补偿性能好、能适应恶劣环境;其缺点是湿度、温度、粘结剂等因素都会影响到测量的准确度，而且抗干扰能力差，这种方法不适用于高速转轴的扭矩测量。

能量转换法是指根据能量守恒定律通过测量热能、电能等其它参数来间接测量扭矩，对电机的电压、电流、功率、转速等参数都能准确测量，并且扭矩测量时不需要额外的联轴器，降低了现场操作难度。

http://tyxdz.51dzw.com/

(素材来源：ttic和eechina.如涉版权请联系删除。特别感谢）

在EdgeBoard的FPGA设计中，充分利用DSP48E2本身的特点，采用supertile和INT8移位计算技术，实现了四倍算力提升。

http://tyxdz.51dzw.com/

(素材来源：ttic和eechina.如涉版权请联系删除。特别感谢）

上一篇：指数型运算比较耗资源

上一篇：可编程操作和控制自动和手动偏置校正控制

相关技术资料: 8-14RA Arm Cortex-M 微控制器应用描述; 8-14110V, 75A RMS集成分流器INA790A; 8-14微型C语言可编程处理器技术参数封装; 8-14iNEMO系统级封装 (SiP)6轴单片式解决方案; 8-14 首款 EVC 技术ST31N600芯片应用探究; 8-14嵌入式Flash技术制造ST54L芯片; 8-13第四代加 SuperGaN®常闭器件TP6; 8-13氮化镓高电子迁移率晶体管 (GaN HEMT); 8-13同步 Bank-Switchable 双端口 SRAM; 8-13模拟多路复用器技术规格参数; 8-13集成高性能 CM85 内核和大内存A8D1 MCU; 8-13RA 系列的 Arm 微控制器 (MCU)

相关IC型号: AD7225LNZ; UPD5200G-T2; 246-621; PM2329-BC-P; LCDA12.TE; N82S135A; AM7944JC/R; M51848; PT86C718A2; CXA1034

带宽是提高AI加速性能的关键因素

热门点击

推荐技术资料