位置:51电子网 » 技术资料 » 存 储 器

带宽是提高AI加速性能的关键因素

发布时间:2020/5/21 20:55:03 访问次数:1744

MAX7300ATL提升内存访问带宽是提高AI加速性能的另一关键因素,因为FPGA与内存的数据交互在整个计算过程中占比很高,有时甚至超过了计算本身所消耗的时间。直接提高内存访问带宽的方法包括提高DDR位宽、增加传输所用的高速接口资源、提高DMA传输的时钟频率等。另外也可以通过复用FPGA芯片上的内存资源(RAM)以及计算和传输交叠执行(overlap)等方法,减少与外部DDR存储的交互,降低数据传输的开销。

两大关键技术实现四倍算力提升,FPGA中的计算主要依靠DSP实现,高效使用DSP是保证FPGA算力的关键。EdgeBoard FPGA中的DSP采用DSP48E2架构,包括一个27-bit的预加法器(pre-adder),一个27x18的乘法器(mult)和一个48-bit的ALU。

在EdgeBoard的FPGA设计中,充分利用DSP48E2本身的特点,采用supertile和INT8移位计算技术,实现了四倍算力提升。

Scale算子主要在图像预处理时使用,将输入图像每一个通道的全部像素点乘以该通道对应的scale值,然后加上bias。如果我们将dw-conv的卷积核大小设成1x1,行列stride都设置成1,pad设置成0,卷积核参数值设成scale,就可以通过dw-conv完成scale算子的功能。通过分析发现,batch-normalize,elementwise-mul和dropout等算子都可以通过scale算子来实现。

矩阵运算单元MPU负责实现convolution,完成3维输入图像(H x W x C)和4维卷积核(N x K1 x K2 x C)的乘加操作,单个卷积核的通道数和输入图像的通道数相同,而卷积核的数量N决定了输出的通道数,如图10所示。full connection 算子实现的1维输入数组(长度C)和2维权重(N x C)的乘加操作。将 full connection输入数组扩展成 H x W x C, 输出扩展成 N x K1 x K2 x C, 其中H, W, K1和K2均设置成1,这样 full connection就可以调用convolution来实现。另外,在计算 deconv 时,通过SDK对卷积核进行分拆、重排,就可以通过调用conv来实现deconv,同样带来了极大的收益。

应变式扭矩测量法的优点是结构简单、灵敏度高、适应性强、成本低廉、操作简便、技术成熟、应用范围广、测量精度高、响应速度快、性能稳定可靠、温度补偿性能好、能适应恶劣环境;其缺点是湿度、温度、粘结剂等因素都会影响到测量的准确度,而且抗干扰能力差,这种方法不适用于高速转轴的扭矩测量。

能量转换法是指根据能量守恒定律通过测量热能、电能等其它参数来间接测量扭矩,对电机的电压、电流、功率、转速等参数都能准确测量,并且扭矩测量时不需要额外的联轴器,降低了现场操作难度。


http://tyxdz.51dzw.com/

(素材来源:ttic和eechina.如涉版权请联系删除。特别感谢)

MAX7300ATL提升内存访问带宽是提高AI加速性能的另一关键因素,因为FPGA与内存的数据交互在整个计算过程中占比很高,有时甚至超过了计算本身所消耗的时间。直接提高内存访问带宽的方法包括提高DDR位宽、增加传输所用的高速接口资源、提高DMA传输的时钟频率等。另外也可以通过复用FPGA芯片上的内存资源(RAM)以及计算和传输交叠执行(overlap)等方法,减少与外部DDR存储的交互,降低数据传输的开销。

两大关键技术实现四倍算力提升,FPGA中的计算主要依靠DSP实现,高效使用DSP是保证FPGA算力的关键。EdgeBoard FPGA中的DSP采用DSP48E2架构,包括一个27-bit的预加法器(pre-adder),一个27x18的乘法器(mult)和一个48-bit的ALU。

在EdgeBoard的FPGA设计中,充分利用DSP48E2本身的特点,采用supertile和INT8移位计算技术,实现了四倍算力提升。

Scale算子主要在图像预处理时使用,将输入图像每一个通道的全部像素点乘以该通道对应的scale值,然后加上bias。如果我们将dw-conv的卷积核大小设成1x1,行列stride都设置成1,pad设置成0,卷积核参数值设成scale,就可以通过dw-conv完成scale算子的功能。通过分析发现,batch-normalize,elementwise-mul和dropout等算子都可以通过scale算子来实现。

矩阵运算单元MPU负责实现convolution,完成3维输入图像(H x W x C)和4维卷积核(N x K1 x K2 x C)的乘加操作,单个卷积核的通道数和输入图像的通道数相同,而卷积核的数量N决定了输出的通道数,如图10所示。full connection 算子实现的1维输入数组(长度C)和2维权重(N x C)的乘加操作。将 full connection输入数组扩展成 H x W x C, 输出扩展成 N x K1 x K2 x C, 其中H, W, K1和K2均设置成1,这样 full connection就可以调用convolution来实现。另外,在计算 deconv 时,通过SDK对卷积核进行分拆、重排,就可以通过调用conv来实现deconv,同样带来了极大的收益。

应变式扭矩测量法的优点是结构简单、灵敏度高、适应性强、成本低廉、操作简便、技术成熟、应用范围广、测量精度高、响应速度快、性能稳定可靠、温度补偿性能好、能适应恶劣环境;其缺点是湿度、温度、粘结剂等因素都会影响到测量的准确度,而且抗干扰能力差,这种方法不适用于高速转轴的扭矩测量。

能量转换法是指根据能量守恒定律通过测量热能、电能等其它参数来间接测量扭矩,对电机的电压、电流、功率、转速等参数都能准确测量,并且扭矩测量时不需要额外的联轴器,降低了现场操作难度。


http://tyxdz.51dzw.com/

(素材来源:ttic和eechina.如涉版权请联系删除。特别感谢)

热门点击

 

推荐技术资料

循线机器人是机器人入门和
    循线机器人是机器人入门和比赛最常用的控制方式,E48S... [详细]
版权所有:51dzw.COM
深圳服务热线:13751165337  13692101218
粤ICP备09112631号-6(miitbeian.gov.cn)
公网安备44030402000607
深圳市碧威特网络技术有限公司
付款方式


 复制成功!