带宽是提高AI加速性能的关键因素
发布时间:2020/5/21 20:55:03 访问次数:1744
MAX7300ATL提升内存访问带宽是提高AI加速性能的另一关键因素,因为FPGA与内存的数据交互在整个计算过程中占比很高,有时甚至超过了计算本身所消耗的时间。直接提高内存访问带宽的方法包括提高DDR位宽、增加传输所用的高速接口资源、提高DMA传输的时钟频率等。另外也可以通过复用FPGA芯片上的内存资源(RAM)以及计算和传输交叠执行(overlap)等方法,减少与外部DDR存储的交互,降低数据传输的开销。
两大关键技术实现四倍算力提升,FPGA中的计算主要依靠DSP实现,高效使用DSP是保证FPGA算力的关键。EdgeBoard FPGA中的DSP采用DSP48E2架构,包括一个27-bit的预加法器(pre-adder),一个27x18的乘法器(mult)和一个48-bit的ALU。
在EdgeBoard的FPGA设计中,充分利用DSP48E2本身的特点,采用supertile和INT8移位计算技术,实现了四倍算力提升。
Scale算子主要在图像预处理时使用,将输入图像每一个通道的全部像素点乘以该通道对应的scale值,然后加上bias。如果我们将dw-conv的卷积核大小设成1x1,行列stride都设置成1,pad设置成0,卷积核参数值设成scale,就可以通过dw-conv完成scale算子的功能。通过分析发现,batch-normalize,elementwise-mul和dropout等算子都可以通过scale算子来实现。
矩阵运算单元MPU负责实现convolution,完成3维输入图像(H x W x C)和4维卷积核(N x K1 x K2 x C)的乘加操作,单个卷积核的通道数和输入图像的通道数相同,而卷积核的数量N决定了输出的通道数,如图10所示。full connection 算子实现的1维输入数组(长度C)和2维权重(N x C)的乘加操作。将 full connection输入数组扩展成 H x W x C, 输出扩展成 N x K1 x K2 x C, 其中H, W, K1和K2均设置成1,这样 full connection就可以调用convolution来实现。另外,在计算 deconv 时,通过SDK对卷积核进行分拆、重排,就可以通过调用conv来实现deconv,同样带来了极大的收益。
应变式扭矩测量法的优点是结构简单、灵敏度高、适应性强、成本低廉、操作简便、技术成熟、应用范围广、测量精度高、响应速度快、性能稳定可靠、温度补偿性能好、能适应恶劣环境;其缺点是湿度、温度、粘结剂等因素都会影响到测量的准确度,而且抗干扰能力差,这种方法不适用于高速转轴的扭矩测量。
能量转换法是指根据能量守恒定律通过测量热能、电能等其它参数来间接测量扭矩,对电机的电压、电流、功率、转速等参数都能准确测量,并且扭矩测量时不需要额外的联轴器,降低了现场操作难度。
(素材来源:ttic和eechina.如涉版权请联系删除。特别感谢)
MAX7300ATL提升内存访问带宽是提高AI加速性能的另一关键因素,因为FPGA与内存的数据交互在整个计算过程中占比很高,有时甚至超过了计算本身所消耗的时间。直接提高内存访问带宽的方法包括提高DDR位宽、增加传输所用的高速接口资源、提高DMA传输的时钟频率等。另外也可以通过复用FPGA芯片上的内存资源(RAM)以及计算和传输交叠执行(overlap)等方法,减少与外部DDR存储的交互,降低数据传输的开销。
两大关键技术实现四倍算力提升,FPGA中的计算主要依靠DSP实现,高效使用DSP是保证FPGA算力的关键。EdgeBoard FPGA中的DSP采用DSP48E2架构,包括一个27-bit的预加法器(pre-adder),一个27x18的乘法器(mult)和一个48-bit的ALU。
在EdgeBoard的FPGA设计中,充分利用DSP48E2本身的特点,采用supertile和INT8移位计算技术,实现了四倍算力提升。
Scale算子主要在图像预处理时使用,将输入图像每一个通道的全部像素点乘以该通道对应的scale值,然后加上bias。如果我们将dw-conv的卷积核大小设成1x1,行列stride都设置成1,pad设置成0,卷积核参数值设成scale,就可以通过dw-conv完成scale算子的功能。通过分析发现,batch-normalize,elementwise-mul和dropout等算子都可以通过scale算子来实现。
矩阵运算单元MPU负责实现convolution,完成3维输入图像(H x W x C)和4维卷积核(N x K1 x K2 x C)的乘加操作,单个卷积核的通道数和输入图像的通道数相同,而卷积核的数量N决定了输出的通道数,如图10所示。full connection 算子实现的1维输入数组(长度C)和2维权重(N x C)的乘加操作。将 full connection输入数组扩展成 H x W x C, 输出扩展成 N x K1 x K2 x C, 其中H, W, K1和K2均设置成1,这样 full connection就可以调用convolution来实现。另外,在计算 deconv 时,通过SDK对卷积核进行分拆、重排,就可以通过调用conv来实现deconv,同样带来了极大的收益。
应变式扭矩测量法的优点是结构简单、灵敏度高、适应性强、成本低廉、操作简便、技术成熟、应用范围广、测量精度高、响应速度快、性能稳定可靠、温度补偿性能好、能适应恶劣环境;其缺点是湿度、温度、粘结剂等因素都会影响到测量的准确度,而且抗干扰能力差,这种方法不适用于高速转轴的扭矩测量。
能量转换法是指根据能量守恒定律通过测量热能、电能等其它参数来间接测量扭矩,对电机的电压、电流、功率、转速等参数都能准确测量,并且扭矩测量时不需要额外的联轴器,降低了现场操作难度。
(素材来源:ttic和eechina.如涉版权请联系删除。特别感谢)
上一篇:指数型运算比较耗资源
热门点击
- 磷酸铁锂电池充电管理芯片
- 同步门高转换器效率的驱动器
- 14兆瓦回放和录制低待机电流
- 高带宽的I/O接口和高带宽的存储器
- 并联硅快速恢复二极管
- 超小型电流输出型模拟照度传感器
- 微型钮子开关瞬时和持续电路闭合
- 晶体或陶瓷谐振器
- 宽SIMD可扩展处理器架构进行并行处理
- 高频连接器和低频连接器
推荐技术资料
- 循线机器人是机器人入门和
- 循线机器人是机器人入门和比赛最常用的控制方式,E48S... [详细]