CFW32C7UL AES分组算法的使用基准分类模型
发布时间:2020/11/12 13:03:47 访问次数:930
CFW32C7UL 系列的AES模块可完成标准AES加解密运算和AES-CM、AES-F8加密运算。标准AES算法即AES标准(FIPS-197)中规定的算法。AES-CM和AES-F8算法在The Secure Real-time Transport Protocol(SRTP)中有详细说明,这两种算法均以标准AES算法为基础,并对标准AES算法进行迭代运用。
AES模块中的标准AES算法除了支持CPU输入输出外,还支持DMA输入和DMA输出,而AES-CM、AES-F8只支持DMA输出。
CFW32C7UL AES分组算法的使用
开发模式一:裸机SDK,目前CFW32C7UL系列裸机SDK支持AES-CM, AES-F8,以及标准的AES加解密方式。其中AES-CM和AES-F8只支持加密,不支持解密。标准的AES方式支持加密和解密。
在 W_1 所在的内核里,内核宽内核高通道的全部像素需要与特征相乘,然后加总成一个输出像素。在同一层,每个权重内核共享同样的特征图。两个被打包的权重需要来自两个不同的权重内核。每一步中当权重内核滑移到特征图上时,对应的特征数据就需要与该权重内核相乘。一个 DSP48 块中的两个特征应来自同一特征图里的不同滑动窗口。
模型量化与性能仿真量化感知训练中使用的 CV 任务。这些任务包括图像分类、姿态估计、2D 检测、3D 检测、语义分割和多任务。
在完成 ImageNet 分类数据集上的实验后得到如下结果。网络包括 ResNet50-V1、ResNet50-V2。在所有实验中,数据集均从浮点模型进行微调。所有偏差参数都量化到 8 位。
基准分类模型的结果。它体现了这种方法的有效性。具体对 ResNet50V1 而言,4 位 XDPU 解决方案与 8 位 XDPU 解决方案在前 1 精度上的差距仅有 1.4%,在前 5 精度上的差距仅有 0.9%。
4 位激活参数和 4 位权重参数 (4A4W) 全流程硬件友好型量化解决方案可实现更优异的精度/资源权衡取舍。本白皮书介绍了在 Zynq® UltraScale+™ MPSoC 和 Zynq-7000 SoC 系列(16nm 和 28nm)上面向 CNN 4 位 XDPU 实现的低精度加速器。这种加速器通过高效地映射卷积计算,充分发挥其 DSP 功能。这种解决方案可提供优于 XDPU 两倍的解决方案级性能。
在 ADAS 系统中执行 2D 检测任务时,这种实现方案能够在 Zynq UltraScale+ MPSoC ZCU102 板上实现 230fps 的推断速度,与 8 位 XDPU 相比性能提高 1.52 倍。在用于 ADAS 系统中的不同任务时,该解决方案可实现媲美全精度模型的结果。
企业日益重视基于 AI 的系统在数据中心、汽车、工业和医疗等领域中的产品化。这带来了两大挑战:
AI 推断需要完成的计算量成数量级增加,同时还要保持价格、功耗、时延和尺寸大小不变。AI 科学家继续日复一日地在算法和模型上开展创新,需要各种不同的硬件架构提供最佳性能。

CFW32C7UL 系列的AES模块可完成标准AES加解密运算和AES-CM、AES-F8加密运算。标准AES算法即AES标准(FIPS-197)中规定的算法。AES-CM和AES-F8算法在The Secure Real-time Transport Protocol(SRTP)中有详细说明,这两种算法均以标准AES算法为基础,并对标准AES算法进行迭代运用。
AES模块中的标准AES算法除了支持CPU输入输出外,还支持DMA输入和DMA输出,而AES-CM、AES-F8只支持DMA输出。
CFW32C7UL AES分组算法的使用
开发模式一:裸机SDK,目前CFW32C7UL系列裸机SDK支持AES-CM, AES-F8,以及标准的AES加解密方式。其中AES-CM和AES-F8只支持加密,不支持解密。标准的AES方式支持加密和解密。
在 W_1 所在的内核里,内核宽内核高通道的全部像素需要与特征相乘,然后加总成一个输出像素。在同一层,每个权重内核共享同样的特征图。两个被打包的权重需要来自两个不同的权重内核。每一步中当权重内核滑移到特征图上时,对应的特征数据就需要与该权重内核相乘。一个 DSP48 块中的两个特征应来自同一特征图里的不同滑动窗口。
模型量化与性能仿真量化感知训练中使用的 CV 任务。这些任务包括图像分类、姿态估计、2D 检测、3D 检测、语义分割和多任务。
在完成 ImageNet 分类数据集上的实验后得到如下结果。网络包括 ResNet50-V1、ResNet50-V2。在所有实验中,数据集均从浮点模型进行微调。所有偏差参数都量化到 8 位。
基准分类模型的结果。它体现了这种方法的有效性。具体对 ResNet50V1 而言,4 位 XDPU 解决方案与 8 位 XDPU 解决方案在前 1 精度上的差距仅有 1.4%,在前 5 精度上的差距仅有 0.9%。
4 位激活参数和 4 位权重参数 (4A4W) 全流程硬件友好型量化解决方案可实现更优异的精度/资源权衡取舍。本白皮书介绍了在 Zynq® UltraScale+™ MPSoC 和 Zynq-7000 SoC 系列(16nm 和 28nm)上面向 CNN 4 位 XDPU 实现的低精度加速器。这种加速器通过高效地映射卷积计算,充分发挥其 DSP 功能。这种解决方案可提供优于 XDPU 两倍的解决方案级性能。
在 ADAS 系统中执行 2D 检测任务时,这种实现方案能够在 Zynq UltraScale+ MPSoC ZCU102 板上实现 230fps 的推断速度,与 8 位 XDPU 相比性能提高 1.52 倍。在用于 ADAS 系统中的不同任务时,该解决方案可实现媲美全精度模型的结果。
企业日益重视基于 AI 的系统在数据中心、汽车、工业和医疗等领域中的产品化。这带来了两大挑战:
AI 推断需要完成的计算量成数量级增加,同时还要保持价格、功耗、时延和尺寸大小不变。AI 科学家继续日复一日地在算法和模型上开展创新,需要各种不同的硬件架构提供最佳性能。
