位置:51电子网 » 技术资料 » 电源技术

CFW32C7UL AES分组算法的使用基准分类模型

发布时间:2020/11/12 13:03:47 访问次数:930

CFW32C7UL 系列的AES模块可完成标准AES加解密运算和AES-CM、AES-F8加密运算。标准AES算法即AES标准(FIPS-197)中规定的算法。AES-CM和AES-F8算法在The Secure Real-time Transport Protocol(SRTP)中有详细说明,这两种算法均以标准AES算法为基础,并对标准AES算法进行迭代运用。

AES模块中的标准AES算法除了支持CPU输入输出外,还支持DMA输入和DMA输出,而AES-CM、AES-F8只支持DMA输出。

CFW32C7UL AES分组算法的使用

开发模式一:裸机SDK,目前CFW32C7UL系列裸机SDK支持AES-CM, AES-F8,以及标准的AES加解密方式。其中AES-CM和AES-F8只支持加密,不支持解密。标准的AES方式支持加密和解密。

在 W_1 所在的内核里,内核宽内核高通道的全部像素需要与特征相乘,然后加总成一个输出像素。在同一层,每个权重内核共享同样的特征图。两个被打包的权重需要来自两个不同的权重内核。每一步中当权重内核滑移到特征图上时,对应的特征数据就需要与该权重内核相乘。一个 DSP48 块中的两个特征应来自同一特征图里的不同滑动窗口。

模型量化与性能仿真量化感知训练中使用的 CV 任务。这些任务包括图像分类、姿态估计、2D 检测、3D 检测、语义分割和多任务。

在完成 ImageNet 分类数据集上的实验后得到如下结果。网络包括 ResNet50-V1、ResNet50-V2。在所有实验中,数据集均从浮点模型进行微调。所有偏差参数都量化到 8 位。

基准分类模型的结果。它体现了这种方法的有效性。具体对 ResNet50V1 而言,4 位 XDPU 解决方案与 8 位 XDPU 解决方案在前 1 精度上的差距仅有 1.4%,在前 5 精度上的差距仅有 0.9%。

4 位激活参数和 4 位权重参数 (4A4W) 全流程硬件友好型量化解决方案可实现更优异的精度/资源权衡取舍。本白皮书介绍了在 Zynq® UltraScale+™ MPSoC 和 Zynq-7000 SoC 系列(16nm 和 28nm)上面向 CNN 4 位 XDPU 实现的低精度加速器。这种加速器通过高效地映射卷积计算,充分发挥其 DSP 功能。这种解决方案可提供优于 XDPU 两倍的解决方案级性能。

在 ADAS 系统中执行 2D 检测任务时,这种实现方案能够在 Zynq UltraScale+ MPSoC ZCU102 板上实现 230fps 的推断速度,与 8 位 XDPU 相比性能提高 1.52 倍。在用于 ADAS 系统中的不同任务时,该解决方案可实现媲美全精度模型的结果。

企业日益重视基于 AI 的系统在数据中心、汽车、工业和医疗等领域中的产品化。这带来了两大挑战:

AI 推断需要完成的计算量成数量级增加,同时还要保持价格、功耗、时延和尺寸大小不变。AI 科学家继续日复一日地在算法和模型上开展创新,需要各种不同的硬件架构提供最佳性能。

(素材来源:eepw.如涉版权请联系删除。特别感谢)

CFW32C7UL 系列的AES模块可完成标准AES加解密运算和AES-CM、AES-F8加密运算。标准AES算法即AES标准(FIPS-197)中规定的算法。AES-CM和AES-F8算法在The Secure Real-time Transport Protocol(SRTP)中有详细说明,这两种算法均以标准AES算法为基础,并对标准AES算法进行迭代运用。

AES模块中的标准AES算法除了支持CPU输入输出外,还支持DMA输入和DMA输出,而AES-CM、AES-F8只支持DMA输出。

CFW32C7UL AES分组算法的使用

开发模式一:裸机SDK,目前CFW32C7UL系列裸机SDK支持AES-CM, AES-F8,以及标准的AES加解密方式。其中AES-CM和AES-F8只支持加密,不支持解密。标准的AES方式支持加密和解密。

在 W_1 所在的内核里,内核宽内核高通道的全部像素需要与特征相乘,然后加总成一个输出像素。在同一层,每个权重内核共享同样的特征图。两个被打包的权重需要来自两个不同的权重内核。每一步中当权重内核滑移到特征图上时,对应的特征数据就需要与该权重内核相乘。一个 DSP48 块中的两个特征应来自同一特征图里的不同滑动窗口。

模型量化与性能仿真量化感知训练中使用的 CV 任务。这些任务包括图像分类、姿态估计、2D 检测、3D 检测、语义分割和多任务。

在完成 ImageNet 分类数据集上的实验后得到如下结果。网络包括 ResNet50-V1、ResNet50-V2。在所有实验中,数据集均从浮点模型进行微调。所有偏差参数都量化到 8 位。

基准分类模型的结果。它体现了这种方法的有效性。具体对 ResNet50V1 而言,4 位 XDPU 解决方案与 8 位 XDPU 解决方案在前 1 精度上的差距仅有 1.4%,在前 5 精度上的差距仅有 0.9%。

4 位激活参数和 4 位权重参数 (4A4W) 全流程硬件友好型量化解决方案可实现更优异的精度/资源权衡取舍。本白皮书介绍了在 Zynq® UltraScale+™ MPSoC 和 Zynq-7000 SoC 系列(16nm 和 28nm)上面向 CNN 4 位 XDPU 实现的低精度加速器。这种加速器通过高效地映射卷积计算,充分发挥其 DSP 功能。这种解决方案可提供优于 XDPU 两倍的解决方案级性能。

在 ADAS 系统中执行 2D 检测任务时,这种实现方案能够在 Zynq UltraScale+ MPSoC ZCU102 板上实现 230fps 的推断速度,与 8 位 XDPU 相比性能提高 1.52 倍。在用于 ADAS 系统中的不同任务时,该解决方案可实现媲美全精度模型的结果。

企业日益重视基于 AI 的系统在数据中心、汽车、工业和医疗等领域中的产品化。这带来了两大挑战:

AI 推断需要完成的计算量成数量级增加,同时还要保持价格、功耗、时延和尺寸大小不变。AI 科学家继续日复一日地在算法和模型上开展创新,需要各种不同的硬件架构提供最佳性能。

(素材来源:eepw.如涉版权请联系删除。特别感谢)

热门点击

 

推荐技术资料

Seeed Studio
    Seeed Studio绐我们的印象总是和绘画脱离不了... [详细]
版权所有:51dzw.COM
深圳服务热线:13692101218  13751165337
粤ICP备09112631号-6(miitbeian.gov.cn)
公网安备44030402000607
深圳市碧威特网络技术有限公司
付款方式


 复制成功!