位置:51电子网 » 技术资料 » 存 储 器

指数型运算比较耗资源

发布时间:2020/5/21 20:51:50 访问次数:1652

MRA4007低功耗是绝大多数Nucleus RTOS用户的关键设计考量因素,这使得Mentor支持PolarFire SoC作为嵌入式计算平台成为必然。通过将Nucleus移植到PolarFire SoC,我们正帮助开发人员将Nucleus引入一系列更广泛的确定性应用程序,这些应用程序对可扩展性和卓越的可靠性都有具体的要求。

PolarFire SoC具备多种调试功能,包括来自Mi-V合作伙伴UltraSoC的指令跟踪和无源运行时可配置高级可扩展接口(AXI)总线监视器、50个断点、FPGA架构监视器和Microchip内置双通道逻辑分析仪SmartDebug。PolarFire SoC的架构具备可靠性和安全性功能,包括所有存储器上的单错误校正和双错误检测(SEC-DED)、物理存储器保护、抗差分功耗分析(DPA)加密核心、国防级安全启动和128 Kb闪存启动存储器等。

Mi-V合作伙伴Wind River、Mentor Graphics、WolfSSL、HexFive、Veridify、Digital Core和AdaCore将在RISC-V 峰会期间展示各款支持PolarFire SoC开发平台的解决方案。

指数激活运算单元EXP-ACT实现的基础是sigmoid,由于在FPGA中进行指数型运算比较耗资源,如何复用该计算单元就变得非常有意义。通过分析发现,可以把 tanh 和两通道softmax 转换成 sigmoid 的形式,这样一个指数运算单元就支持了3种算子,实现资源利用的最大化。

多算子融合

在推理时做BatchNorm运算非常耗时,通过SDK将BatchNorm+Scale的线性变换参数融合到卷积层,替换原来的weights和bias,这样4个算子可以融合成单个算子conv + batchnorm + scale + relu,对于dw-conv同样如此。相对于每计算完一个算子就将数据送回内存,这种算子融合大大减少了内存的读写操作,有效提高了处理帧率。

将scale、bias和relu为代表的激活函数层放到各算子之后的链路上,然后统一送到DMA传输模块,如图11所示。这不仅使得各算子复用了这些逻辑,节省了大量片内资源,也使得各算子都可以具备这些功能,且都能以最大带宽进行DMA传输。在实践中,我们将这些功能做成可选项,由软件根据当前网络算子的需要进行选择,在节省资源的同时,既保证了通用性,又兼顾了灵活性。

数据中心成功的要诀是:大规模提供尖端加速计算平台,从而使世界各地的开发者与解决方案提供商都能被覆盖到。在过去十年里,云计算已运用并行计算来提高性能,这种方法需要将求解过程分解成多个并行任务,以充分利用所有计算单元。以GPU 为代表的并行计算加速器,其中含有多达 2,000 个计算单元。我们不妨将它想象成一个塞满小黄人的小型棒球场,每个小黄人代表 100 万个逻辑门。一旦出现某个问题不支持所有小黄人同时并行工作完成求解,诸如 GPU 这样的并行计算加速器就会面临严重的性能局限。的确,一些类型的问题非常适合这种并行计算“小黄人”模式,但很多问题却并不适合。

例如压缩、视频编码、基因组分析和股票交易等任务,就不适合这种并行模式。这些任务更适合逻辑门方法与可编程芯片,即现场可编程门阵列( FPGA )。正因如此,Nimbix 近期率先在 Nimbix 云上面向开发者推出基于 FPGA 的 Alveo U50 加速器具有重要意义。

深圳市金嘉锐电子有限公司http://xczykj.51dzw.com/

(素材来源:ttic和eechina.如涉版权请联系删除。特别感谢)

MRA4007低功耗是绝大多数Nucleus RTOS用户的关键设计考量因素,这使得Mentor支持PolarFire SoC作为嵌入式计算平台成为必然。通过将Nucleus移植到PolarFire SoC,我们正帮助开发人员将Nucleus引入一系列更广泛的确定性应用程序,这些应用程序对可扩展性和卓越的可靠性都有具体的要求。

PolarFire SoC具备多种调试功能,包括来自Mi-V合作伙伴UltraSoC的指令跟踪和无源运行时可配置高级可扩展接口(AXI)总线监视器、50个断点、FPGA架构监视器和Microchip内置双通道逻辑分析仪SmartDebug。PolarFire SoC的架构具备可靠性和安全性功能,包括所有存储器上的单错误校正和双错误检测(SEC-DED)、物理存储器保护、抗差分功耗分析(DPA)加密核心、国防级安全启动和128 Kb闪存启动存储器等。

Mi-V合作伙伴Wind River、Mentor Graphics、WolfSSL、HexFive、Veridify、Digital Core和AdaCore将在RISC-V 峰会期间展示各款支持PolarFire SoC开发平台的解决方案。

指数激活运算单元EXP-ACT实现的基础是sigmoid,由于在FPGA中进行指数型运算比较耗资源,如何复用该计算单元就变得非常有意义。通过分析发现,可以把 tanh 和两通道softmax 转换成 sigmoid 的形式,这样一个指数运算单元就支持了3种算子,实现资源利用的最大化。

多算子融合

在推理时做BatchNorm运算非常耗时,通过SDK将BatchNorm+Scale的线性变换参数融合到卷积层,替换原来的weights和bias,这样4个算子可以融合成单个算子conv + batchnorm + scale + relu,对于dw-conv同样如此。相对于每计算完一个算子就将数据送回内存,这种算子融合大大减少了内存的读写操作,有效提高了处理帧率。

将scale、bias和relu为代表的激活函数层放到各算子之后的链路上,然后统一送到DMA传输模块,如图11所示。这不仅使得各算子复用了这些逻辑,节省了大量片内资源,也使得各算子都可以具备这些功能,且都能以最大带宽进行DMA传输。在实践中,我们将这些功能做成可选项,由软件根据当前网络算子的需要进行选择,在节省资源的同时,既保证了通用性,又兼顾了灵活性。

数据中心成功的要诀是:大规模提供尖端加速计算平台,从而使世界各地的开发者与解决方案提供商都能被覆盖到。在过去十年里,云计算已运用并行计算来提高性能,这种方法需要将求解过程分解成多个并行任务,以充分利用所有计算单元。以GPU 为代表的并行计算加速器,其中含有多达 2,000 个计算单元。我们不妨将它想象成一个塞满小黄人的小型棒球场,每个小黄人代表 100 万个逻辑门。一旦出现某个问题不支持所有小黄人同时并行工作完成求解,诸如 GPU 这样的并行计算加速器就会面临严重的性能局限。的确,一些类型的问题非常适合这种并行计算“小黄人”模式,但很多问题却并不适合。

例如压缩、视频编码、基因组分析和股票交易等任务,就不适合这种并行模式。这些任务更适合逻辑门方法与可编程芯片,即现场可编程门阵列( FPGA )。正因如此,Nimbix 近期率先在 Nimbix 云上面向开发者推出基于 FPGA 的 Alveo U50 加速器具有重要意义。

深圳市金嘉锐电子有限公司http://xczykj.51dzw.com/

(素材来源:ttic和eechina.如涉版权请联系删除。特别感谢)

热门点击

 

推荐技术资料

循线机器人是机器人入门和
    循线机器人是机器人入门和比赛最常用的控制方式,E48S... [详细]
版权所有:51dzw.COM
深圳服务热线:13692101218  13751165337
粤ICP备09112631号-6(miitbeian.gov.cn)
公网安备44030402000607
深圳市碧威特网络技术有限公司
付款方式


 复制成功!