指数型运算比较耗资源

发布时间:2020/5/21 20:51:50 访问次数:1665

MRA4007低功耗是绝大多数Nucleus RTOS用户的关键设计考量因素，这使得Mentor支持PolarFire SoC作为嵌入式计算平台成为必然。通过将Nucleus移植到PolarFire SoC，我们正帮助开发人员将Nucleus引入一系列更广泛的确定性应用程序，这些应用程序对可扩展性和卓越的可靠性都有具体的要求。

PolarFire SoC具备多种调试功能，包括来自Mi-V合作伙伴UltraSoC的指令跟踪和无源运行时可配置高级可扩展接口（AXI）总线监视器、50个断点、FPGA架构监视器和Microchip内置双通道逻辑分析仪SmartDebug。PolarFire SoC的架构具备可靠性和安全性功能，包括所有存储器上的单错误校正和双错误检测（SEC-DED）、物理存储器保护、抗差分功耗分析（DPA）加密核心、国防级安全启动和128 Kb闪存启动存储器等。

Mi-V合作伙伴Wind River、Mentor Graphics、WolfSSL、HexFive、Veridify、Digital Core和AdaCore将在RISC-V 峰会期间展示各款支持PolarFire SoC开发平台的解决方案。

指数激活运算单元EXP-ACT实现的基础是sigmoid，由于在FPGA中进行指数型运算比较耗资源，如何复用该计算单元就变得非常有意义。通过分析发现，可以把 tanh 和两通道softmax 转换成 sigmoid 的形式，这样一个指数运算单元就支持了3种算子，实现资源利用的最大化。

多算子融合

在推理时做BatchNorm运算非常耗时，通过SDK将BatchNorm+Scale的线性变换参数融合到卷积层，替换原来的weights和bias，这样4个算子可以融合成单个算子conv + batchnorm + scale + relu，对于dw-conv同样如此。相对于每计算完一个算子就将数据送回内存，这种算子融合大大减少了内存的读写操作，有效提高了处理帧率。

将scale、bias和relu为代表的激活函数层放到各算子之后的链路上，然后统一送到DMA传输模块，如图11所示。这不仅使得各算子复用了这些逻辑，节省了大量片内资源，也使得各算子都可以具备这些功能，且都能以最大带宽进行DMA传输。在实践中，我们将这些功能做成可选项，由软件根据当前网络算子的需要进行选择，在节省资源的同时，既保证了通用性，又兼顾了灵活性。

数据中心成功的要诀是：大规模提供尖端加速计算平台，从而使世界各地的开发者与解决方案提供商都能被覆盖到。在过去十年里，云计算已运用并行计算来提高性能，这种方法需要将求解过程分解成多个并行任务，以充分利用所有计算单元。以GPU 为代表的并行计算加速器，其中含有多达 2,000 个计算单元。我们不妨将它想象成一个塞满小黄人的小型棒球场，每个小黄人代表 100 万个逻辑门。一旦出现某个问题不支持所有小黄人同时并行工作完成求解，诸如 GPU 这样的并行计算加速器就会面临严重的性能局限。的确，一些类型的问题非常适合这种并行计算“小黄人”模式，但很多问题却并不适合。

例如压缩、视频编码、基因组分析和股票交易等任务，就不适合这种并行模式。这些任务更适合逻辑门方法与可编程芯片，即现场可编程门阵列（ FPGA ）。正因如此，Nimbix 近期率先在 Nimbix 云上面向开发者推出基于 FPGA 的 Alveo U50 加速器具有重要意义。

深圳市金嘉锐电子有限公司http://xczykj.51dzw.com/

(素材来源：ttic和eechina.如涉版权请联系删除。特别感谢）

Mi-V合作伙伴Wind River、Mentor Graphics、WolfSSL、HexFive、Veridify、Digital Core和AdaCore将在RISC-V 峰会期间展示各款支持PolarFire SoC开发平台的解决方案。

多算子融合

深圳市金嘉锐电子有限公司http://xczykj.51dzw.com/

(素材来源：ttic和eechina.如涉版权请联系删除。特别感谢）

上一篇：精密微型微机电系统惯性测量单元

上一篇：带宽是提高AI加速性能的关键因素

相关技术资料: 8-14RA Arm Cortex-M 微控制器应用描述; 8-14110V, 75A RMS集成分流器INA790A; 8-14微型C语言可编程处理器技术参数封装; 8-14iNEMO系统级封装 (SiP)6轴单片式解决方案; 8-14 首款 EVC 技术ST31N600芯片应用探究; 8-14嵌入式Flash技术制造ST54L芯片; 8-13第四代加 SuperGaN®常闭器件TP6; 8-13氮化镓高电子迁移率晶体管 (GaN HEMT); 8-13同步 Bank-Switchable 双端口 SRAM; 8-13模拟多路复用器技术规格参数; 8-13集成高性能 CM85 内核和大内存A8D1 MCU; 8-13RA 系列的 Arm 微控制器 (MCU)

相关IC型号: UA78M05IKTPRG3; MB88501-392M; VI-2N4-IV; C8051F124-GQ; AS7C164-15PC; LLE18040X; ICL3245CV; SLA5007; XC95144-10PQG100C; IDT72V3663L15PF

指数型运算比较耗资源

热门点击

推荐技术资料