位置:51电子网 » 技术资料 » 测试测量

IPU-M2000和纵向扩展的IPU-POD64快5.3倍

发布时间:2020/12/12 17:29:38 访问次数:478

BERT-Large的训练时间比最新的NVIDIA DGX-A100快5.3倍(比双DGX设置快2.6倍以上),这一结果彰显了Graphcore的IPU-POD横向扩展解决方案在数据中心的优势,以及Poplar软件栈管理复杂工作负载的能力,这些工作负载能够利用多个处理器并行工作。”Graphcore为其最新的AI计算系统——IPU-M2000和纵向扩展的IPU-POD64发布了第一套性能benchmark。

在各种流行的模型中,Graphcore技术在训练和推理方面均显著优于NVIDIA的A100(基于DGX)。

EfficientNet-B4:吞吐量高18倍

ResNeXt-101:吞吐量高3.7倍

BERT-Large:与DGX A100相比,在IPU-POD64上的训练时间快5.3倍(比双DGX系统缩短2.6倍)

LSTM:以更低时延实现吞吐量提升超过600倍

EfficientNet-B0:吞吐量提升60倍/时延缩短超过16倍

ResNeXt-101:吞吐量提升40倍/时延缩短10倍

BERT-Large:以更低的时延实现吞吐量提升3.4倍

Benchmark中包括了BERT-Large(基于Transformer的自然语言处理模型)在IPU-POD64的全部64个处理器上运行的结果。

与Poplar软件栈的其他元素一样,Graphcore正在将其用于IPU接口库的PyTorch开源,从而使社区能够对PyTorch的开发做出贡献,并且加速PyTorch的开发。

IPU-Machine:M2000(IPU-M2000)是一台即插即用的机器智能计算刀片,旨在轻松部署并为可大规模扩展的系统提供支持。

纤巧的1U刀片可提供1 PetaFlop的机器智能计算能力,并在机箱内部纳入针对AI横向扩展进行了优化的集成网络技术。


(素材来源:ttic和eccn.如涉版权请联系删除。特别感谢)



BERT-Large的训练时间比最新的NVIDIA DGX-A100快5.3倍(比双DGX设置快2.6倍以上),这一结果彰显了Graphcore的IPU-POD横向扩展解决方案在数据中心的优势,以及Poplar软件栈管理复杂工作负载的能力,这些工作负载能够利用多个处理器并行工作。”Graphcore为其最新的AI计算系统——IPU-M2000和纵向扩展的IPU-POD64发布了第一套性能benchmark。

在各种流行的模型中,Graphcore技术在训练和推理方面均显著优于NVIDIA的A100(基于DGX)。

EfficientNet-B4:吞吐量高18倍

ResNeXt-101:吞吐量高3.7倍

BERT-Large:与DGX A100相比,在IPU-POD64上的训练时间快5.3倍(比双DGX系统缩短2.6倍)

LSTM:以更低时延实现吞吐量提升超过600倍

EfficientNet-B0:吞吐量提升60倍/时延缩短超过16倍

ResNeXt-101:吞吐量提升40倍/时延缩短10倍

BERT-Large:以更低的时延实现吞吐量提升3.4倍

Benchmark中包括了BERT-Large(基于Transformer的自然语言处理模型)在IPU-POD64的全部64个处理器上运行的结果。

与Poplar软件栈的其他元素一样,Graphcore正在将其用于IPU接口库的PyTorch开源,从而使社区能够对PyTorch的开发做出贡献,并且加速PyTorch的开发。

IPU-Machine:M2000(IPU-M2000)是一台即插即用的机器智能计算刀片,旨在轻松部署并为可大规模扩展的系统提供支持。

纤巧的1U刀片可提供1 PetaFlop的机器智能计算能力,并在机箱内部纳入针对AI横向扩展进行了优化的集成网络技术。


(素材来源:ttic和eccn.如涉版权请联系删除。特别感谢)



热门点击

 

推荐技术资料

音频变压器DIY
    笔者在本刊今年第六期上着重介绍了“四夹三”音频变压器的... [详细]
版权所有:51dzw.COM
深圳服务热线:13751165337  13692101218
粤ICP备09112631号-6(miitbeian.gov.cn)
公网安备44030402000607
深圳市碧威特网络技术有限公司
付款方式


 复制成功!