CPU在复杂功能芯片的路径
发布时间:2020/7/11 22:42:15 访问次数:935
Nvidia是一个我非常尊敬的公司,也是硅谷现存的仍然是创始人做CEO的极少数公司了。但是这一章,我写了几次,都写不下去。大约是Nvidia仍然是GPU为主线的公司,它的CPU的发展逻辑,属于面向应用规划的那种放飞型。
RT0603BRD0720K这是一个从Tegra开始,到Carmel,集成Arm CPU在复杂功能芯片的路径。 其实,看起来更像是系统公司的芯片规划路径。因为本文集中在通用服务器芯片的分析,否则Nvidia家的产品路线,绝对值得一个完整的大章分析。
最喜欢的要放到最后。我的同事,在跟与一位伙伴讨论memory选择的时候,说“高吞吐,大容量和便宜三者之间,你只能选两个”,这句话非常有哲理了,如果有三项都可以兼顾的方案,大家就不纠结了。有纠结,肯定是有难选的地方,我个人偏好那种“除了贵,没别的毛病”的方案,但是请放心,给伙伴推荐的时候,我绝对不会表露这种个人倾向性的。
富士通的这款A64FX其实不是服务器芯片,是用来做超算的,恰恰就是那种“除了贵,没别的毛病”的产品。
富士通在hotchips上公开介绍了A64FX这颗芯片。先看硬参数:8.8 billion transistors (这个不算多,AWS Graviton2 有30B) ,7nm。48个自研核加上4个同质的管理核,其实是4个处理器cluster,每个cluster是13个核。核间互联是自研的第二代TOFU -6D mesh/torus片上网络(第一代TOFU的口碑超级好),配的32GB HBM2 (超豪华配置),16PCIe 3.0 lanes (这个不算多,估计也不想接什么外设),1024 GB/s的存储带宽,2.7 TFLOPS @ 64bit,21.6 TFLOPS@8bit 的性能。Nvidia Tesla P4和P40,在8bit整数的时候,分别是22 TFlops和47TFLOPS,颇有一拼。
A64FX的cache层级,吞吐很高,执行流水线,电源管理,RAS都很有特色,有兴趣可以读一下hotchips的文档。
A64FX这种强悍的性能,可以不用和GPU组合,因此Cray在和富士通合作,把A64FX做进 CS500 clusters和未来Shasta系统中。
一家叫Nuvia的创业公司,在SC会议期间,浮出水面。这家公司创始人的背景,苹果的诉讼,立刻登上了头条。没有产品之前,让我们记住他们的口号"deliver industry-leading performance and energyefficiency for the data center" 。
欧洲的欧洲处理器联盟-EPI也是一个以设计服务器级的CPU为目标的努力。不多说,看路标。
我在试图回答Arm为什么要做服务器的时候,我能想到的就是“先进生产力”这5个字。什么叫先进生产力, Frank Frankovsky,Facebook VP of Hardware Design and Supply Chain Operations 也是个要有名字的男人。他提出 the most useful work per watt per dollar。真正能用上的算力除以买服务器花费与运营服务器所花的电费就是这个服务器的代表的生产力,这个值标志了先进性。
(素材来源:21IC和ttic和eechina.如涉版权请联系删除。特别感谢)
深圳市永拓丰科技有限公司http://ytf01.51dzw.com/
Nvidia是一个我非常尊敬的公司,也是硅谷现存的仍然是创始人做CEO的极少数公司了。但是这一章,我写了几次,都写不下去。大约是Nvidia仍然是GPU为主线的公司,它的CPU的发展逻辑,属于面向应用规划的那种放飞型。
RT0603BRD0720K这是一个从Tegra开始,到Carmel,集成Arm CPU在复杂功能芯片的路径。 其实,看起来更像是系统公司的芯片规划路径。因为本文集中在通用服务器芯片的分析,否则Nvidia家的产品路线,绝对值得一个完整的大章分析。
最喜欢的要放到最后。我的同事,在跟与一位伙伴讨论memory选择的时候,说“高吞吐,大容量和便宜三者之间,你只能选两个”,这句话非常有哲理了,如果有三项都可以兼顾的方案,大家就不纠结了。有纠结,肯定是有难选的地方,我个人偏好那种“除了贵,没别的毛病”的方案,但是请放心,给伙伴推荐的时候,我绝对不会表露这种个人倾向性的。
富士通的这款A64FX其实不是服务器芯片,是用来做超算的,恰恰就是那种“除了贵,没别的毛病”的产品。
富士通在hotchips上公开介绍了A64FX这颗芯片。先看硬参数:8.8 billion transistors (这个不算多,AWS Graviton2 有30B) ,7nm。48个自研核加上4个同质的管理核,其实是4个处理器cluster,每个cluster是13个核。核间互联是自研的第二代TOFU -6D mesh/torus片上网络(第一代TOFU的口碑超级好),配的32GB HBM2 (超豪华配置),16PCIe 3.0 lanes (这个不算多,估计也不想接什么外设),1024 GB/s的存储带宽,2.7 TFLOPS @ 64bit,21.6 TFLOPS@8bit 的性能。Nvidia Tesla P4和P40,在8bit整数的时候,分别是22 TFlops和47TFLOPS,颇有一拼。
A64FX的cache层级,吞吐很高,执行流水线,电源管理,RAS都很有特色,有兴趣可以读一下hotchips的文档。
A64FX这种强悍的性能,可以不用和GPU组合,因此Cray在和富士通合作,把A64FX做进 CS500 clusters和未来Shasta系统中。
一家叫Nuvia的创业公司,在SC会议期间,浮出水面。这家公司创始人的背景,苹果的诉讼,立刻登上了头条。没有产品之前,让我们记住他们的口号"deliver industry-leading performance and energyefficiency for the data center" 。
欧洲的欧洲处理器联盟-EPI也是一个以设计服务器级的CPU为目标的努力。不多说,看路标。
我在试图回答Arm为什么要做服务器的时候,我能想到的就是“先进生产力”这5个字。什么叫先进生产力, Frank Frankovsky,Facebook VP of Hardware Design and Supply Chain Operations 也是个要有名字的男人。他提出 the most useful work per watt per dollar。真正能用上的算力除以买服务器花费与运营服务器所花的电费就是这个服务器的代表的生产力,这个值标志了先进性。
(素材来源:21IC和ttic和eechina.如涉版权请联系删除。特别感谢)
深圳市永拓丰科技有限公司http://ytf01.51dzw.com/
上一篇:处理器模块低功耗的系统
上一篇:以太网融合适配器的芯片
热门点击
- 双电层电容器和法拉第准电容器
- 低温度系数晶振的振荡频率受温度的影响
- 零电流的低电池电量闭锁断接功能
- 转矩和速度驱动电机的有效方法
- 连接器的额定电压注意的问题
- 部时序控制器控制产生X方向和Y方向
- 电子封装基板材料满足的基本要求
- 二极管的低反向恢复电荷
- LED反偏漏电导致暗亮问题优化电路
- CPU在复杂功能芯片的路径
推荐技术资料
- 泰克新发布的DSA830
- 泰克新发布的DSA8300在一台仪器中同时实现时域和频域分析,DS... [详细]