位置:51电子网 » 电子资讯 » 电子新品

图形存储控制器GDDR6X详解

发布时间:2022/2/22 10:44:18 访问次数:1366

美光gddr6x是业界第一款大规模生产的内存。这项机制的改变在于处理器和内存之间采用4档电压,每个周期内编码和传输两个byte,并打开了通向更高频率的大门。自2006年开始对pam4进行实验以来,美光认为pam4不仅是gddr的进步,也是dram的进步。虽然ddr5不使用pam4,但美光已经获得了pam4甚至支持pam8的hbm内存专利。

dram制造商承认,与gddr6相比,gddr6x的构建和实现更加困难(可能也更加昂贵)。据了解,gddr6x采用了bga-180封装工艺,尺寸为14*12mm,焊球间距0.75mm,兼容上一代gddr6。目前gddr6x单颗容量为1gb,在工艺升级后,明年将达到单颗2gb容量。然而,即使在初期阶段,gddr6x也比成熟的hbm2e便宜,因为我们在这里处理的是离散的内存芯片。同时,由于gddr6x返回到8字节的突发长度(在gddr6的情况下是16字节),在相同的每针数据速率下,它并不比它的前身gddr6快。


美光详细讨论了图形存储器:gddr6x、hbm专利:pam4和pam8。

在近期的虚拟发布会上,美光分享了一些关于最新的gddr6x sgram细节,它让英伟达的geforce rtx 30系列显卡的性能更上一层楼。已经对这种新型存储器的技术进行了十多年的试验,并表示gddr6x sgram还没有被jedec标准化。目前,只有英伟达使用gddr6x内存,但美光希望这种情况会随着时间的推移而改变。

pam4信令机制:自2006年开始研究dram

在显卡内存创新方面,位于德国慕尼黑的美光显卡dram设计中心有着悠久的历史,该设计中心隶属于奇梦达公司(qimonda),这家公司是英飞凌的dram衍生产品,早已过时。来自这些实验室的工程师批量生产了第一批gddr5、gddr5x和现在的gddr6x芯片。美光是gddr5x唯一的生产商,现在是gddr6x唯一的生产商。

四电平脉冲调幅(pam4) 信令是gddr6x的关键特性。这种技术使用4个信号电平每周期传输2个数据位,因此与前一代sgram类型相比,任何工作频率的有效带宽翻倍。此外,pam4为更高的数据传输速率打开了大门(尽管是有代价的)。因此,pam4提高了每个时钟的效率和速度。

不过,这里有一个小小的警告。gddr6的突发长度为16字节(bl16),这意味着它的两个16位通道每一个都可以为每次操作提供32字节。gddr6x的突发长度为8个字节(bl8),但是由于pam4信令的存在,它的每个16位通道每次操作也将提供32个字节。为此,gddr6x在同一时钟上并不比gddr6快。

多年来,pam4信令一直被用于数据中心网络标准,比如infiniband,而四层编码本身也不是什么新东西。与传统的pam2/nrz调制相比,pam4保留给大型数据中心和超级计算机的主要原因是实施费用。

但是,高成本并没有阻止在实验室中对这项技术的探索,这也是美光美国分部的科学家们自2006年以来一直在做的事情。在此过程中,他们获得了45项专利。

美光公司的图形部门主管ralf ebert:“自2006年以来,我们已经让科学家们研究如何在内存中使用pam4,他们是真正为创新做基础的人。他们基本上采用了pam4技术,并试图找出如何在dram中使用它。”

经过多年的pam4探索,美光认为是时候将这项技术应用到图形存储器上了。gddr从2007年(gddr5)到2018年(gddr6)的演变在架构上非常简单,因此引入一种新的信号机制,这就需要美光将其来自美国科学家和来自德国工程师得共同努力。

ebert:“科学家们必须与gddr的开发者,也就是签署芯片的人并肩工作。”“他们还与系统和产品工程师紧密合作,从系统和大规模制造的角度理解挑战。”

我们今天所知道的关于gddr6x的工作开始于2017年底。通常,将一种新型dram推向市场需要更长的时间,但由于这主要是一个内部项目(至少在内存设备层面上),美光已经实现的技术进展非常迅速。不过,这是有原因的。

与英伟达密切合作开发

开发新型内存不仅要考虑特定的应用,还要考虑特定的客户。英伟达是第一家使用gddr5x和gddr6的公司(本世纪初也使用了gddr2和gddr3)。事实上,据美光称,英伟达要求美光提供一种比gddr6更高性能的离散存储器解决方案。

“当然,你必须与客户合作,最理想的情况是,依靠已经建立多年的密切的业务和技术合作。”(我们必须确保)产品从一开始就能在应用程序中发挥作用。”

由于pam4信令改变了内存子系统的工作方式,nvidia不得不为gddr6x开发一种全新的内存控制器和phy。基于到目前为止还没有ip设计公司公布他们的gddr6x产品细节,看起来nvidia已经在内部设计了一切。

目前,nvidia在其geforce rtx 3080/3090图形卡上使用了gddr6x,该图形卡基于ga102 gpu,主要面向玩家。nvidia还将提供quadro rtx专业显卡,具有相同的芯片和gddr6x内存。与此同时,美光表示gddr6x也被用于ai和hpc应用,这两个应用都不属于nvidia的geforce rtx和quadro rtx focus,因为这些卡在ai的fp16和fp32张量性能以及hpc的fp64张量性能方面都有上限。也许美光只是一种假想的用途,或者它是在暗示即将推出的由ga102驱动的nvidia泰坦系列卡,它将为ai和高性能计算提供合适的性能(没有上限)。

英伟达是美光发布gddr6x的唯一合作伙伴,但美光强调,这款新型内存并不是专为gpu开发者设计的。这家dram制造商还计划向其他公司提供gddr6x。

ebert:“我们现在开始提供并向业界开放,gddr6x并不是针对客户的,我们希望其他客户也有兴趣继续前进,然后我们也会与他们接触。”

带pam4的gddr6x:更难构建,但比hbm2便宜

美光公司表示,pam4要求公司重新设计其gddr6x存储设备的写入数据捕获电路(接收器),以精确采样和解析四种不同的信号水平。这样做,每个gddr6x dram合并三个输入子接收器每i/o和数据总线倒置(dq/dbi)引脚。主机可以在写训练序列期间微调参考vrefd电压水平。gddr6x的输出驱动也必须重新设计,但美光表示,重新设计依赖于传统方法。

美光承认,gddr6x芯片的生产成本比上一代gddr6设备更高。此外,它们需要非常干净和稳定的信号,这就是为geforce rtx 3080/3090卡供电的nvidia ga102 gpu的内存控制器现在安装在自己的电源轨道上的原因。

据美光的数据,由于性能的大幅提高,gddr6x在设备级别上比gddr6 (7.25 pj/bit vs 7.5 pj/bit)高15%。

总体而言,gddr6x芯片和实现比gddr6本身要昂贵,但仍比hbm2级内存便宜很多。gddr6x不需要堆叠,它是作为分立芯片运输的,可以在工厂焊接。离散dram的整个基础设施已经存在了几十年,而且所有的过程都是常见的和廉价的。相比之下,hbm2 kgsds必须在半导体工厂组装,然后在另一个工厂的洁净室里放置在gpu旁边的隔置器上。

ebert表示:“性能更高的dram通常也需要更高的成本,gddr6x的最大优势是,我们可以将性能的标准提高很多,同时仍保持在一定的成本范围内。gddr6x仍然是一个离散的内存解决方案。gddr6x内存可以像任何其他内存一样由外接板制造商在他们的标准环境中组装在pcb上。当你研究内存的不同速度等级时,通常有成本加法器的范围;我们将gddr6x定位在正常范围内。对于客户来说,这款产品的成本并不高,主要是因为它仍然是一款离散存储解决方案。”

美光没有透露其8gb gddr6x设备的模具尺寸,也没有将其与8gb gddr6设备进行比较。他们强调,这是第一种使用pam4信令的内存,后者是一种突破,为各种创新打开了大门。

美光显卡dram主管介绍:“pam4是一个挑战,我们相信有了这一突破,它可以向前推进,我们相信,这将改变dram行业。我们是第一批这样做的人,为此已经工作了很长一段时间。”

规模密度和数据率

目前,美光提供8 gb gddr6x芯片,额定19 gbps和21 gbps。新内存设备使用该公司经过验证的第四代10 nm级工艺技术(也称为1×nm)生产。美光有一个扩大gddr6x的容量和速度方面的路线图。

明年,美光打算在产品线中增加16gb密度的芯片,并随着时间的推移提供更快的芯片。目前,美光是gddr6x唯一的生产商,nvidia是唯一的客户,所以gddr6x的发展取决于nvidia的需求和美光的量产能力。关键要指出的是gddr6x被设置为性能超过21 gbps的扩展。

gddr6x:不是jedec标准,但不是专有的

为了尽快敲定gddr6x并使其与英伟达的安培gpu兼容,两家公司几乎在隐身模式下工作。这两家公司从未将该规范提交给jedec进行标准化,因此gddr6x是目前只能从美光获得的一种专有内存。

gddr5x主要由美光开发,几乎没有来自其他行业的竞争。在美光开始批量生产gddr5x之前,jedec正式发布了该标准,并将其提供给该组织的成员。但是,除了nvidia没有人使用gddr5x,除了美光也没有人生产这种内存。

gddr6x也许可用在图形之外

传统上,gddr类型的内存几乎只用于显卡和游戏机。有了gddr6,美光和它的行业同行开始为其他需要高带宽的应用推广显卡dram。它们的目标是汽车、网络和fpga应用程序。美光希望gddr6x能够解决非gpu市场问题。

如今gpu被广泛用于各种ai应用,因此,当美光谈到gddr6x用于非图形垂直领域时,自然而然地提到了训练和推理应用。与此同时,由于英伟达的泰坦系列显卡的目标客户是游戏玩家、人工智能爱好者和各种消费者,如果英伟达发布一款泰坦安培模型,美光的gddr6x也将在技术上针对这些市场。

为了解决新兴市场,美光不仅需要提供内存本身,还需要提供内存控制器ip、phy ip和验证ip。这些类型的东西是由ip设计公司如avery, cadence, rambus和synopsys负责。由于gddr6x的设计才刚刚开始,ip公司必须迎头赶上,假设他们看到了行业对gddr6x的潜在需求。这并不能完全保证,特别是考虑到gddr6x并不是jedec支持的行业标准。

美光:cpu可以使用gddr6x?

ebert:“从历史上看,没有什么能阻止行业使用cpu的gddr dram。”“这次也一样。但这个决定必须由cpu公司来做。”

图形内存的未来:pam4将继续存在,甚至对于hbm来说也是如此

对美光来说,gddr6x不仅是一种高度复杂的产品,而且是其为dram带来pam4信令的工作的顶峰。虽然这种类型的编码不会用于ddr5 sdram,但美光相信,从长远来看,它是存储器的未来。

美光图形存储主管表示:“所以,我们就是在gddr6x上推出pam4的,而且我们肯定能看到这种技术的进一步发展,pam4有可能被用于其他内存标准。这类技术很有可能会被拥有cpu或其他处理器的公司所采用。”

pam4在工业上的应用将比现在广泛得多。预计将于2021年发布的pcie 6.0使用pam4信令来提高效率和数据速率。考虑到pcie的广泛采用,cpu和asic公司最终肯定会支持pcie 6.0和pam4。一旦行业学会如何与pcie 6.0四电平脉冲幅度调制工作,它肯定会应用它在其他地方。

美光表示,他们首次将pam4植入lpddr测试芯片,以试验这项技术。此外,我们在准备这个故事时发现的一项专利说,美光在三年前获得了hbm级存储器与pam4和pam8信号叠加的专利。

hbm类型的内存还必须采用离散dram设备(qdr, bl8/bl16等)所使用的负载,因此很难预测何时它可以采

用新的信令。但如果目前可用的hbm2e 3.6 gbps芯片采用四电平脉冲幅度调制,则每台设备的带宽将翻倍至922 gb/s。这意味着一个6模块的6144位dram子系统将提供巨大的5.5 tb/s带宽。不过,在这一点上,这纯粹是猜测。

『本文转自:eeworld。版权归原作者所有,如有侵权请联系删除。』

美光gddr6x是业界第一款大规模生产的内存。这项机制的改变在于处理器和内存之间采用4档电压,每个周期内编码和传输两个byte,并打开了通向更高频率的大门。自2006年开始对pam4进行实验以来,美光认为pam4不仅是gddr的进步,也是dram的进步。虽然ddr5不使用pam4,但美光已经获得了pam4甚至支持pam8的hbm内存专利。

dram制造商承认,与gddr6相比,gddr6x的构建和实现更加困难(可能也更加昂贵)。据了解,gddr6x采用了bga-180封装工艺,尺寸为14*12mm,焊球间距0.75mm,兼容上一代gddr6。目前gddr6x单颗容量为1gb,在工艺升级后,明年将达到单颗2gb容量。然而,即使在初期阶段,gddr6x也比成熟的hbm2e便宜,因为我们在这里处理的是离散的内存芯片。同时,由于gddr6x返回到8字节的突发长度(在gddr6的情况下是16字节),在相同的每针数据速率下,它并不比它的前身gddr6快。


美光详细讨论了图形存储器:gddr6x、hbm专利:pam4和pam8。

在近期的虚拟发布会上,美光分享了一些关于最新的gddr6x sgram细节,它让英伟达的geforce rtx 30系列显卡的性能更上一层楼。已经对这种新型存储器的技术进行了十多年的试验,并表示gddr6x sgram还没有被jedec标准化。目前,只有英伟达使用gddr6x内存,但美光希望这种情况会随着时间的推移而改变。

pam4信令机制:自2006年开始研究dram

在显卡内存创新方面,位于德国慕尼黑的美光显卡dram设计中心有着悠久的历史,该设计中心隶属于奇梦达公司(qimonda),这家公司是英飞凌的dram衍生产品,早已过时。来自这些实验室的工程师批量生产了第一批gddr5、gddr5x和现在的gddr6x芯片。美光是gddr5x唯一的生产商,现在是gddr6x唯一的生产商。

四电平脉冲调幅(pam4) 信令是gddr6x的关键特性。这种技术使用4个信号电平每周期传输2个数据位,因此与前一代sgram类型相比,任何工作频率的有效带宽翻倍。此外,pam4为更高的数据传输速率打开了大门(尽管是有代价的)。因此,pam4提高了每个时钟的效率和速度。

不过,这里有一个小小的警告。gddr6的突发长度为16字节(bl16),这意味着它的两个16位通道每一个都可以为每次操作提供32字节。gddr6x的突发长度为8个字节(bl8),但是由于pam4信令的存在,它的每个16位通道每次操作也将提供32个字节。为此,gddr6x在同一时钟上并不比gddr6快。

多年来,pam4信令一直被用于数据中心网络标准,比如infiniband,而四层编码本身也不是什么新东西。与传统的pam2/nrz调制相比,pam4保留给大型数据中心和超级计算机的主要原因是实施费用。

但是,高成本并没有阻止在实验室中对这项技术的探索,这也是美光美国分部的科学家们自2006年以来一直在做的事情。在此过程中,他们获得了45项专利。

美光公司的图形部门主管ralf ebert:“自2006年以来,我们已经让科学家们研究如何在内存中使用pam4,他们是真正为创新做基础的人。他们基本上采用了pam4技术,并试图找出如何在dram中使用它。”

经过多年的pam4探索,美光认为是时候将这项技术应用到图形存储器上了。gddr从2007年(gddr5)到2018年(gddr6)的演变在架构上非常简单,因此引入一种新的信号机制,这就需要美光将其来自美国科学家和来自德国工程师得共同努力。

ebert:“科学家们必须与gddr的开发者,也就是签署芯片的人并肩工作。”“他们还与系统和产品工程师紧密合作,从系统和大规模制造的角度理解挑战。”

我们今天所知道的关于gddr6x的工作开始于2017年底。通常,将一种新型dram推向市场需要更长的时间,但由于这主要是一个内部项目(至少在内存设备层面上),美光已经实现的技术进展非常迅速。不过,这是有原因的。

与英伟达密切合作开发

开发新型内存不仅要考虑特定的应用,还要考虑特定的客户。英伟达是第一家使用gddr5x和gddr6的公司(本世纪初也使用了gddr2和gddr3)。事实上,据美光称,英伟达要求美光提供一种比gddr6更高性能的离散存储器解决方案。

“当然,你必须与客户合作,最理想的情况是,依靠已经建立多年的密切的业务和技术合作。”(我们必须确保)产品从一开始就能在应用程序中发挥作用。”

由于pam4信令改变了内存子系统的工作方式,nvidia不得不为gddr6x开发一种全新的内存控制器和phy。基于到目前为止还没有ip设计公司公布他们的gddr6x产品细节,看起来nvidia已经在内部设计了一切。

目前,nvidia在其geforce rtx 3080/3090图形卡上使用了gddr6x,该图形卡基于ga102 gpu,主要面向玩家。nvidia还将提供quadro rtx专业显卡,具有相同的芯片和gddr6x内存。与此同时,美光表示gddr6x也被用于ai和hpc应用,这两个应用都不属于nvidia的geforce rtx和quadro rtx focus,因为这些卡在ai的fp16和fp32张量性能以及hpc的fp64张量性能方面都有上限。也许美光只是一种假想的用途,或者它是在暗示即将推出的由ga102驱动的nvidia泰坦系列卡,它将为ai和高性能计算提供合适的性能(没有上限)。

英伟达是美光发布gddr6x的唯一合作伙伴,但美光强调,这款新型内存并不是专为gpu开发者设计的。这家dram制造商还计划向其他公司提供gddr6x。

ebert:“我们现在开始提供并向业界开放,gddr6x并不是针对客户的,我们希望其他客户也有兴趣继续前进,然后我们也会与他们接触。”

带pam4的gddr6x:更难构建,但比hbm2便宜

美光公司表示,pam4要求公司重新设计其gddr6x存储设备的写入数据捕获电路(接收器),以精确采样和解析四种不同的信号水平。这样做,每个gddr6x dram合并三个输入子接收器每i/o和数据总线倒置(dq/dbi)引脚。主机可以在写训练序列期间微调参考vrefd电压水平。gddr6x的输出驱动也必须重新设计,但美光表示,重新设计依赖于传统方法。

美光承认,gddr6x芯片的生产成本比上一代gddr6设备更高。此外,它们需要非常干净和稳定的信号,这就是为geforce rtx 3080/3090卡供电的nvidia ga102 gpu的内存控制器现在安装在自己的电源轨道上的原因。

据美光的数据,由于性能的大幅提高,gddr6x在设备级别上比gddr6 (7.25 pj/bit vs 7.5 pj/bit)高15%。

总体而言,gddr6x芯片和实现比gddr6本身要昂贵,但仍比hbm2级内存便宜很多。gddr6x不需要堆叠,它是作为分立芯片运输的,可以在工厂焊接。离散dram的整个基础设施已经存在了几十年,而且所有的过程都是常见的和廉价的。相比之下,hbm2 kgsds必须在半导体工厂组装,然后在另一个工厂的洁净室里放置在gpu旁边的隔置器上。

ebert表示:“性能更高的dram通常也需要更高的成本,gddr6x的最大优势是,我们可以将性能的标准提高很多,同时仍保持在一定的成本范围内。gddr6x仍然是一个离散的内存解决方案。gddr6x内存可以像任何其他内存一样由外接板制造商在他们的标准环境中组装在pcb上。当你研究内存的不同速度等级时,通常有成本加法器的范围;我们将gddr6x定位在正常范围内。对于客户来说,这款产品的成本并不高,主要是因为它仍然是一款离散存储解决方案。”

美光没有透露其8gb gddr6x设备的模具尺寸,也没有将其与8gb gddr6设备进行比较。他们强调,这是第一种使用pam4信令的内存,后者是一种突破,为各种创新打开了大门。

美光显卡dram主管介绍:“pam4是一个挑战,我们相信有了这一突破,它可以向前推进,我们相信,这将改变dram行业。我们是第一批这样做的人,为此已经工作了很长一段时间。”

规模密度和数据率

目前,美光提供8 gb gddr6x芯片,额定19 gbps和21 gbps。新内存设备使用该公司经过验证的第四代10 nm级工艺技术(也称为1×nm)生产。美光有一个扩大gddr6x的容量和速度方面的路线图。

明年,美光打算在产品线中增加16gb密度的芯片,并随着时间的推移提供更快的芯片。目前,美光是gddr6x唯一的生产商,nvidia是唯一的客户,所以gddr6x的发展取决于nvidia的需求和美光的量产能力。关键要指出的是gddr6x被设置为性能超过21 gbps的扩展。

gddr6x:不是jedec标准,但不是专有的

为了尽快敲定gddr6x并使其与英伟达的安培gpu兼容,两家公司几乎在隐身模式下工作。这两家公司从未将该规范提交给jedec进行标准化,因此gddr6x是目前只能从美光获得的一种专有内存。

gddr5x主要由美光开发,几乎没有来自其他行业的竞争。在美光开始批量生产gddr5x之前,jedec正式发布了该标准,并将其提供给该组织的成员。但是,除了nvidia没有人使用gddr5x,除了美光也没有人生产这种内存。

gddr6x也许可用在图形之外

传统上,gddr类型的内存几乎只用于显卡和游戏机。有了gddr6,美光和它的行业同行开始为其他需要高带宽的应用推广显卡dram。它们的目标是汽车、网络和fpga应用程序。美光希望gddr6x能够解决非gpu市场问题。

如今gpu被广泛用于各种ai应用,因此,当美光谈到gddr6x用于非图形垂直领域时,自然而然地提到了训练和推理应用。与此同时,由于英伟达的泰坦系列显卡的目标客户是游戏玩家、人工智能爱好者和各种消费者,如果英伟达发布一款泰坦安培模型,美光的gddr6x也将在技术上针对这些市场。

为了解决新兴市场,美光不仅需要提供内存本身,还需要提供内存控制器ip、phy ip和验证ip。这些类型的东西是由ip设计公司如avery, cadence, rambus和synopsys负责。由于gddr6x的设计才刚刚开始,ip公司必须迎头赶上,假设他们看到了行业对gddr6x的潜在需求。这并不能完全保证,特别是考虑到gddr6x并不是jedec支持的行业标准。

美光:cpu可以使用gddr6x?

ebert:“从历史上看,没有什么能阻止行业使用cpu的gddr dram。”“这次也一样。但这个决定必须由cpu公司来做。”

图形内存的未来:pam4将继续存在,甚至对于hbm来说也是如此

对美光来说,gddr6x不仅是一种高度复杂的产品,而且是其为dram带来pam4信令的工作的顶峰。虽然这种类型的编码不会用于ddr5 sdram,但美光相信,从长远来看,它是存储器的未来。

美光图形存储主管表示:“所以,我们就是在gddr6x上推出pam4的,而且我们肯定能看到这种技术的进一步发展,pam4有可能被用于其他内存标准。这类技术很有可能会被拥有cpu或其他处理器的公司所采用。”

pam4在工业上的应用将比现在广泛得多。预计将于2021年发布的pcie 6.0使用pam4信令来提高效率和数据速率。考虑到pcie的广泛采用,cpu和asic公司最终肯定会支持pcie 6.0和pam4。一旦行业学会如何与pcie 6.0四电平脉冲幅度调制工作,它肯定会应用它在其他地方。

美光表示,他们首次将pam4植入lpddr测试芯片,以试验这项技术。此外,我们在准备这个故事时发现的一项专利说,美光在三年前获得了hbm级存储器与pam4和pam8信号叠加的专利。

hbm类型的内存还必须采用离散dram设备(qdr, bl8/bl16等)所使用的负载,因此很难预测何时它可以采

用新的信令。但如果目前可用的hbm2e 3.6 gbps芯片采用四电平脉冲幅度调制,则每台设备的带宽将翻倍至922 gb/s。这意味着一个6模块的6144位dram子系统将提供巨大的5.5 tb/s带宽。不过,在这一点上,这纯粹是猜测。

『本文转自:eeworld。版权归原作者所有,如有侵权请联系删除。』

热门点击

推荐电子资讯

高通智能手表
Toq的独特之处在于采用了高通独有的低功耗屏幕技术Mi... [详细]
版权所有:51dzw.COM
深圳服务热线:13751165337  13692101218
粤ICP备09112631号-6(miitbeian.gov.cn)
公网安备44030402000607
深圳市碧威特网络技术有限公司
付款方式