位置:51电子网 » 技术资料 » 电源技术

多核处理器的九大关键技术

发布时间:2008/5/28 0:00:00 访问次数:390

计算机世界报

  单核处理器相比,多核处理器在体系结构、软件、功耗和安全性设计等方面面临着巨大的挑战,但也蕴含着巨大的潜能。

  cmp和smt一样,致力于发掘计算的粗粒度并行性。cmp可以看做是随着大规模集成电路技术的发展,在芯片容量足够大时,就可以将大规模并行处理机结构中的smp(对称多处理机)或dsm(分布共享处理机)节点集成到同一芯片内,各个处理器并行执行不同的线程或进程。在基于smp结构的单芯片多处理机中,处理器之间通过片外cache或者是片外的共享存储器来进行通信。而基于dsm结构的单芯片多处理器中,处理器间通过连接分布式存储器的片内高速交叉开关网络进行通信。

  由于smp和dsm已经是非常成熟的技术了,cmp结构设计比较容易,只是后端设计和芯片制造工艺的要求较高而已。正因为这样,cmp成为了最先被应用于商用cpu的“未来”高性能处理器结构。

  虽然多核能利用集成度提高带来的诸多好处,让芯片的性能成倍地增加,但很明显的是原来系统级的一些问题便引入到了处理器内部。

  1核结构研究:同构还是异构

  cmp的构成分成同构和异构两类,同构是指内部核的结构是相同的,而异构是指内部的核结构是不同的。为此,面对不同的应用研究核结构的实现对未来微处理器的性能至关重要。核本身的结构,关系到整个芯片的面积、功耗和性能。怎样继承和发展传统处理器的成果,直接影响多核的性能和实现周期。同时,根据amdahl定理,程序的加速比决定于串行部分的性能,所以,从理论上来看似乎异构微处理器的结构具有更好的性能。

  核所用的指令系统对系统的实现也是很重要的,采用多核之间采用相同的指令系统还是不同的指令系统,能否运行操作系统等,也将是研究的内容之一。

  2程序执行模型

  多核处理器设计的首要问题是选择程序执行模型。程序执行模型的适用性决定多核处理器能否以最低的代价提供最高的性能。程序执行模型是编译器设计人员与系统实现人员之间的接口。编译器设计人员决定如何将一种高级语言程序按一种程序执行模型转换成一种目标机器语言程序;系统实现人员则决定该程序执行模型在具体目标机器上的有效实现。当目标机器是多核体系结构时,产生的问题是:多核体系结构如何支持重要的程序执行模型?是否有其他的程序执行模型更适于多核的体系结构?这些程序执行模型能多大程度上满足应用的需要并为用户所接受?

  3cache设计:多级cache设计与一致性问题

  处理器和主存间的速度差距对cmp来说是个突出的矛盾,因此必须使用多级cache来缓解。目前有共享一级cache的cmp、共享二级cache的cmp以及共享主存的cmp。通常,cmp采用共享二级cache的cmp结构,即每个处理器核心拥有私有的一级cache,且所有处理器核心共享二级cache。

  cache自身的体系结构设计也直接关系到系统整体性能。但是在cmp结构中,共享cache或独有cache孰优孰劣、需不需要在一块芯片上建立多级cache,以及建立几级cache等等,由于对整个芯片的尺寸、功耗、布局、性能以及运行效率等都有很大的影响,因而这些都是需要认真研究和探讨的问题。

  另一方面,多级cache又引发一致性问题。采用何种cache一致性模型和机制都将对cmp整体性能产生重要影响。在传统多处理器系统结构中广泛采用的cache一致性模型有:顺序一致性模型、弱一致性模型、释放一致性模型等。与之相关的cache一致性机制主要有总线的侦听协议和基于目录的目录协议。目前的cmp系统大多采用基于总线的侦听协议。

  4核间通信技术

  cmp处理器的各cpu核心执行的程序之间有时需要进行数据共享与同步,因此其硬件结构必须支持核间通信。高效的通信机制是cmp处理器高性能的重要保障,目前比较主流的片上高效通信机制有两种,一种是基于总线共享的cache结构,一种是基于片上的互连结构。

  总线共享cache结构是指每个cpu内核拥有共享的二级或三级cache,用于保存比较常用的数据,并通过连接核心的总线进行通信。这种系统的优点是结构简单,通信速度高,缺点是基于总线的结构可扩展性较差。

  基于片上互连的结构是指每个cpu核心具有独立的处理单元和cache,各个cpu核心通过交叉开关或片上网络等方式连接在一起。各个cpu核心间通过消息通信。这种结构的优点是可扩展性好,数据带宽有保证;缺点是硬件结构复杂,且软件改动较大。

  也许这两者的竞争结果不是互相取代而是互相合作,例如在全局范围采用片上网络而局部采用总线方式,来达到性能与复杂性的平衡。

  5总线设计

  传统微处理器中,cache不命中或访存事件都会对cpu的执行效率产生负面影响,而总线接口单元(biu)的工作效率会决定此影响的程度。当多个cpu核心同时要求访问内存或多个cpu核心内私有cache同时出现cache不命中事件时,biu对这多个访问请求的仲裁机制

计算机世界报

  单核处理器相比,多核处理器在体系结构、软件、功耗和安全性设计等方面面临着巨大的挑战,但也蕴含着巨大的潜能。

  cmp和smt一样,致力于发掘计算的粗粒度并行性。cmp可以看做是随着大规模集成电路技术的发展,在芯片容量足够大时,就可以将大规模并行处理机结构中的smp(对称多处理机)或dsm(分布共享处理机)节点集成到同一芯片内,各个处理器并行执行不同的线程或进程。在基于smp结构的单芯片多处理机中,处理器之间通过片外cache或者是片外的共享存储器来进行通信。而基于dsm结构的单芯片多处理器中,处理器间通过连接分布式存储器的片内高速交叉开关网络进行通信。

  由于smp和dsm已经是非常成熟的技术了,cmp结构设计比较容易,只是后端设计和芯片制造工艺的要求较高而已。正因为这样,cmp成为了最先被应用于商用cpu的“未来”高性能处理器结构。

  虽然多核能利用集成度提高带来的诸多好处,让芯片的性能成倍地增加,但很明显的是原来系统级的一些问题便引入到了处理器内部。

  1核结构研究:同构还是异构

  cmp的构成分成同构和异构两类,同构是指内部核的结构是相同的,而异构是指内部的核结构是不同的。为此,面对不同的应用研究核结构的实现对未来微处理器的性能至关重要。核本身的结构,关系到整个芯片的面积、功耗和性能。怎样继承和发展传统处理器的成果,直接影响多核的性能和实现周期。同时,根据amdahl定理,程序的加速比决定于串行部分的性能,所以,从理论上来看似乎异构微处理器的结构具有更好的性能。

  核所用的指令系统对系统的实现也是很重要的,采用多核之间采用相同的指令系统还是不同的指令系统,能否运行操作系统等,也将是研究的内容之一。

  2程序执行模型

  多核处理器设计的首要问题是选择程序执行模型。程序执行模型的适用性决定多核处理器能否以最低的代价提供最高的性能。程序执行模型是编译器设计人员与系统实现人员之间的接口。编译器设计人员决定如何将一种高级语言程序按一种程序执行模型转换成一种目标机器语言程序;系统实现人员则决定该程序执行模型在具体目标机器上的有效实现。当目标机器是多核体系结构时,产生的问题是:多核体系结构如何支持重要的程序执行模型?是否有其他的程序执行模型更适于多核的体系结构?这些程序执行模型能多大程度上满足应用的需要并为用户所接受?

  3cache设计:多级cache设计与一致性问题

  处理器和主存间的速度差距对cmp来说是个突出的矛盾,因此必须使用多级cache来缓解。目前有共享一级cache的cmp、共享二级cache的cmp以及共享主存的cmp。通常,cmp采用共享二级cache的cmp结构,即每个处理器核心拥有私有的一级cache,且所有处理器核心共享二级cache。

  cache自身的体系结构设计也直接关系到系统整体性能。但是在cmp结构中,共享cache或独有cache孰优孰劣、需不需要在一块芯片上建立多级cache,以及建立几级cache等等,由于对整个芯片的尺寸、功耗、布局、性能以及运行效率等都有很大的影响,因而这些都是需要认真研究和探讨的问题。

  另一方面,多级cache又引发一致性问题。采用何种cache一致性模型和机制都将对cmp整体性能产生重要影响。在传统多处理器系统结构中广泛采用的cache一致性模型有:顺序一致性模型、弱一致性模型、释放一致性模型等。与之相关的cache一致性机制主要有总线的侦听协议和基于目录的目录协议。目前的cmp系统大多采用基于总线的侦听协议。

  4核间通信技术

  cmp处理器的各cpu核心执行的程序之间有时需要进行数据共享与同步,因此其硬件结构必须支持核间通信。高效的通信机制是cmp处理器高性能的重要保障,目前比较主流的片上高效通信机制有两种,一种是基于总线共享的cache结构,一种是基于片上的互连结构。

  总线共享cache结构是指每个cpu内核拥有共享的二级或三级cache,用于保存比较常用的数据,并通过连接核心的总线进行通信。这种系统的优点是结构简单,通信速度高,缺点是基于总线的结构可扩展性较差。

  基于片上互连的结构是指每个cpu核心具有独立的处理单元和cache,各个cpu核心通过交叉开关或片上网络等方式连接在一起。各个cpu核心间通过消息通信。这种结构的优点是可扩展性好,数据带宽有保证;缺点是硬件结构复杂,且软件改动较大。

  也许这两者的竞争结果不是互相取代而是互相合作,例如在全局范围采用片上网络而局部采用总线方式,来达到性能与复杂性的平衡。

  5总线设计

  传统微处理器中,cache不命中或访存事件都会对cpu的执行效率产生负面影响,而总线接口单元(biu)的工作效率会决定此影响的程度。当多个cpu核心同时要求访问内存或多个cpu核心内私有cache同时出现cache不命中事件时,biu对这多个访问请求的仲裁机制

相关IC型号

热门点击

 

推荐技术资料

Seeed Studio
    Seeed Studio绐我们的印象总是和绘画脱离不了... [详细]
版权所有:51dzw.COM
深圳服务热线:13692101218  13751165337
粤ICP备09112631号-6(miitbeian.gov.cn)
公网安备44030402000607
深圳市碧威特网络技术有限公司
付款方式


 复制成功!