Renesas 矩阵架构的大规模平行处理器
发布时间:2008/5/27 0:00:00 访问次数:488
日前,瑞萨科技公司(renesas technology corp.)宣布,已开发出一种适用于图像和音频多媒体数据处理的基于矩阵架构的大规模平行处理器。
这款创新配置的处理器是一个大规模平行可编程的器件*1,具有紧凑的2,048个处理单元和1mb sram,它可以在200mhz的时钟频率下实现40gops(每秒运行10亿次)的性能。
瑞萨科技的研究人员在于2月5日开始在旧金山举行的2006年ieee国际固态电路会议(isscc)上披露了该器件的细节。
图像和音频多媒体数据处理能力对数字家电和其他电子产品至关重要,其中包括诸如快速傅立叶变换、卷积和绝对值差分运算求和相结合的复杂运算。迄今为止,对这些运算的处理通常是使用硬连接逻辑电路或专门用于数字信号处理的dsp(数字信号处理器)。然而,最近诸如图像应用的像素数迅速增加的多媒体应用的戏剧性进展,增加了改善多媒体数据处理性能的需求。与此同时,为了简化对各种多媒体数据标准的支持,利用可编程器件实现这种处理的需求也在日益增长。
改善处理性能的一种方式是通过使用更精细的半导体工艺来提高工作频率。然而,在继续保持更低功耗的同时获得性能方面的重要改善,并利用传统的dsp和类似的架构实现所需的性能是很困难的。虽然粗粒度mimd(多指令多数据)处理器已经发布,它可作为一种提高处理性能的架构,不过它也存在降低功耗的问题。
为了解决这些问题,瑞萨科技利用源于dsp或mimd类型处理器的一种独特的存储器技术开发了一种矩阵型处理器。
这种新型处理器是细粒度simd(单指令多数据)类型的大规模平行可编程器件,它具有以下的结构特点。
1. 基本配置:2位处理单元(pe)和作为专用数据寄存器的512位sram
2. 2,048个pe和总共1mb的sram,以及与pe之间的紧密连接
这种处理器提高性能的关键在于如何有效地使处理单元独立工作。同时,布局和处理单元及数据寄存器的连接是降低占板面积和功耗的重要因素。
这些问题是通过以下技术解决的。
(1) 数据寄存器与pe之间的连接,以及pe之间的互连
1. h通道(水平通道)连接的pe
这是执行处理单元和数据寄存器之间数据传输的一个连接路径,包括运行的基本路径。在一个时钟周期内执行的数据传输不会产生相互的干扰。
2. v通道(垂直通道)连接的pe
这是执行pe之间数据传输的一个连接路径。v通道可以在一个固定的距离内执行pe之间的平行数据传输,这个传输路径有助于利用数字信号处理运算有效地进行基本的蝴蝶计算*2。
h通道和v通道可以实现200mhz运行条件下816gbps(每秒千兆位)的高传输速度。
(2) pe电路配置
标准simd处理器存在的一个问题是其对执行条件转移无能为力。这种处理器在2位pe电路配置中采用了一种特殊的技术。每个pe有一个称为v标记的1位寄存器(有效标记),无论是h通道还是v通道的数据传输,或者是pe本身的运算,都要执行选择。利用这种方法,就可以在每个时钟周期执行一次条件转移,非常有助于加速蝴蝶计算。
(3) 双排复合的读-改-写运算sram电路
基本上,一个pe有2个输入和1个输出。因此,3端口数据寄存器必须使一个pe持续不断地运行,不过,为了实现这个功能,可以使用以下配置的单端口sram。
1. sram为双排内存组成。从这2个内存分别地读取2个输入数据。
2. 输出数据同时重写到用于读取的数据上,这个重写是通过一个存储器的读-改-写运算方法实现的。
因此,从读到计算,再到写的顺序可以在一个时钟周期内完成,而且数据寄存器得以在一个小占板面积中实现。
日前,瑞萨科技公司(renesas technology corp.)宣布,已开发出一种适用于图像和音频多媒体数据处理的基于矩阵架构的大规模平行处理器。
这款创新配置的处理器是一个大规模平行可编程的器件*1,具有紧凑的2,048个处理单元和1mb sram,它可以在200mhz的时钟频率下实现40gops(每秒运行10亿次)的性能。
瑞萨科技的研究人员在于2月5日开始在旧金山举行的2006年ieee国际固态电路会议(isscc)上披露了该器件的细节。
图像和音频多媒体数据处理能力对数字家电和其他电子产品至关重要,其中包括诸如快速傅立叶变换、卷积和绝对值差分运算求和相结合的复杂运算。迄今为止,对这些运算的处理通常是使用硬连接逻辑电路或专门用于数字信号处理的dsp(数字信号处理器)。然而,最近诸如图像应用的像素数迅速增加的多媒体应用的戏剧性进展,增加了改善多媒体数据处理性能的需求。与此同时,为了简化对各种多媒体数据标准的支持,利用可编程器件实现这种处理的需求也在日益增长。
改善处理性能的一种方式是通过使用更精细的半导体工艺来提高工作频率。然而,在继续保持更低功耗的同时获得性能方面的重要改善,并利用传统的dsp和类似的架构实现所需的性能是很困难的。虽然粗粒度mimd(多指令多数据)处理器已经发布,它可作为一种提高处理性能的架构,不过它也存在降低功耗的问题。
为了解决这些问题,瑞萨科技利用源于dsp或mimd类型处理器的一种独特的存储器技术开发了一种矩阵型处理器。
这种新型处理器是细粒度simd(单指令多数据)类型的大规模平行可编程器件,它具有以下的结构特点。
1. 基本配置:2位处理单元(pe)和作为专用数据寄存器的512位sram
2. 2,048个pe和总共1mb的sram,以及与pe之间的紧密连接
这种处理器提高性能的关键在于如何有效地使处理单元独立工作。同时,布局和处理单元及数据寄存器的连接是降低占板面积和功耗的重要因素。
这些问题是通过以下技术解决的。
(1) 数据寄存器与pe之间的连接,以及pe之间的互连
1. h通道(水平通道)连接的pe
这是执行处理单元和数据寄存器之间数据传输的一个连接路径,包括运行的基本路径。在一个时钟周期内执行的数据传输不会产生相互的干扰。
2. v通道(垂直通道)连接的pe
这是执行pe之间数据传输的一个连接路径。v通道可以在一个固定的距离内执行pe之间的平行数据传输,这个传输路径有助于利用数字信号处理运算有效地进行基本的蝴蝶计算*2。
h通道和v通道可以实现200mhz运行条件下816gbps(每秒千兆位)的高传输速度。
(2) pe电路配置
标准simd处理器存在的一个问题是其对执行条件转移无能为力。这种处理器在2位pe电路配置中采用了一种特殊的技术。每个pe有一个称为v标记的1位寄存器(有效标记),无论是h通道还是v通道的数据传输,或者是pe本身的运算,都要执行选择。利用这种方法,就可以在每个时钟周期执行一次条件转移,非常有助于加速蝴蝶计算。
(3) 双排复合的读-改-写运算sram电路
基本上,一个pe有2个输入和1个输出。因此,3端口数据寄存器必须使一个pe持续不断地运行,不过,为了实现这个功能,可以使用以下配置的单端口sram。
1. sram为双排内存组成。从这2个内存分别地读取2个输入数据。
2. 输出数据同时重写到用于读取的数据上,这个重写是通过一个存储器的读-改-写运算方法实现的。
因此,从读到计算,再到写的顺序可以在一个时钟周期内完成,而且数据寄存器得以在一个小占板面积中实现。