位置:51电子网 » 技术资料 » 接口电路

数据存储器的分配介绍

发布时间:2008/8/28 0:00:00 访问次数:550

  本文讨论了在同时具有数据cache和片上sram的处理器上标量和矩阵变量的存储器分配方法。文以摩托罗拉公司的dsp56000为平台,文以ams gepard dsp为平台,分别讨论了如何把数据分配到x/y数据存储器块,以便最大限度地利用数据移动的并行性。dsp56000片上x、y数据存储器都是单端口的,并且容量较小。与dsp56000不同,ti公司的tms320c55x具有更多的数据总线,片上ram容量更大,且分块多,具有访问能力更强的daram。

  tms320c55x具有极低的功耗(0.05mw/mips) ,非常适合手持设备,现在已经集成至ti 公司专门针对3g手机的高性能多媒体处理器上。c55x 片上除了24k字节的指令cache外,还有64k字节的双端口存储器(daram),96k字节的单端口存储器(saram)。daram和saram总共160k字节,分成20个块,每个块8k字节。本文以c55x的视频编码器为例,讨论片上存储器的有效使用。

  数据的片外、片上动态分配

  因为片上存储器比片外存储器具有更高的数据访问能力和更小的访问功耗,所以尽可能分配数据到片上存储器,未能分配到片上的数据可在cpu处理前转移到片上,已经转移到片上的数据,应尽可能在片上保存直到其生命期结束,以便尽可能减少数据从片外存储器到片上存储器的数据转移。在视频编码等应用中,标量、常数相对于矩阵而言,通常数量较少,可以分配到片上;若分配到片外,在运算时直接存取片外数据,cpu流水线将会停滞。直接存储器存取(dma)可以在存储器之间,存储器与外设之间转移数据,除了dma通道参数初始化以外,dma转移数据和cpu处理数据可以并行进行。设置dma通道参数需要一定的时间,采用dma来转移单个变量或常数的开销可能比直接存取更大,因此dma适合转移具有较多数据的矩阵,并不适合片外标量的转移。包含大量元素的矩阵可以分配到片外,处理前使用dma转移到片上存储器。

  局部变量由编译器分配到软件栈上,c55x具有两个软件栈:数据栈和系统栈。c55x的栈有三种工作模式,可设置成双16比特快返回模式,以减少栈所占的存储器空间,并提高其运行速度。数据栈和系统栈在函数调用及返回时同时访问,可将这两个栈分配到daram块或者不同的saram块内。

  本文中数据存储器的分配,强调从实际多媒体应用处理的基本数据块出发,分析简单直观。多媒体算法总是将原始输入数据分成一定大小的块进行处理,并产生对应该输入的最后输出。如果片上没有足够的存储器,大量的输入数据和最后结果仅能可存储在片外。对于元素较多的矩阵,可以根据算法特征将矩阵分成若干数据子块,如h.263编码器中的宏块,搜索窗等,或者单纯根据可得到的片上存储器数量分成适当大小的子块逐个运算,然后分析数据子块的生命期和使用频率。我们定义数据子块的生命期为首次使用到最后一次使用之间的间隔,而通常变量的生命期为定义到最后使用之间的间隔,例如定义整型数组int mb[384],用来存储待编码宏块的数据,图像的某个宏块的数据在该宏块编码结束后,该宏块数据的生命期也就结束,然后该数组用来存储下一宏块的数据,因而变量的生命期远比存储在该变量中的某一具体数据生命期要长。若数据子块具有不相交的生命期,则可以共享相同的片上存储器。

  很多数据子块在运算中多次使用,可在首次运算前转移到片上,并尽可能保存到生命期结束,即直到这些数据不再使用为止,因而这些数据仅需要一次转移。将程序执行时间看成是由很多连续的时间间隔组成的,若在下个时间间隔内需要转移新的数据到片上供cpu处理,而片上又没有足够的存储器存储这些数据,这时将随后需要连续频繁使用的数据保留到片上;对于随后较少使用的数据,若片外存储器还保存有该数据的备份,这些数据可直接覆盖,等到下次使用时再从片外存储器拷贝到片上;否则,在覆盖前将数据转移到片外。在片上分配一定的缓冲区,用来存储需要再次使用的数据,可有效地减少片外存储器的访问。对于中间结果,尽量在使用前分阶段计算,使用后释放,以缩减存储中间结果的存储器需求。通过数据的这种动态分配,既可以减少或避免访问片外慢速存储器所引起的指令延迟,又可以减少片外到片上的数据转移。

  在h.263视频编码器中,编码是按宏块顺序进行的,intra宏块编码仅需要当前的编码宏块数据,inter宏块编码还需要以当前宏块为中心的重建图像搜索窗。因此根据算法特征将整帧输入图像划分成宏块,某个宏块数据在编码前转移到片上,这一宏块编码结束后就不再使用,这部分片上存储器就可释放,用来存储下一宏块数据。若在编码的同时采用dma转移下一个宏块,这需要在片上分配两个宏块的存储器空间,用来存储编码的原始图像。

  在进行inter帧编码时,运动搜索需要使用前一帧的重建图像作为参考,设搜索范围为[-16,+16],编码该宏块需要搜索参考图像中以编码宏块位置为中心的9个宏块,即前一帧中宏块(x,y) 的的重建图像直到编码(x+1,y+1)宏块后生命期才结束。以cif分辨率为例,不可能把一帧

  本文讨论了在同时具有数据cache和片上sram的处理器上标量和矩阵变量的存储器分配方法。文以摩托罗拉公司的dsp56000为平台,文以ams gepard dsp为平台,分别讨论了如何把数据分配到x/y数据存储器块,以便最大限度地利用数据移动的并行性。dsp56000片上x、y数据存储器都是单端口的,并且容量较小。与dsp56000不同,ti公司的tms320c55x具有更多的数据总线,片上ram容量更大,且分块多,具有访问能力更强的daram。

  tms320c55x具有极低的功耗(0.05mw/mips) ,非常适合手持设备,现在已经集成至ti 公司专门针对3g手机的高性能多媒体处理器上。c55x 片上除了24k字节的指令cache外,还有64k字节的双端口存储器(daram),96k字节的单端口存储器(saram)。daram和saram总共160k字节,分成20个块,每个块8k字节。本文以c55x的视频编码器为例,讨论片上存储器的有效使用。

  数据的片外、片上动态分配

  因为片上存储器比片外存储器具有更高的数据访问能力和更小的访问功耗,所以尽可能分配数据到片上存储器,未能分配到片上的数据可在cpu处理前转移到片上,已经转移到片上的数据,应尽可能在片上保存直到其生命期结束,以便尽可能减少数据从片外存储器到片上存储器的数据转移。在视频编码等应用中,标量、常数相对于矩阵而言,通常数量较少,可以分配到片上;若分配到片外,在运算时直接存取片外数据,cpu流水线将会停滞。直接存储器存取(dma)可以在存储器之间,存储器与外设之间转移数据,除了dma通道参数初始化以外,dma转移数据和cpu处理数据可以并行进行。设置dma通道参数需要一定的时间,采用dma来转移单个变量或常数的开销可能比直接存取更大,因此dma适合转移具有较多数据的矩阵,并不适合片外标量的转移。包含大量元素的矩阵可以分配到片外,处理前使用dma转移到片上存储器。

  局部变量由编译器分配到软件栈上,c55x具有两个软件栈:数据栈和系统栈。c55x的栈有三种工作模式,可设置成双16比特快返回模式,以减少栈所占的存储器空间,并提高其运行速度。数据栈和系统栈在函数调用及返回时同时访问,可将这两个栈分配到daram块或者不同的saram块内。

  本文中数据存储器的分配,强调从实际多媒体应用处理的基本数据块出发,分析简单直观。多媒体算法总是将原始输入数据分成一定大小的块进行处理,并产生对应该输入的最后输出。如果片上没有足够的存储器,大量的输入数据和最后结果仅能可存储在片外。对于元素较多的矩阵,可以根据算法特征将矩阵分成若干数据子块,如h.263编码器中的宏块,搜索窗等,或者单纯根据可得到的片上存储器数量分成适当大小的子块逐个运算,然后分析数据子块的生命期和使用频率。我们定义数据子块的生命期为首次使用到最后一次使用之间的间隔,而通常变量的生命期为定义到最后使用之间的间隔,例如定义整型数组int mb[384],用来存储待编码宏块的数据,图像的某个宏块的数据在该宏块编码结束后,该宏块数据的生命期也就结束,然后该数组用来存储下一宏块的数据,因而变量的生命期远比存储在该变量中的某一具体数据生命期要长。若数据子块具有不相交的生命期,则可以共享相同的片上存储器。

  很多数据子块在运算中多次使用,可在首次运算前转移到片上,并尽可能保存到生命期结束,即直到这些数据不再使用为止,因而这些数据仅需要一次转移。将程序执行时间看成是由很多连续的时间间隔组成的,若在下个时间间隔内需要转移新的数据到片上供cpu处理,而片上又没有足够的存储器存储这些数据,这时将随后需要连续频繁使用的数据保留到片上;对于随后较少使用的数据,若片外存储器还保存有该数据的备份,这些数据可直接覆盖,等到下次使用时再从片外存储器拷贝到片上;否则,在覆盖前将数据转移到片外。在片上分配一定的缓冲区,用来存储需要再次使用的数据,可有效地减少片外存储器的访问。对于中间结果,尽量在使用前分阶段计算,使用后释放,以缩减存储中间结果的存储器需求。通过数据的这种动态分配,既可以减少或避免访问片外慢速存储器所引起的指令延迟,又可以减少片外到片上的数据转移。

  在h.263视频编码器中,编码是按宏块顺序进行的,intra宏块编码仅需要当前的编码宏块数据,inter宏块编码还需要以当前宏块为中心的重建图像搜索窗。因此根据算法特征将整帧输入图像划分成宏块,某个宏块数据在编码前转移到片上,这一宏块编码结束后就不再使用,这部分片上存储器就可释放,用来存储下一宏块数据。若在编码的同时采用dma转移下一个宏块,这需要在片上分配两个宏块的存储器空间,用来存储编码的原始图像。

  在进行inter帧编码时,运动搜索需要使用前一帧的重建图像作为参考,设搜索范围为[-16,+16],编码该宏块需要搜索参考图像中以编码宏块位置为中心的9个宏块,即前一帧中宏块(x,y) 的的重建图像直到编码(x+1,y+1)宏块后生命期才结束。以cif分辨率为例,不可能把一帧

相关IC型号

Warning: Undefined variable $stockkeys in G:\website_51dzw\www.51dzw.com\code\tech\view.php on line 152

热门点击

 

推荐技术资料

耳机放大器
    为了在听音乐时不影响家人,我萌生了做一台耳机放大器的想... [详细]
版权所有:51dzw.COM
深圳服务热线:13751165337  13692101218
粤ICP备09112631号-6(miitbeian.gov.cn)
公网安备44030402000607
深圳市碧威特网络技术有限公司
付款方式