TMS320C55x DSP并行处理技术分析与应用
发布时间:2008/5/26 0:00:00 访问次数:797
    
    
     tms320c55x dsp是一种高性能的数字信号处理器,其强大的并行处理能力能够进一步提高其运算能力。本文介绍了c55xdsp的内核结构以及用户自定义并行指令时必须遵守如下3条并行处理基本规则,并介绍了6种典型的并行处理应用。利用本文介绍的方法使用并行处理能力将有效提高程序执行效率,同时降低系统功耗。 德州仪器公司(ti)的tms320c55x(简称c55x)dsp内核是在tms320c54x(简称c54x)基础上开发出来的,并可以兼容c54x的源代码。c55x的内核电压降到了1v,功耗降到0.05mw/mips,是c54x的1/6。c55x的运行时钟可以达到200mhz,是c54x的两倍,再加上c55x在c54x结构上作了相当大的扩展,程序执行时可以大量采用并行处理,这样使得c55x的实际运算能力可以达到300mips以上。 c55x dsp已越来越多地应用于各种手持便携终端当中。以下我们将通过详细介绍c55x的cpu内核结构,讨论其并行处理技术的应用。 c55x dsp内核结构 c55x dsp是一款采用改良型哈佛结构,高度模块化的数字信号处理器拥有比普通dsp更为丰富的硬件资源,能够有效提高运算能力。其内核结构如图1所示,整个处理器内部分为5个大的功能单元:存储器缓冲单元(m单元)、指令缓冲单元(i单元)、程序控制单元(p单元)、地址生成单元(a单元)和数据计算单元(d单元),各个功能单元之间通过总线连接。c55x dsp中有1条32位程序数据总线(p总线),1条24位程序地址总线(pa总线),5条16位的数据总线(b、c、d、e、f总线)和5条24位的数据地址总线(ba、ca、da、ea、fa总线)。这种高度模块化的多总线结构使得c55x dsp拥有超强的并行处理能力。 m单元主要管理数据区(包括i/o数据区)与中央处理器(cpu)之间的数据传送,使得高速cpu与外部相对低速的存储器之间在吞吐量上的瓶颈可以得到一定程度的缓解。 i单元从程序数据总线接收程序代码,并将其放入指令缓冲队列(ibq)中,然后利用指令译码器将指令缓冲队列中的程序代码进行译码,最后再将译码后的指令送给p单元、a单元、d单元进行处理。 p单元主要是通过判断是否满足条件执行指令的条件来控制程序地址的产生,达到控制程序流程的目的。程序控制单元中还含有程序控制寄存器、循环控制寄存器、中断寄存器和状态寄存器等硬件寄存器。通过循环控制寄存器的设置,可以直接控制程序中的循环次数等,而不必像在普通dsp中一样在外部对循环条件进行判断,从而可以有效提高运行效率。 a单元的功能是产生读写数据空间的地址。地址生成单元由数据地址产生电路(dagen)、16位的算术逻辑单元(alu)和一组寄存器构成。c55x dsp地址产生与其他功能模块分开,保证不会因为地址产生的原因使得单条指令需要在多个时钟周期内完成,提高了dsp的运行效率。a单元中的寄存器包括数据页寄存器、辅助寄存器、堆栈指针寄存器、循环寻址寄存器和临时寄存器等。 d单元是c55x dsp中主要的数据执行部件,完成大部分数据的算术运算工作。它由移位器、40位alu、两个17位的乘累加器(mac)和若干寄存器构成。数据计算单元的两个乘累加器能够并行使用,可以有效提高dsp运行效率。d单元中的寄存器包括累加器和两个用于维特比译码的专用指令寄存器。 并行处理基本准则 如图1所示c55x dsp内核结构可知,整个处理器的地址及数据运算由p单元、a单元和d单元完成。这三个单元相对独立,各自通过总线与数据区及程序区相连。这种相互独立的模块化结构,在硬件特性上确保这三个单元在同一时钟周期内能够进行并行处理,完成各自不同的运算操作。 在c55x dsp指令集中有一些固定搭配的并行执行指令(主要是利用d单元双mac结构的并行指令),这些被固定使用的并行指令之间使用“::”符号连接。除了这些固有的并行指令外,用户也可以根据cpu结构特征自行定义并行指令,并行的两条指令之间需使用“||”符号连接,以区分指令集中的并行指令。 用户自定义并行指令时,必须遵守如下3条并行处理基本规则: 规则1: 保证不产生硬件冲突,包括操作数、寄存器、总线及各运算模块的冲突。在对c55x dsp的所有操作中,对p、a、d三个单元进行操作的指令类型有14类,这14类操作指令之间有很大一部分可以相互并行运行。经过我们对c55x dsp硬件电路结构的分析,在只考虑硬件模块冲突的情况下,我们得出如图2所示的c55xdsp并行处理能力分析图。图中将14类操作指令组成了一个14×14的矩阵,列出了每一类指令与其自身及其他13类指令并行执行的能力。图中画有(符号的空格代表不能并行执行,相反没有任何符号的空格代表可以并行执行。 在考虑并行处理的硬件冲突时,还需要考虑总线资源的冲突。总线资源的冲突通常发生在数据总线和常量总线,c55x dsp中含有5条数据总线和2条常量总线,各条总线与各运算模块的连接如图3所示
    
    
     tms320c55x dsp是一种高性能的数字信号处理器,其强大的并行处理能力能够进一步提高其运算能力。本文介绍了c55xdsp的内核结构以及用户自定义并行指令时必须遵守如下3条并行处理基本规则,并介绍了6种典型的并行处理应用。利用本文介绍的方法使用并行处理能力将有效提高程序执行效率,同时降低系统功耗。 德州仪器公司(ti)的tms320c55x(简称c55x)dsp内核是在tms320c54x(简称c54x)基础上开发出来的,并可以兼容c54x的源代码。c55x的内核电压降到了1v,功耗降到0.05mw/mips,是c54x的1/6。c55x的运行时钟可以达到200mhz,是c54x的两倍,再加上c55x在c54x结构上作了相当大的扩展,程序执行时可以大量采用并行处理,这样使得c55x的实际运算能力可以达到300mips以上。 c55x dsp已越来越多地应用于各种手持便携终端当中。以下我们将通过详细介绍c55x的cpu内核结构,讨论其并行处理技术的应用。 c55x dsp内核结构 c55x dsp是一款采用改良型哈佛结构,高度模块化的数字信号处理器拥有比普通dsp更为丰富的硬件资源,能够有效提高运算能力。其内核结构如图1所示,整个处理器内部分为5个大的功能单元:存储器缓冲单元(m单元)、指令缓冲单元(i单元)、程序控制单元(p单元)、地址生成单元(a单元)和数据计算单元(d单元),各个功能单元之间通过总线连接。c55x dsp中有1条32位程序数据总线(p总线),1条24位程序地址总线(pa总线),5条16位的数据总线(b、c、d、e、f总线)和5条24位的数据地址总线(ba、ca、da、ea、fa总线)。这种高度模块化的多总线结构使得c55x dsp拥有超强的并行处理能力。 m单元主要管理数据区(包括i/o数据区)与中央处理器(cpu)之间的数据传送,使得高速cpu与外部相对低速的存储器之间在吞吐量上的瓶颈可以得到一定程度的缓解。 i单元从程序数据总线接收程序代码,并将其放入指令缓冲队列(ibq)中,然后利用指令译码器将指令缓冲队列中的程序代码进行译码,最后再将译码后的指令送给p单元、a单元、d单元进行处理。 p单元主要是通过判断是否满足条件执行指令的条件来控制程序地址的产生,达到控制程序流程的目的。程序控制单元中还含有程序控制寄存器、循环控制寄存器、中断寄存器和状态寄存器等硬件寄存器。通过循环控制寄存器的设置,可以直接控制程序中的循环次数等,而不必像在普通dsp中一样在外部对循环条件进行判断,从而可以有效提高运行效率。 a单元的功能是产生读写数据空间的地址。地址生成单元由数据地址产生电路(dagen)、16位的算术逻辑单元(alu)和一组寄存器构成。c55x dsp地址产生与其他功能模块分开,保证不会因为地址产生的原因使得单条指令需要在多个时钟周期内完成,提高了dsp的运行效率。a单元中的寄存器包括数据页寄存器、辅助寄存器、堆栈指针寄存器、循环寻址寄存器和临时寄存器等。 d单元是c55x dsp中主要的数据执行部件,完成大部分数据的算术运算工作。它由移位器、40位alu、两个17位的乘累加器(mac)和若干寄存器构成。数据计算单元的两个乘累加器能够并行使用,可以有效提高dsp运行效率。d单元中的寄存器包括累加器和两个用于维特比译码的专用指令寄存器。 并行处理基本准则 如图1所示c55x dsp内核结构可知,整个处理器的地址及数据运算由p单元、a单元和d单元完成。这三个单元相对独立,各自通过总线与数据区及程序区相连。这种相互独立的模块化结构,在硬件特性上确保这三个单元在同一时钟周期内能够进行并行处理,完成各自不同的运算操作。 在c55x dsp指令集中有一些固定搭配的并行执行指令(主要是利用d单元双mac结构的并行指令),这些被固定使用的并行指令之间使用“::”符号连接。除了这些固有的并行指令外,用户也可以根据cpu结构特征自行定义并行指令,并行的两条指令之间需使用“||”符号连接,以区分指令集中的并行指令。 用户自定义并行指令时,必须遵守如下3条并行处理基本规则: 规则1: 保证不产生硬件冲突,包括操作数、寄存器、总线及各运算模块的冲突。在对c55x dsp的所有操作中,对p、a、d三个单元进行操作的指令类型有14类,这14类操作指令之间有很大一部分可以相互并行运行。经过我们对c55x dsp硬件电路结构的分析,在只考虑硬件模块冲突的情况下,我们得出如图2所示的c55xdsp并行处理能力分析图。图中将14类操作指令组成了一个14×14的矩阵,列出了每一类指令与其自身及其他13类指令并行执行的能力。图中画有(符号的空格代表不能并行执行,相反没有任何符号的空格代表可以并行执行。 在考虑并行处理的硬件冲突时,还需要考虑总线资源的冲突。总线资源的冲突通常发生在数据总线和常量总线,c55x dsp中含有5条数据总线和2条常量总线,各条总线与各运算模块的连接如图3所示