数字信号处理器的汇编程序优化方案
发布时间:2008/5/27 0:00:00 访问次数:502
    
    
    摘 要:虽然目前大多数dsp都支持c语言缟程,但是在实际工程应用中,多是用c语言编写流程控制,搭建工程框架,具体的算法模块以及比较耗时的功能模块还是采用汇编语言来编写。因为用汇编语言进行编程可以利用电路自身硬件结构的特点对其进行优化与精简,从而能够使一些复杂的算法和功能模块在实时性方面取得非常好的效果。文中从指令并行和软件流水二方面出发。以adi公司psl01系列电路的程序为实例,概括归纳出对dsp汇编程序进行优化的一般方法。
    关键词:数字信号处理器;汇编优化;指令并行;软件流水
    1 引言
    数字信号处理器(dsp)相对于模拟信号处理器有很大的优越性,表现在精度高,灵活性大,可靠性好,易于大规模集成等方面。随着半导体制造工艺的发展和计算机体系结构的改进,数字信号处理器的功能越来越强大,对信号处理系统的研究重点又重新回到软件算法上,而不再像过去那样过多地考虑硬件的可实现性。随着dsp运算能力的不断提高,能够实时处理的信号带宽也大大增加,数字信号处理的研究重点也由最初的非实时性应用转向高速实时应用。
    目前大多数dsp虽然都支持c语言编程,但是在实际工程应用中,最常用的方法是用c语言编写流程控制。搭建工程框架,具体的算法模块及比较耗时的功能模块还是采用汇编语言来编写。这是因为c语言虽然具有易读性、可移植性等优点,但是它不便于对系统硬件资源的直接控制,无法发挥dsp自身的特点,无法充分利用dsp系统结构中有限的资源。特别是在硬实时性系统中,用汇编语言进行编程可利用dsp自身硬件结构的特点对汇编程序进行优化与精简,往往能够使一些复杂的算法和功能模块在实时性方面取得非常好的效果。
    2 汇编程序优化
    dsp的种类繁多.各类dsp都有其自身的硬件特点,而对dsp汇编程序进行优化的过程就是根据程序自身特点充分利用dsp硬件资源的过程。因此,具体到不同的器件.其优化方式也不尽相同。目前比较流行的大多数dsf,都支持程序并行和软件流水,本文从这二方面出发,概括归纳出对汇编程序进行优化的一般方法。希望能够在对不同dsp汇编程序优化的过程中提供一些思考方式上的切人点。为了易于说明,笔者提供了一些实例,这些例子均是用ad公司tsl01系列电路的汇编语言编写的。
    2.1 加强程序并行
    程序的并行是汇编优化的关键。但是,在开始进行任何优化之前,必须了解从何处着手,首先了解瓶颈在何处。软件的某些部分可能只执行一次(初始化)或者只执行少数几次,费尽心思优化此部分代码并非明智之举,因为获得的整体节省效果是微乎其微。对程序的优化应将主要力量集中在最为费时的部分。
    (1) 循环展开达到并行
    通过对大量dsp程序的研究.可以发现整个程序比较耗时的部分往往是在1个或几个大的循环中。这些循环部分又往往可分为取数、处理、储存处理结果3个顺序执行的步骤,这3个步骤有明显的时间先后关系.只有取了数才能处理。处理后才能存储结果,这种时间上的相互依赖性为程序的并行带来了非常大的困难。
    循环展开是最常用的一种优化技巧。1次循环处理过程中的各语句是具有很强的时间先后顺序的,但是在连续2次循环过程中的各种语句却是相互独立的,它们是以相同的语句处理不同的数据。因此可以采用将循环次数减半,每2次(也可以是3次、4次等,应根据具体情况来确定,同时循环次数要做相应改变)循环合并为1次循环过程的方法来使程序并行,提高效率。
    例1是一段对图像进行二值化的代码的主要部分.是一段2次的循环,并未经过优化;实例2是将其循环展开,2次循环过程合并为1次循环的代码段(这里假设其每行像素个数为偶数,如果不为偶数只需在内循环外额外处理一个像素即可);实例3是循环展开并进行优化精简后的代码段。这3段代码均用tsl01的汇编语言编写,其中j4指向待处理的图像;i5指向处理后的图像;xro、xrl分别为图像行、列个数;xr2为二值化的阈值,像素灰度值大于或等于该值的使其等于该值,而像素灰度值小于该值的设为零。
    实例1:
    lco=xr0;;
    _picture_segment_outter_loop:
    lcl=xrl::
    _picture_segment_inner_loop:
    /*取图像各像素点*/
    xr3=[j4+=l];;
    /*像素
    
    
    摘 要:虽然目前大多数dsp都支持c语言缟程,但是在实际工程应用中,多是用c语言编写流程控制,搭建工程框架,具体的算法模块以及比较耗时的功能模块还是采用汇编语言来编写。因为用汇编语言进行编程可以利用电路自身硬件结构的特点对其进行优化与精简,从而能够使一些复杂的算法和功能模块在实时性方面取得非常好的效果。文中从指令并行和软件流水二方面出发。以adi公司psl01系列电路的程序为实例,概括归纳出对dsp汇编程序进行优化的一般方法。
    关键词:数字信号处理器;汇编优化;指令并行;软件流水
    1 引言
    数字信号处理器(dsp)相对于模拟信号处理器有很大的优越性,表现在精度高,灵活性大,可靠性好,易于大规模集成等方面。随着半导体制造工艺的发展和计算机体系结构的改进,数字信号处理器的功能越来越强大,对信号处理系统的研究重点又重新回到软件算法上,而不再像过去那样过多地考虑硬件的可实现性。随着dsp运算能力的不断提高,能够实时处理的信号带宽也大大增加,数字信号处理的研究重点也由最初的非实时性应用转向高速实时应用。
    目前大多数dsp虽然都支持c语言编程,但是在实际工程应用中,最常用的方法是用c语言编写流程控制。搭建工程框架,具体的算法模块及比较耗时的功能模块还是采用汇编语言来编写。这是因为c语言虽然具有易读性、可移植性等优点,但是它不便于对系统硬件资源的直接控制,无法发挥dsp自身的特点,无法充分利用dsp系统结构中有限的资源。特别是在硬实时性系统中,用汇编语言进行编程可利用dsp自身硬件结构的特点对汇编程序进行优化与精简,往往能够使一些复杂的算法和功能模块在实时性方面取得非常好的效果。
    2 汇编程序优化
    dsp的种类繁多.各类dsp都有其自身的硬件特点,而对dsp汇编程序进行优化的过程就是根据程序自身特点充分利用dsp硬件资源的过程。因此,具体到不同的器件.其优化方式也不尽相同。目前比较流行的大多数dsf,都支持程序并行和软件流水,本文从这二方面出发,概括归纳出对汇编程序进行优化的一般方法。希望能够在对不同dsp汇编程序优化的过程中提供一些思考方式上的切人点。为了易于说明,笔者提供了一些实例,这些例子均是用ad公司tsl01系列电路的汇编语言编写的。
    2.1 加强程序并行
    程序的并行是汇编优化的关键。但是,在开始进行任何优化之前,必须了解从何处着手,首先了解瓶颈在何处。软件的某些部分可能只执行一次(初始化)或者只执行少数几次,费尽心思优化此部分代码并非明智之举,因为获得的整体节省效果是微乎其微。对程序的优化应将主要力量集中在最为费时的部分。
    (1) 循环展开达到并行
    通过对大量dsp程序的研究.可以发现整个程序比较耗时的部分往往是在1个或几个大的循环中。这些循环部分又往往可分为取数、处理、储存处理结果3个顺序执行的步骤,这3个步骤有明显的时间先后关系.只有取了数才能处理。处理后才能存储结果,这种时间上的相互依赖性为程序的并行带来了非常大的困难。
    循环展开是最常用的一种优化技巧。1次循环处理过程中的各语句是具有很强的时间先后顺序的,但是在连续2次循环过程中的各种语句却是相互独立的,它们是以相同的语句处理不同的数据。因此可以采用将循环次数减半,每2次(也可以是3次、4次等,应根据具体情况来确定,同时循环次数要做相应改变)循环合并为1次循环过程的方法来使程序并行,提高效率。
    例1是一段对图像进行二值化的代码的主要部分.是一段2次的循环,并未经过优化;实例2是将其循环展开,2次循环过程合并为1次循环的代码段(这里假设其每行像素个数为偶数,如果不为偶数只需在内循环外额外处理一个像素即可);实例3是循环展开并进行优化精简后的代码段。这3段代码均用tsl01的汇编语言编写,其中j4指向待处理的图像;i5指向处理后的图像;xro、xrl分别为图像行、列个数;xr2为二值化的阈值,像素灰度值大于或等于该值的使其等于该值,而像素灰度值小于该值的设为零。
    实例1:
    lco=xr0;;
    _picture_segment_outter_loop:
    lcl=xrl::
    _picture_segment_inner_loop:
    /*取图像各像素点*/
   &nbsr3=[j4+=l];;
    /*像素