采用FPGA实现脉动阵列
发布时间:2008/5/27 0:00:00 访问次数:675
    
     作者:wayne music,ph.d. 莱迪思半导体公司
    
     微电子学的发展彻底改变了计算机的设计:集成电路技术增加了能够安装到单个芯片中的元器件数目及其复杂度。因此,采用这种技术可以构建低成本、专用的外围器件,从而迅速地解决复杂的问题。
     大规模集成电路(vlsi)技术明确地指出:简单和规则的互连导致廉价的实现方式以及高密度,而高密度能够实现高性能和低开销。有鉴于此,我们致力于设计并行的运算法则,其拥有简单且规则的数据流。我们也致力于将流水线技术作为在硬件中实现这些算法的通用手段。借助于流水线技术,输入和输出之间的处理可以同时进行,因此,总的执行时间变得最小。在流水线的每一阶段上,采用流水线技术外加多处理技术能够获得最佳的性能。在下面,我们要论证一个微处理器阵列能够借助流水线矩阵计算,使得速度得到最佳的提升。图1是一个脉动阵列的简单例子。在这种结构下有两个输入向量阵列,z和x。处理单元有一个值, ,通常是根据定义在单元内的运算法则而得到的结果。其输出是一个向量, 。
     图1中的脉动阵列的输出可以被简单地表示为向量矩阵关系: 它显示了如何采用一对脉动阵列来解决在很多信号处理情形 下出现的线性最小二乘问题。主阵列(三角形的)常用来实现givens旋转法 的流水线序列,其通过归一化变换到上三角形,从而减小数据矩阵 。
     重要的实时应用的数量在增长,尤其在无线通信领域,要求系统在出现强干扰的情况下可靠地工作。基于码分多址(cdma)技术的现代无线通信系统由于多路径衰减、多址干扰(mai)、码间干扰(isi)这三个主要因素造成容量和性能上的限制。克服这些困难的常用方案是采用发射功率控制、错误控制编码以及典型地基于传统耙状接收机的多种技术。耙状接收机的性能由于快速时变通道的出现而大打折扣,这些快速时变通道在实际的移动无线通信系统中是很常见的。有两种干扰与用于cdma下行线的耙状接收机有关:一种是指间干扰(ifi);另一种是多址干扰(mai)。这两种干扰都是由于无线通道的频率选择引起的。当采用耙状接收机时,ifi和mai会使cdma系统的容量受到限制。
     改善cdma传输的性能需要抑制ifi和mai。当延迟扩散较大时,可以通过信道均衡,将频率选择性衰减信道转换为频率非选择性衰减信道。这样,基于自适应规则的均衡接收机似乎是一个有效的cdma接收机。它通过复原正交扩频码来恢复发送的数据,从而抑制了ifi和mai。自适应的最小均方(lms)法和递归最小二乘(rls)法迭代地计算时变信道。借助相对较短的存放数据的缓冲器,它们具有较短的处理延时的优点。rls算法注重回溯到初始态的所有信息,根据到达的新数据更新加权向量的估计值。由于收敛性较好,因此rls优于lms。另外,如果自适应算法发散,或者收敛缓慢,它将很难实现对ifi和mai的抑制,而这是均衡接收机非常基本的目标。另一方面,rls算法需要在信号保持期间进行大量的运算,而这不是一个实际的无线电系统所期望的,因为简化是降低成本的关键所在。在改进rls滤波器的数字特性情形下,引入通过qr分解(qrd)得到的输入矩阵的直角三角形。这样的一个三角形化过程可以通过一系列的givens旋转法来实现,这种做法常被用来在基于样本为单位的原理上实现qr的更新。
     采用givens旋转法的qrd-rls算法的一种有效的并行三角形脉动处理器阵列的实现方法已经问世 。一个统一的周期性时钟控制着这个脉动阵列,它执行平面旋转以消除输入信号矩阵的一些元素。通常,旋转角度的计算需要对开方、乘法和加法运算求逆。这种方法称作基本的givens旋转法,但存在自由的givens平方根 。cordic算法也可以仅仅采用二进制的移位和加法来实现,但是由于需要定标、更多的迭代以及计算中可能的不稳点而增加成本。图2举了一个常规的cdma系统的例子。作为比较,图3展示了一个构建出的rls自适应均衡器。
rls的目的是在每个采样时间 计算复数的权重向量,从而减小残值向量的模。 这里 是一个复数或观测值, 是想要得到的复数向量,它要在同一时刻立即估计出来。包含在计算中、但没有明确地表示出来的是一个指数型的权重因子(遗忘因子),它以累进的方式极大地加权于旧的数据上。这一加权可以通过优于实际乘法运算的二进制移位方式来实现。在图4中,主三角形阵列abc通过实行式(2)的qrd变换将数据矩阵 转换为一个上三角形矩阵 。 是一个酉矩阵,它由一系列的givens旋转产生。图4中的圆形物体是旋转(边界)处理器单元,方形物体是向量化(内部)的处理器单元。旋转单
    
     作者:wayne music,ph.d. 莱迪思半导体公司
    
     微电子学的发展彻底改变了计算机的设计:集成电路技术增加了能够安装到单个芯片中的元器件数目及其复杂度。因此,采用这种技术可以构建低成本、专用的外围器件,从而迅速地解决复杂的问题。
     大规模集成电路(vlsi)技术明确地指出:简单和规则的互连导致廉价的实现方式以及高密度,而高密度能够实现高性能和低开销。有鉴于此,我们致力于设计并行的运算法则,其拥有简单且规则的数据流。我们也致力于将流水线技术作为在硬件中实现这些算法的通用手段。借助于流水线技术,输入和输出之间的处理可以同时进行,因此,总的执行时间变得最小。在流水线的每一阶段上,采用流水线技术外加多处理技术能够获得最佳的性能。在下面,我们要论证一个微处理器阵列能够借助流水线矩阵计算,使得速度得到最佳的提升。图1是一个脉动阵列的简单例子。在这种结构下有两个输入向量阵列,z和x。处理单元有一个值, ,通常是根据定义在单元内的运算法则而得到的结果。其输出是一个向量, 。
     图1中的脉动阵列的输出可以被简单地表示为向量矩阵关系: 它显示了如何采用一对脉动阵列来解决在很多信号处理情形 下出现的线性最小二乘问题。主阵列(三角形的)常用来实现givens旋转法 的流水线序列,其通过归一化变换到上三角形,从而减小数据矩阵 。
     重要的实时应用的数量在增长,尤其在无线通信领域,要求系统在出现强干扰的情况下可靠地工作。基于码分多址(cdma)技术的现代无线通信系统由于多路径衰减、多址干扰(mai)、码间干扰(isi)这三个主要因素造成容量和性能上的限制。克服这些困难的常用方案是采用发射功率控制、错误控制编码以及典型地基于传统耙状接收机的多种技术。耙状接收机的性能由于快速时变通道的出现而大打折扣,这些快速时变通道在实际的移动无线通信系统中是很常见的。有两种干扰与用于cdma下行线的耙状接收机有关:一种是指间干扰(ifi);另一种是多址干扰(mai)。这两种干扰都是由于无线通道的频率选择引起的。当采用耙状接收机时,ifi和mai会使cdma系统的容量受到限制。
     改善cdma传输的性能需要抑制ifi和mai。当延迟扩散较大时,可以通过信道均衡,将频率选择性衰减信道转换为频率非选择性衰减信道。这样,基于自适应规则的均衡接收机似乎是一个有效的cdma接收机。它通过复原正交扩频码来恢复发送的数据,从而抑制了ifi和mai。自适应的最小均方(lms)法和递归最小二乘(rls)法迭代地计算时变信道。借助相对较短的存放数据的缓冲器,它们具有较短的处理延时的优点。rls算法注重回溯到初始态的所有信息,根据到达的新数据更新加权向量的估计值。由于收敛性较好,因此rls优于lms。另外,如果自适应算法发散,或者收敛缓慢,它将很难实现对ifi和mai的抑制,而这是均衡接收机非常基本的目标。另一方面,rls算法需要在信号保持期间进行大量的运算,而这不是一个实际的无线电系统所期望的,因为简化是降低成本的关键所在。在改进rls滤波器的数字特性情形下,引入通过qr分解(qrd)得到的输入矩阵的直角三角形。这样的一个三角形化过程可以通过一系列的givens旋转法来实现,这种做法常被用来在基于样本为单位的原理上实现qr的更新。
     采用givens旋转法的qrd-rls算法的一种有效的并行三角形脉动处理器阵列的实现方法已经问世 。一个统一的周期性时钟控制着这个脉动阵列,它执行平面旋转以消除输入信号矩阵的一些元素。通常,旋转角度的计算需要对开方、乘法和加法运算求逆。这种方法称作基本的givens旋转法,但存在自由的givens平方根 。cordic算法也可以仅仅采用二进制的移位和加法来实现,但是由于需要定标、更多的迭代以及计算中可能的不稳点而增加成本。图2举了一个常规的cdma系统的例子。作为比较,图3展示了一个构建出的rls自适应均衡器。
rls的目的是在每个采样时间 计算复数的权重向量,从而减小残值向量的模。 这里 是一个复数或观测值, 是想要得到的复数向量,它要在同一时刻立即估计出来。包含在计算中、但没有明确地表示出来的是一个指数型的权重因子(遗忘因子),它以累进的方式极大地加权于旧的数据上。这一加权可以通过优于实际乘法运算的二进制移位方式来实现。在图4中,主三角形阵列abc通过实行式(2)的qrd变换将数据矩阵 转换为一个上三角形矩阵 。 是一个酉矩阵,它由一系列的givens旋转产生。图4中的圆形物体是旋转(边界)处理器单元,方形物体是向量化(内部)的处理器单元。旋转单