用CAM实现OC-48线速字符串匹配的FPGA设计
发布时间:2008/5/28 0:00:00 访问次数:1205
互联网络蓬勃发展的今天,在网络入侵检测系统(nids)中,大部分的网络入侵检测设备几乎都依赖于一些基于特征码检测的字符串匹配算法,而字符串匹配算法的实现几乎都是由软件来实现的。目前应用比较成功的实例有,snort软件使用字符串匹配算法对包含特征码的数据包进行检测。但是软件在内容字节流中进行搜索匹配时,需要在不同的处理单元中/内搬移或读取数据,这对于高速实现线速(oc-48)的检测系统来说,带来了很大的处理负荷。因此,如果采用硬件在数据包进入内存之前实现字符串匹配这一功能,将大大减少后端软件操作的处理负载。
基于ixp2400和fpga的系统结构
ixp2400是英特尔公司推出的第二代网络处理器芯片,大量应用于宽带接入、防火墙、nids和负载均衡等系统中,它能满足oc-48网络线速的处理要求。玉衡铱达公司设计开发的骨干网络监控系统采用了ixp2400作为数据包主处理器,fpga作为协处理器的硬件架构来实现,系统结构框图如图1所示。
如图1所示,系统外接了4个千兆光口,用以接收和发送数据包,它是整个监控系统和骨干网络的交际通道。光口数据包通过光模块进入pmc-sierra公司的mac3386芯片。接收数据包时,以太网帧数据包从千兆光口进入mac3386,mac3386对数据包进行解码后通过pos phy3接口进入fpga的fifo单元,同时对进入fpga的数据包进行模式字符串(pattern-string)的匹配操作,处理后的数据包通过pos phy3接口传输到ixp2400的msf单元进行下一步的处理。发送时,fpga只需要将ixp2400发送来的数据包通过pos phy3接口传输给mac3386,mac3386对数据包进行编码后发送给光模块,光模块通过光口将数据包发送出去。ixp2400提供了一组数据总线来访问外部设备寄存器,ixp2400中称之为慢端口(slow port)。在这里,和fpga相连的慢端口总线的一部分功能是作为写入fpga的模式字符串通道。
图1:基于ixp2400和fpga的系统结构示意图。
pos phy3是一种标准化的网络传输接口,接口数据传输速率为2.5gbps,最大支持oc-48的传输速率接口。pos phy3包括接收和发送两组32位总线,工作频率为104mhz,峰值吞吐率为3.2gbps。支持2.5gbps数据包的全双工操作。pos phy3接口接收时序图如图2所示。
图2:pos phy3接口接收逻辑时序图。
该时序图描述了pos phy3接口接收数据包时,数据流在pos phy3总线上的传输方式和相关的控制信号关系。关于更进一步的详细描述可以参考pos phy3接口标准文档。
系统采用时钟同步设计,在时钟上升沿进行数据采样,与fpga相连的mac3386、ixp2400的工作时钟由fpga的dcm单元提供,可以保证数据采集的同步和稳定性。
cam的设计
本设计中,由于要实现几路32b的模式字符串匹配,需要占用大量的ram存储单元,同时还得为数据包缓存fifo保留一定的存储单元,综合几家fpga芯片厂商ram的存储容量,决定选用赛灵思的virtex2或virtex pro系列的fpga芯片,因为对于相同规模的逻辑资源和寄存器资源来说, virtex2或virtex pro系列的fpga芯片的ram容量比其他厂商都要多几倍。
fpga中,与ram存储单元相关的资源有三类:block ram、lut、寄存器。这三类资源可以通过配置和粘合逻辑(glue logic)实现为不同类型和位宽大小的单端口/双端口ram、rom、cam、fifo等。fpga中cam的实现和配置非常灵活,cam是实现模式字符串模式匹配的核心资源。
cam即内容可寻址存储器。cam这种存储器在其每个存储单元都包含了一个内嵌的比较逻辑,cam基于内容寻址,通过硬件电路并行查找,实现快速匹配。一般来说在一个时钟周期内,写入cam的待比较数据和其内部存储的每一个数据进行比较,并返回与端口数据相同的内部数据存储的地址和是否匹配的标识符。cam的这种并行处理特性使得它在数据分选领域倍受青睐,被广泛应用在以太网网址搜寻、路由器中的地址交换表、高速数据处理等方面。
cam对于高速的数据包模式字符串匹配查找操作来说,我们需要足够快的时间来完成,如果按照pos phy3接口标准来说,必须保证寄存器建立(setup)时间和cam一次查找匹配时间之和小于1个周期10ns(一般情况下,fpga设计中的保持(hold up)时间都可以满足,可以不予考虑)。根据fpga芯片厂商数据手册提供的性能基准数据,我们配置cam存储器选用的资源是block ram,配置的地址匹配类型选择的是非编码地址的多匹配方式(multi match unencoded),选用该项配置的cam32_32完成一次匹配查找的操作时间为7ns左右,cam32_32的配置大小是32位位宽,32个存储单元的地址深度。
对于pos phy3的接口标准来说,数据传输操作周期为10ns,根据性能基准数据,我们因此除去寄存器的建立时间(<2ns),完成一次cam匹配操作是完全可以和pos phy3的接口标准相匹配的。根据数据包在pos phy3接口的传输字节
互联网络蓬勃发展的今天,在网络入侵检测系统(nids)中,大部分的网络入侵检测设备几乎都依赖于一些基于特征码检测的字符串匹配算法,而字符串匹配算法的实现几乎都是由软件来实现的。目前应用比较成功的实例有,snort软件使用字符串匹配算法对包含特征码的数据包进行检测。但是软件在内容字节流中进行搜索匹配时,需要在不同的处理单元中/内搬移或读取数据,这对于高速实现线速(oc-48)的检测系统来说,带来了很大的处理负荷。因此,如果采用硬件在数据包进入内存之前实现字符串匹配这一功能,将大大减少后端软件操作的处理负载。
基于ixp2400和fpga的系统结构
ixp2400是英特尔公司推出的第二代网络处理器芯片,大量应用于宽带接入、防火墙、nids和负载均衡等系统中,它能满足oc-48网络线速的处理要求。玉衡铱达公司设计开发的骨干网络监控系统采用了ixp2400作为数据包主处理器,fpga作为协处理器的硬件架构来实现,系统结构框图如图1所示。
如图1所示,系统外接了4个千兆光口,用以接收和发送数据包,它是整个监控系统和骨干网络的交际通道。光口数据包通过光模块进入pmc-sierra公司的mac3386芯片。接收数据包时,以太网帧数据包从千兆光口进入mac3386,mac3386对数据包进行解码后通过pos phy3接口进入fpga的fifo单元,同时对进入fpga的数据包进行模式字符串(pattern-string)的匹配操作,处理后的数据包通过pos phy3接口传输到ixp2400的msf单元进行下一步的处理。发送时,fpga只需要将ixp2400发送来的数据包通过pos phy3接口传输给mac3386,mac3386对数据包进行编码后发送给光模块,光模块通过光口将数据包发送出去。ixp2400提供了一组数据总线来访问外部设备寄存器,ixp2400中称之为慢端口(slow port)。在这里,和fpga相连的慢端口总线的一部分功能是作为写入fpga的模式字符串通道。
图1:基于ixp2400和fpga的系统结构示意图。
pos phy3是一种标准化的网络传输接口,接口数据传输速率为2.5gbps,最大支持oc-48的传输速率接口。pos phy3包括接收和发送两组32位总线,工作频率为104mhz,峰值吞吐率为3.2gbps。支持2.5gbps数据包的全双工操作。pos phy3接口接收时序图如图2所示。
图2:pos phy3接口接收逻辑时序图。
该时序图描述了pos phy3接口接收数据包时,数据流在pos phy3总线上的传输方式和相关的控制信号关系。关于更进一步的详细描述可以参考pos phy3接口标准文档。
系统采用时钟同步设计,在时钟上升沿进行数据采样,与fpga相连的mac3386、ixp2400的工作时钟由fpga的dcm单元提供,可以保证数据采集的同步和稳定性。
cam的设计
本设计中,由于要实现几路32b的模式字符串匹配,需要占用大量的ram存储单元,同时还得为数据包缓存fifo保留一定的存储单元,综合几家fpga芯片厂商ram的存储容量,决定选用赛灵思的virtex2或virtex pro系列的fpga芯片,因为对于相同规模的逻辑资源和寄存器资源来说, virtex2或virtex pro系列的fpga芯片的ram容量比其他厂商都要多几倍。
fpga中,与ram存储单元相关的资源有三类:block ram、lut、寄存器。这三类资源可以通过配置和粘合逻辑(glue logic)实现为不同类型和位宽大小的单端口/双端口ram、rom、cam、fifo等。fpga中cam的实现和配置非常灵活,cam是实现模式字符串模式匹配的核心资源。
cam即内容可寻址存储器。cam这种存储器在其每个存储单元都包含了一个内嵌的比较逻辑,cam基于内容寻址,通过硬件电路并行查找,实现快速匹配。一般来说在一个时钟周期内,写入cam的待比较数据和其内部存储的每一个数据进行比较,并返回与端口数据相同的内部数据存储的地址和是否匹配的标识符。cam的这种并行处理特性使得它在数据分选领域倍受青睐,被广泛应用在以太网网址搜寻、路由器中的地址交换表、高速数据处理等方面。
cam对于高速的数据包模式字符串匹配查找操作来说,我们需要足够快的时间来完成,如果按照pos phy3接口标准来说,必须保证寄存器建立(setup)时间和cam一次查找匹配时间之和小于1个周期10ns(一般情况下,fpga设计中的保持(hold up)时间都可以满足,可以不予考虑)。根据fpga芯片厂商数据手册提供的性能基准数据,我们配置cam存储器选用的资源是block ram,配置的地址匹配类型选择的是非编码地址的多匹配方式(multi match unencoded),选用该项配置的cam32_32完成一次匹配查找的操作时间为7ns左右,cam32_32的配置大小是32位位宽,32个存储单元的地址深度。
对于pos phy3的接口标准来说,数据传输操作周期为10ns,根据性能基准数据,我们因此除去寄存器的建立时间(<2ns),完成一次cam匹配操作是完全可以和pos phy3的接口标准相匹配的。根据数据包在pos phy3接口的传输字节
上一篇:FPGA设计全流程
上一篇:通过物理综合与优化提升设计性能