随着计算机和网络的高速发展,计算机机群化,网络广域化,人们已经不再局限在一台计算机,局限在一个地点办公,而是多台计算机、多地点同时办公,这样就要采用远程控制和远程机群管理。现在有一些软件实现的远程控制,但是只能控制一台机器,而且受到操作系统的限制。本文中提出了实现远程控制的硬件方法。 在实现过程中,最为主要的部分就是视频信号的传输问题。若要实现远程控制,就要把视频信号数据经过网络传输到控制端主机,因此要把视频模拟信号数字化,也就是模数变换。我们必须保证图像清晰度和分辨率,这样模数变换后的数据量就会很大,我们就不得不考虑网络传输能力的问题。当然局域网内部传输速度很快,但是我们要做到可以在Internet上传输,就面临着数据的压缩问题。
1 视频信号数据压缩算法原理介绍
对数据压缩有好多方法,按照能否完全恢复到原来数据的情形来分有2种,即有损压缩和无损压缩。有损压缩比如JEPG压缩,一张位图被压缩成JPEG格式的过程中会丢掉一些数据,这样在解码的时候就不能恢复到原来的那张位图了。而无损压缩,以LZ,LZ77,LZW为代表,压缩前后的数据没有损失。
1.1 LZ77压缩算法
LZ77算法是无损压缩算法中的一种,采用词典编码思想,在词典中查找最大匹配字符串来实现压缩,具有快速解压缩和内存消耗小的特点而被广泛采用。现在用得很多的Gzip也是采用LZ77方案的。
LZ77数据编解码原理的算法如图1和图2所示。
1.2 JPEG压缩的算法核心DCT〔1〕
JPEG压缩过程如图3所示。
在JPEG压缩算法中通过离散余弦变换DCT(Discrete Cosine Transformation)去除数据冗余,来达到压缩数据的目的。JPEG采用8×8子块的二维离散余弦变换算法:
DCT变换后矩阵内的某个数值,u,v代表DCT变换后矩阵内某个数值的坐标位置。Syx代表图像数据矩阵内的数个数值,y,x代表图像数据矩阵内某个数值的坐标位置。
2 实验环境
实验中采用的是德州仪器(TI)公司的DSP产品TMS320C6000中64系列。从64系列DSP的特点来看适合于高速图像压缩。这种定点DSP内核电压为1.2 V左右,工作频率可达500/600/720 MHz,这样每秒可以执行4000/4800/5760条指令(MIPS)。这种芯片支持那些既要求高性能、高可编程性,又要求低功耗、低价位应用的快速开发。除了高速内核还有一个64信道增强型直接存储器存取Enhanced Direct-Memory-Access(EDMA)能够实现高效输入/输出(I/O);1个16 b和1个64 b外部存储器接口(EMIF)用于高带宽存储器存取;3个多通道缓冲串口McBSP;2个32 b计时器能够记录外部事件;1个HPI(16/32 b)主机接口;1个16 b通用输入/输出(GPIO)引脚,经编程可生成不同CPU中断和EDMA事件。另外6416还有Turbo Decoder Coprocessor(TCP),ViterbiDecoder Coprocessor,UniversalTestand Operations PHYInterface for ATM(UTOPIA)。
我们可以利用VLIW超长指令集结构。VLIW是一种非常适合图像压缩处理等多媒体应用的结构,他支持指令级并行性,这就使得采用他的DSP可以在单时钟周期内执行多项操作。TI公司提供了可变长度解码和离散余弦变换等图像、视频编解码中固有的算法的汇编语言函数库,从而加快算法的运行,缩短数据压缩时间。
FPGA也可以作JPGE压缩,但是JPEG压缩属于分割及区域特征提取等不同层次、不同种类的处理。其中有的运算本身结构比较简单,但是数据量大、计算速度要求高。在实时信号处理系统中,低层的信号预处理算法处理的数据量大,对处理速度的要求高,但原理框图如图4所示(参考TI的第三DSP方开发公司Ateme公司的IEK(Imaging Evaluation Kit))。
FPGA与DSP,DSP与ARM之间用的是FIFO,逐次地发送和提取。
第一步:AD采样,FPGA控制什么时候采样和采样频率等,执行时间T1。
第二步:FPGA向FIFO1发数据,(此时AD在采样,直到一张图像)数据满了,同时DSP提取数据(DSP会启动DMA把数据送到SDRAM中,直到一张图像)执行时间T2。
第三步:DSP进行JPEG压缩,压缩后的数据也在同一SDRAM中,执行时间T3。
第四步:DSP向FIFO2发数据,FIFO满了之后ARM从中提取数据,并发送执行时间T4。
3 实验中的关键问题
3.1 JPEG代码优化
JPEG代码使用了第6版,由Thomas G.Lane.编写JPEG组织提供。如1.2所述,JPEG压缩的核心部分是DCT,他占用了大部分压缩时间,所以要对他进行优化处理来提高效率。这里TI(Texas Instruments)公司提供了图像处理的函数库,在本文中采用62x系列的IMGLIB函数库来仿真,调用了其中的离散余弦变换函数IMG_fdct_8x8()〔2〕。IMG_fdct_8x8()函数采用TI公司DSP汇编语言来实现的,程序代码大小为1 216 B,运行一个8×8DCT只需208个cycles。
比较结果如表1所示(769kB位图)
3.2 CCS(Code Composer Studio)仿真的内存问题
图像处理的时候需要比较大的内存空间,这里包括程序空间,数据空间都要很大,一张位图就近1 M左右,所以在仿真的时候就有内存分配问题。程序里面要有专门管理内存的函数,其他函数要通过他来申请内存,使用之后还要释放内存。对于DSP片上和片外的实际内存分配来说,TI公司的汇编器和链接器创建的目标文件采用一种COFF(通用目标文件格式),该目标文件格式更利于模块化编程,为管理代码段和目标系统存储器提供了强有力和灵活的编程方法。我们可以通过编写链接命令文件(.cmd文件)将链接信息放在一个文件中,以便在多次使用同样的链接信息时调用。在命令文件中使用2个十分有用的伪指令Memory和Sections,来指定实际应用中的存储器结构和进行地址的映射。Memory用来指定目标存储器结构,Sections用来控制段的构成与地址分配。同时我们要注意,Build Option菜单里面的Heap和Stacksize的规定,一般来说要规定的相对大一些,防止出现内存溢出问题。
4 试验结果
4.1 DSPLZ压缩测试
压缩85.1 kB的BMP图像(再大的图像需要更长的模拟时间,10 min以上或更长)DSPCPU时钟周期是40 ns,25 MHz。压缩比较结果如表2所示。
4.2 DSP和PIIICPU的JPEG数据压缩比较
TI(Texas Instruments)公司提供了DSPTMS320C6x系列的开发仿真软件CCS2.10(CodeComposer Studio 2.10)。CCS有良好的C语言开发环境,C语言编译器和优化器,还有profile控件可以测出程序中每个函数的执行时间。在VC环境下JPEG代码的运行时间可以通过以下2个函数确定QueryPerformance Counter(&t),Query PerformanceFrequency(&f),这2个函数是VC提供的仅供Windows使用的高精度时间函数,并要求计算机从硬件上支持64位高分辨率性能计数器。
结果如表3所示(压缩对象:图像大小769 kB,1024×768)。
注明:在CCS环境下,使用代码优化之后速度可以提高2倍左右。
5 结 语
对于TI公司的TMS320C6000系列的DSP,JPEG的核心算法离散余弦变换有固定的函数库可以有效实现,所以JPEG的压缩速度很快,这样在远程控制端的图像更新速度很容易就可以满足要求。而LZ77压缩算法相比较而言,就不适合于用DSP来压缩,因为他没有用到DSP所具有的特性,因此压缩速度很慢,这样从刷新速度的角度来看,尽管他的压缩图像不失真,但不适合应用于远程控制的应用。从而确定了一种比较好的视频信号压缩问题的解决方案。