H．264视频解码器在C6416 DSP上的实现_电子通信论文

H．264视频解码器在C6416 DSP上的实现

时间：2007-1-20栏目：电子通信论文

的语法规则和定义，所以在DSP上实现H.264的算法要把PC机上C语言编写的H.264代码进行改动，使其完全符合DSP中C的规则。

这些改动包括：去除所有的文件操作；去除可视化界面的操作；合理安排内存空间的预留和分配；规范数据类型——因为C6416是定点DSP芯片，只支持四种数据类型：short型（16 bit）、int(32bits)、long型(40bits)和double型（64bits），因此必须对数据进行重新规范，把浮点数的运算部分近似用定点表示，或用定点实现浮点运算；根据内存的分配定义远近程常量和变量；把常用的数据在数据结构中提取出来，以near型数据定义在DSP内部存储空间，以减少对EMIF端口的读取，从而提高速度。

3.3 H.264的DSP算法优化

通过把PC机H.264代码DSP化，可以在DSP上实现H.264的编解码算法，但是，这样实现的算法运行效率很低，因为所有的代码都是由C语言编写，并没有完全利用DSP的各种性能。所以必须结合DSP本身的特点，对其进一步优化，才能实现H.264视频解码器算法对视频图像的实时处理。

对DSP代码的优化共分为三个层次：项目级优化、C程序级优化、汇编程序级优化。

（1）项目级优化：主要是通过选择CCS提供的编译优化参数，根据H.264系统的要求进行优化，通过不断地对各个参数（-mw -pm -o

3 -mt等）的选择、搭配、调整，改善循环、多重循环体的性能，进行软件流水，从而提高软件的并行性。

（2）C程序级优化：主要是针对采用的DSP的具体特点进行代码的功能精简、数据结构的优化、循环的优化、代码的并行化处理。在这里主要工作包括以下部分：去除掉SNR计算、帧率及其他辅助信息的程序模块。函数及数据映射区域的调整，把经常用的数据存储在片内存储器中，频繁调用的程序尽可能映射在相邻或相近的存储区域。C函数的并行化处理，针对并行化效果差的函数，尤其是多重循环体，要进行循环拆解，将多重循环拆解为单重循环。减少存储区数据的读取和存储，尤其是片外存储区域数据的调用，以减少时间。数据结构的重定义和调整。

下面以数据结构的调整说明如何合理利用DSP特性进行软件优化。

数据结构是指数据的类型及其在内存空间的分配方式，不同的数据结构，对程序的性能有不同的影响。因此，数据结构的调整对程序在DSP上并行执行是必不可少的步骤。

在H.264解码器内核代码中，数组mpr[i][j]用来存放一个宏块的预测系数，数据类型是int型，其中i、j是该系数的坐标。但是预测系数实际上只有8位位宽，所以，定义成byte型就足够了。这样一方面节省了内存空间，另一方面，用byte类型可以直接使用LDW指令代替LDB指令，一次读取4个数据，节省了读取时间。因此H.264中对系数的读取都是以块为单位的，而内核中的mpr数据结构显然不能充分利用DSP的特性，所以数据存储结构也需要调整，把mpr中每一个块分配到一个连续的内存空间有利于数据的传送，如图2所示。这样，每一次确定了一个块以后，只要更改一维的信息就能确定系数的位置，而原始的结构对每一个系数都有确定两位系数。通过这样的数据调整，可以明显地提高程序的运行速度。

（3）汇编程序级优化。汇编级的优化包括两部分：采用线性汇编语言进行优化和直接用汇编语言进行优化。由于系统编译器的局限性，并不能将全部的函数都很好地优化，这样就需要统计比较耗时的C语言函数，用汇编语言重新编写。这些函数包括：插值函数、帧内预测函数、整形反亦换等函数。

下面以差值函数中的一段来说明汇编编写带来的性能提高。

横向1/2插值源代码：for(j=0;j<BLOCK_SIZE;j++){

for(i=0;i<BLOCK_SIZE;i++){

for(result=0,x=-2;x<4;x++)

result+=mref[ref_frame][y_pos+j][x_pos+i+x]

*COEF[x+2];

block[i][j]=max(0,min(255,(result+16)/32));

}

上一页 [1] [2] [3] [4] 下一页

下页更精彩：1 2 3 4 下一页

上一篇论文：多DSP系统实现雷达极化信号两对IQ的采集和处理
下一篇论文： ADSP系列处理器在网络多媒体中的应用