核心提示:本文将讨论如何将汇编语言程序代码整合到C语言中,以最大化性能以及程序设计人员生产力,内容涵盖了编译器惯例(convention)、内嵌(inlining)、内嵌函数(intrinsic)、缓存器连结(register binding)和除错策略。
随着DSP处理器性能的提升以及编译器最佳化技术的进步,曾经红极一时、仅用汇编语言编写DSP应用程序的作法已逐渐被淘汰。今天,几乎每个 DSP应用程序都使用C语言程序代码和汇编程序码混合的方式。对于一些性能需求极高的关键功能,DSP工程师会继续使用高度最佳化的汇编程序码;而一些次要的功能现在也使用C语言编写,使程序代码更容易维护和移植。对于C语言和汇编程序码的结合,每位DSP工程师都需要掌握特殊的工具和方法。
众所皆知,汇编语言编码具有更高的性能优势,而用C语言编码则较容易且速度也更快。为了解其中原因,以下我们进一步比较汇编语言编码与C语言编码的优缺点:
汇编语言编码的优点:
* 汇编语言编码可以充分利用处理器的独特指令以及各种专门的硬件资源。而C语言程序代码是通用型程序代码,必须支持各种硬件平台,因此很难支持特殊平台程序代码。
* 汇编程序设计人员通常对应用程序非常熟悉,可以作出编译器无法作出的假设。
* 汇编程序设计人员可以发挥人类的创造性;而再先进的编译器也只是一个自动化的程序。
汇编语言编码的缺点:
* 汇编程序设计人员必须解决耗时的机器级问题,如缓存器分配和指令排程。若使用C语言程序代码,这些问题可以由编译器解决。
* 使用汇编语言编码的程序设计人员必须了解DSP架构及其指令集的专业知识;而C语言编码只需要掌握相当普及的C语言知识。
* 若使用汇编语言,将应用程序从一个平台移植到另一个平台非常困难也相当耗时;而C语言应用程序的移植相对而言非常容易。
图1显示了如何利用专用硬件机制来获得高度最佳化的汇编程序码。左边的C语言编码利用模块算法设计出一个循环缓冲区P1;右边高度最佳化的汇编程序码中,等效的缓冲区是利用CEVA-TeakLite-III DSP核心的模块运算机制(Modulo Mechanism)设计产生的。只要缓冲区指标(本例中的r0)有更新,模块运算机制便会自动执行模块运算。这种运算与指针更新在同一个周期发生,因此汇编程序码比C语言程序代码更加高效,可为模块运算产生独立的指令。
为DSP应用选择C/汇编程序码
混合使用的问题就在于该如何划分C语言程序代码和汇编程序码的界限,而答案取决于剖析器提供的性能分析结果。然而在使用剖析器之前,DSP工程师需要为应用程序定义清晰的对象,一些典型的对象包括循环数、程序代码大小和数据大小。一旦这些对象确定后,所有应用程序都应该先以C语言编写和制作,随后使用剖析器来分析性能。
在一些极端情况下,如控制应用,用C语言层级的编码就足够了;但大多数情况下,原始C语言层级应用程序版本不会遵从一个或多个对象,这也意味着需要使用一些汇编程序码来完成。在求助于汇编语言编码之前,C语言编码可提供许多方法来提高性能,但这些方法不属于本文讨论的范畴。假设所有C语言级的方法全用完了,并且准备使用汇编语言编码,这时强烈建议将原始C语言程序代码保存起来。这样不仅方便除错,而且一旦条件许可(比如转移到更强大的平台)还可以回复原始的C语言。
程序代码中的汇编语言部份应尽可能维持在最少,这样便能分析从剖析器得到的性能结果,并定义应用程序中的关键函数。关键函数会占用大部份执行时间,必须用汇编语言重写才能满足性能对象。当两到三个最关键的函数重写后,需要重新进行性能测量,若应用程序仍然不能满足对象需求,那么必须使用汇编语言定义并重写额外的关键函数,这个过程需要不断地重复直到满足性能对象需求为止。