好学IT学院:IT信息技术分享交流平台
标签:汇编  来源:互联网  作者:本站整理  发布时间:2009-05-20  ★★★加入收藏〗〖手机版
摘要:第一节 应用工具一、对程式的认识写作程式不难,但要写出好程式却不容易。这就好像画图一样,人人都能画,而画出来的图却可能有天壤之别。想作一个好画家,首先要有观察及分析的能力,面对着杂乱的事物,先整理出头绪,找到主题。再在画布上勾出轮廓,这叫做……

第四节  指令应用

组合语言可以说是未经整理的、原始的电脑语言,读者们大可下一番功夫,找出其应用的规则,以发挥最高的效率。在下面,我仅就个人的经验,提供一些浅见,以供切磋研讨。

要写好程式,首先应熟记8088指令的时钟脉冲(Clock )及指令长度,一般组合语言手册中,都详列了与各指令相关的资料。「工欲善其事,必先利其器」,此之谓也。

本节所讨论的,是一般程式师容易忽略的细节,所有的例子都是从我所看过的一些程式中摘录下来的。看来没什么大了不起,可是程式的效率,受到这些小地方的影响很大。更重要的是,任何一个人,只要有「小事不做,小善不为」的习惯,我敢断言,这个人不会有什么大成就!

我最近才查到 Effective Address (EA) 的时钟值,我觉得没有必要死记。原则上,以暂存器为变数,做间接定址时为5个时钟,用直接定址则为6个;若用了两组变数,则为7至9个,三组则为11或12个。

为了便于叙述,下面以“T”表「时钟脉冲」; “B”表字元。其中  
  时钟脉冲T = 1 / 振荡频率

一、避免浪费速度及空间

组合语言的效率建立在指令的运用上,如果不用心体会下列指令的有效用法,组合语言的优点就难以发挥。

1,  CALL  ABCD  
      RET  
  这种写法,是没有用心的结果,共用了 4B,23T+20T,完全相同的功能,如:  
      JMP   ABCD  或  
      JMP   SHORT ABCD  
  却只要 2-3B,15T。
      此外,上述的CALL XXXX 是调用子程式的格式,在直觉认知上,与JMP XXXX完全不同。对整体设计而言,是不可原谅的错误,侦错的时候,也很难掌握全盘的理念。
      尤其是在精简程式的时候,很可能会遇到 ABCD 这个子程式完全独立,是则把这段程式直接移到 ABCD 前,不仅能节省空间,而且使程式具有连贯性,易读易用。

2,  MOV   AX,0  
  同样,这条指令要 3B,4T,如果用:  
      SUB   AX,AX 或  
      XOR   AX,AX  
  只要 2B,3T, 唯一要注意的是,后者会影响旗号,所以不要用在有旗号判断的指令前面。
      在程式写作中,经常需要将暂存器或缓冲器清为0,有效的方法,是使某暂存器保持为0,以便随时应用。
      因为,MOV [暂存器],[暂存器] 只要 2B,2T, 即使是清缓冲器,也比直接填0为佳。
      只是,如何令暂存器保持0,则要下一番功夫了。
      还有一种情况,就是在一回路中,每次都需要将 AH 清0,此时对速度要求很严,有一个指令 CBW 原为将一 个字元转换为双字元,只需 1B,2T 最有效率。可是应该注意,此时 AL 必须小于 80H,否则 AH 将成为负数。

3,  ADD   AX,AX  
  需要 2B,3T不如用:  
      SHL   AX,1  
  只要2B,2T。

4,  MOV   AX,4  
  除非这时 AH 必为0,否则,应该用:  
      MOV   AL,4  
  这样会少一个字元。

5,  MOV   AL,46H  
      MOV   AH,0FFH  
  为什么不写成:  
      MOV   AX,0FF46H  
  不仅省了一个字元,四个时钟,而且少打几个字母!

6,  CMP   CX,0  
  需要 4B,4T, 但若用:  
   OR    CX,CX  
  完全相同的功能,但只要 2B,3T。再若用:  
      JCXZ  XXXX  
  则一条指令可以替代两条,时空都省。不幸这条指令限用于CX ,对其他暂器无效。

7,  SUB   BX,1  
  这更不能原谅,4B,4T无端浪费。
      DEC   BX  
  现成的指令,1B,2T为何不用?  
      如果是  
  SUB   BL,1  
 也应该考虑此时 BH 的情况,若可以用  
  DEC   BX  
 取代,且不影响后果,亦不妨用之。

8,  MOV   AX,[SI]  
      INC   SI  
      INC   SI  
  这该挨骂了,一定是没有记熟指令,全部共4B,21T。
      LODSW  
  正是为这个目的设计,却只要 1B,16T。

9,  MOV   CX,8  
      MUL   CX  
      写这段程式之时应先养成习惯,每遇到乘、除法,就该打一下算盘。因为它们太浪费时间。8位元的要七十多个时钟,16位元则要一百多。所以若有可能,尽量设法用简单的指令取代。
      SHL   AX,1  
      SHL   AX,1  
      SHL   AX,1  
   原来要 5B,137T,现在只要 6B,6T。如果CX能够动用的话,则写成:  
    MOV   CL,3  
    SHL   AX,CL  
   这样更佳,而且CL之值越大越有利。用CL作为计数专 用暂存器,不仅节省空间,且因指令系在 CPU中执行,速 度也快。
      可是究竟快了多少? 我们做了些测试,以 SHL为例,在10MHZ 频率的机器上,作了3072 ×14270次,所测得时间为:  
  指  令 :SHL   AX,CL       SHL   AX,n  
        CL = 0 , 23 秒   n = 0 , 无效  
    CL = 1 , 27 秒   n = 1 , 14 秒  
        CL = 2 , 32 秒   n = 2 , 28 秒  
        CL = 3 , 36 秒   n = 3 , 42 秒  
        CL = 4 , 40 秒   n = 4 , 56 秒  
        CL = 5 , 44 秒   n = 5 , 71 秒  
        CL = 6 , 49 秒   n = 6 , 85 秒  
        CL = 7 , 54 秒   n = 7 , 99 秒  
      由此可知,用CL在大于2时即较分别执行有效。
      此外,亦可利用回路做加减法,但要算算值不值得,且应注意是否有调整余数的需要。

10,  MOV   WORD PTR BUF1,0  
      MOV   WORD PTR BUF2,0  
      MOV   WORD PTR BUF3,0  
      MOV   BYTE PTR BUF4,0  
      ..  
      我见过太多这种程式,一见就无名火起! 在程式中,最好经常保留一个暂存器为0,以便应付这种情况。即使没有,也要设法使一暂存器为0,以节省时、空。
      SUB   AX,AX  
      MOV   BUF1,AX  
      MOV   BUF2,AX  
      MOV   BUF3,AX  
      MOV   BUF4,AL

14B,59T取代了 24B,76T,当然值得。只是,还是不 如事先有组织,考虑清楚各个缓冲器间的应用关系。以前面举的例来说,假定各缓冲器内数字,即为其实际位置关系,则可以写成:
   SHR   AH,1  
      JZ    X2  
      STOSB  
  X2:  
      SHR   AH,1  
      JZ    X3  
      MOV   [DI],DX  
      INC   DI  
      INC   DI  
  X3:  
      LOOP  X1