正则表达式的五个成功习惯【第3页】 - PHP技术 - 好学IT学院

标签：PHP 来源：www.chinaunix.net 作者：HonestQiao 发布时间：2007-02-04 ★★★〖加入收藏〗〖手机版〗

摘要：正则表达式难于书写、难于阅读、难于维护，经常错误匹配意料不到的文本或者错过了有效的文本，这些问题都是由正则表达式的表现和能力引起的。每个元字符（metacharacter）的能力和细微差别组合在一起，使得代码不借助于智力技巧就无法解释。…

三、为交替操作分组

交替操作符号（

）的优先级很低，这意味着它经常交替超过程序员所设计的那样。比如，从文本里面抽取Email地址的正则表达式可能如下：^CC:

To:(.*)

上面的尝试是不正确的，但是这个bug往往不被注意。上面代码的意图是找到“CC:”或者“To:”开始的文本，然后在这一行的后面部分提取Email地址。

不幸的是，如果某一行中间出现“To:”，那么这个正则表达式将捕获不到任何以“CC:”开始的一行，而是抽取几个随机的文本。坦白的说，正则表达式匹配 “CC:”开始的一行，但是什么都捕获不到；或者匹配任何包含“To:”的一行，但是把这行的剩余文本都捕获了。通常情况下，这个正则表达式会捕获大量 Email地址，所有没有人会注意这个bug。

如果要符合实际意图，那么你应该加入括号说明清楚，正则表达式如下：(^CC:)

(To:(.*))

如果真正意图是捕获以“CC:”或者“To:”开始的文本行的剩余部分，那么正确的正则表达式如下：^(CC:

To:)(.*)

这是一个普遍的不完全匹配的bug，如果你养成为交替操作分组的习惯，你就会避免这个错误。

四、使用宽松数量词

很多程序员避免使用宽松数量词比如“*?”、“+?”和“??”，即使它们会使这个表达式易于书写和理解。

宽松数量词可以尽可能少的匹配文本，这样有助于完全匹配的成功。如果你写了“foo(.*?)bar”，那么数量词将在第一次遇到“bar”时就停止匹配，而不是在最后一次。如果你希望从“foo###bar+++bar”中捕获“###”，这一点就很重要。一个严格数量词将捕获“###bar++ +”。

假设你要从HTML文件里面捕获所有电话号码，你可能会使用我们上文讨论过的电话号码正则表达式的例子。但是，如果你知道所有电话号码都在一个表格的第一列里面，你可以使用宽松数量词写出更简单的正则表达式：<tr>;<td>;(.+?)<td>;

很多刚起步的程序员不使用宽松数量词来否定特定种类。他们能写出下面的代码：<tr>;<td>;([^>;]+)</td>;

这种情况下它可以正常运行，但是如果你想捕获的文本包含有你分隔的公共字符（这种情况下比如</td>;），这将会带来很大麻烦。如果你使用了宽松数量词，你只要花上很少的时间组装字符种类就能产生新的正则表达式。

在你知道你要捕获文本的环境结构时，宽松数量词是具有很大价值的。

五、利用可用分界符

Perl 和PHP语言常常使用左斜线（/）来标志一个正则表达式的开头和结尾，Python语言使用一组引号来标志开头和结尾。如果在Perl和PHP中坚持使用左斜线，你将要避免表达式中的任何斜线；如果在Python中使用引号，你将要避免使用反斜线（\）。选择不同的分界符或引号可以允许你避免一半的正则表达式。这将使得表达式易于阅读，减少由于忘记避免符号而潜在的bug。

Perl和PHP语言允许使用任何非数字和空格字符作为分界符。如果你切换到一个新的分界符，在匹配URL或HTML标志（如“http://”或“<br/>;”）时，你就可以避免漏掉左斜线了。

例如，“/http:\/\/(\S)*/”可以写为“#http://(\S)*#”。

通用分界符是“#”、“!”和“

”。如果你要使用方括号、尖括号或者花括号，只要保持前后配对出现就可以了。下面就是一些通用分界符的示例：

#…# !…! {…} s

…

(Perl only) s[…][…] (Perl only) s<…>;/…/ (Perl only)

在Python中，正则表达式首先会被当作一个字符串。如果你使用引号作为分界符，你将漏掉所有反斜线。但是你可以使用“r''”字符串避免这个问题。如果针对“re.VERBOSE”选项使用三个连续单引号，它将允许你包含换行。例如 regex = "(\\w+)(\\d+)"可以写出下面的形式：

regex = r'''
　　　　(\w+)
　　　　(\d+)
　　　　'''

小结：本文的建议主要着眼于正则表达式的可读性，在开发中养成这些习惯，你将会更加清晰的考虑设计和表达式的结构，这将有助于减少bug和代码的维护，如果你自己就是这个代码的维护者你将倍感轻松。

第1页第2页第3页【话题评论】

正则表达式五个成功习惯