正则表达式的五个成功习惯

来源:www.chinaunix.net  作者:HonestQiao
摘要:正则表达式难于书写、难于阅读、难于维护,经常错误匹配意料不到的文本或者错过了有效的文本,这些问题都是由正则表达式的表现和能力引起的。每个元字符(metacharacter)的能力和细微差别组合在一起,使得代码不借助于智力技巧就无法解释。…

二、书写测试

一共有三个层次的测试,每一层为你的代码加上一层可靠性。首先,你需要认真想想你需要匹配什么代码以及你是否能够处理错误匹配。其次,你需要利用数据实例来测试正则表达式。最后,你需要正式通过一个测试小组的测试。

决定匹配什么其实就是在匹配错误结果和错过正确结果之间寻求一个平衡点。如果你的正则表达式过于严格,它将会错过一些正确匹配;如果它过于宽松,它将会产生一个错误匹配。一旦某个正则表达式发放到实际代码当中,你可能不会两者都注意到。考虑一下上面电话号码的例子,它将会匹配“800-555-4000  = -5355”。错误的匹配其实很难发现,所以提前规划做好测试是很重要的。

还是使用电话号码的例子,如果你在Web表单里面确认一个电话号码,你可能只要满足于任何格式的十位数字。但是,如果你想从大量文本里面分离电话号码,你可能需要很认证的排除不符合要求的错误匹配。

在考虑你想匹配的数据的时候,写下一些案例情况。针对案例情况写下一些代码来测试你的正则表达式。任何复杂的正则表达式都最好写个小程序测试一下,可以采用下面的具体形式。

在Perl语言里面:

#!/usr/bin/perl
my @tests = ( "314-555-4000",
       "800-555-4400",
     "(314)555-4000",
       "314.555.4000",
       "555-4000",
       "aasdklfjklas",
       "1234-123-12345"      
      );

foreach my $test (@tests) {
  if ( $test =~ m/
          \(?   # 可选圆括号
          \d{3} # 必须的电话区号
          \)?   # 可选圆括号
          [-\s.]? # 分隔符号可以是破折号、空格或者句点
          \d{3} # 三位数前缀
          [-\s.]  # 另一个分隔符号
          \d{4} # 四位数电话号码
          /x ) {
    print "Matched on $test\n";
  }
  else {
    print "Failed match on $test\n";
  }
}

在PHP语言里面:

<?php
$tests = array( "314-555-4000",
      "800-555-4400",
      "(314)555-4000",
      "314.555.4000",
      "555-4000",
      "aasdklfjklas",
      "1234-123-12345"
     );

$regex = "/
      \(?   # 可选圆括号
       \d{3} # 必须的电话区号
      \)?   # 可选圆括号
      [-\s.]? # 分隔符号可以是破折号、空格或者句点
       \d{3} # 三位数前缀
      [-\s.]  # 另一个分隔符号
       \d{4} # 四位数电话号码
      /x";

foreach ($tests as $test) {
  if (preg_match($regex, $test)) { 
    echo "Matched on $test<br />;";
  }
  else {
    echo "Failed match on $test<br />;";
  }
}
?>;

在Python语言里面:

import re

tests = ["314-555-4000",
    "800-555-4400",
    "(314)555-4000",
    "314.555.4000",
    "555-4000",
    "aasdklfjklas",
    "1234-123-12345"    
    ]

pattern = r'''
\(?        # 可选圆括号
       \d{3} # 必须的电话区号
      \)?   # 可选圆括号
      [-\s.]? # 分隔符号可以是破折号、空格或者句点
       \d{3} # 三位数前缀
      [-\s.]  # 另一个分隔符号
       \d{4} # 四位数电话号码
      '''

regex = re.compile( pattern, re.VERBOSE )

for test in tests:
  if regex.match(test):
    print "Matched on", test, "\n"
  else:
    print "Failed match on", test, "\n"

运行测试代码将会发现另一个问题:它匹配“1234-123-12345”。

理论上,你需要整合整个程序所有的测试到一个测试小组里面。即使你现在还没有测试小组,你的正则表达式测试也会是一个小组的良好基础,现在正是开始创建的好机会。即使现在还不是创建的合适时间,你也应该在每次修改以后运行测试一下正则表达式。这里花费一小段时间将会减少你很多麻烦事。

【相关文章】好搜一下
关于Wordpress开发网站绑定多个域名的方法

关于Wordpress开发网站绑定多个域名的

WordPress 是一个注重美学、易用性和网络标准的个人信息发布平台。有些人域…