30分钟正则表达式指导

来源:动态网站制作指南  作者:by-Jim-Hollenhorst
摘要:我的目的就是在30分钟内带你入门并且对正则表达式有一个基本的理解。事实是正则表达式并没有它看起来那么复杂。学习它最好的办法就是开始写正则表达式并且不断实践。在最初的30分钟之后,你就应该知道一些基本的结构并且有能力在你的程序或者web页面中设计和使用正则表达式…

换码字符

当你想要匹配这些特殊字符中的一个时会产生一个错误,像“^”或者“$”。使用反斜线符号来去掉它们的特殊意义。这样,“\^”,“\.”,和“\\”,分别匹配文本字符“^”,“.”,和“\”。

重复

你已经见过了“{3}”和“*”可以指定一个单独字符的重复次数。稍后,你会看到相同的语法怎样用来重复整个子表达式。此外还有其他几种方法来指定一个重复,如下表所示:

* 重复任意次数
+ 重复一次或多次
? 重复一次或多次
{n} 重复n次
{n,m} 重复最少n次,最多m次
{n,} 重复最少n次
  表2 常用量词

让我们试试几个例子:

10. \b\w{5,6}\b -- Find all five and six letter words

11. \b\d{3}\s\d{3}-\d{4} -- Find ten digit phone numbers

12. \d{3}-\d{2}-\d{4} -- Social security number

13. ^\w* -- The first word in the line or in the text

在设置和不设置“Multiline”选项的时试试最后一个例子,它改变了“^”的含义。

字符集合

搜索字母数字字符,数字,和空白字符是容易的,但如果你需要搜索一个字符集合中的任意字符时怎么办?这可以通过在方括号中列出想要的字符来轻松的解决。这样,“[aeiou]”就能匹配任意韵母,而“[.?!]”就匹配句子末尾的标点。在这个例子中,注意“.”和“?”在方括号中都失去了他们的特殊意义而被解释为文本含义。我们也可以指定一个范围的字符,所以“[a-z0-9]”表示“匹配任何小写字母或者任何数字”。

让我们试试一个搜索电话号码的更加复杂的表达式:

14. \(?\d{3}[) ]\s?\d{3}[- ]\d{4} A ten digit phone number

这个表达式将会搜索几种格式的电话号码,像“(800)325-3535”或者“650 555 1212”。“\(?”搜索0个或1个左圆括号,“[)]”搜索一个右圆括号或者一个空格。“\s?”搜索0个或一个空白字符。不幸的是,它也会找到像 “650)555-1212”这样括号没有去掉的情况。在下面,你会看到怎样用可选项解决这个问题。

否定

有些时候我们需要搜索一个字符,它不是一个很容易定义的字符集合的成员。下面的表格说明了这种字符怎样指定:

\W 匹配任何非字母数字字符
\S 匹配任何非空白字符
\D 匹配任何非数字字符
\B 匹配非单词开始或结束的位置
[^x] 匹配任何非x字符
[^aeiou] 匹配任何不在aeiou中的字符
  表3 怎样指定你不想要东西

15. \S+ -- All strings that do not contain whitespace characters

后面,我们会看到怎样使用“lookahead”和“lookbehind”来搜索缺少更加复杂的模式的情况。

可选项

要从几个可选项中选择,允许符合任何一个的匹配,使用竖杠“

”来分隔可选项。例如,邮政编码有两种,一个是5位的,另一个是9位的加一个连字符。我们可以使用下面的表达式找到任何一种:

16. \b\d{5}-\d{4}\b

\b\d{5}\b -- Five and nine digit Zip Codes

当使用可选项时,顺序是很重要的因为匹配算法将试图先匹配最左面的选择。如果这个例子中的顺序颠倒过来,表达式将只能找到5位的邮政编码,而不会找到9位的。我们可以使用可选项来改进十位电话号码的表达式,允许包含区码无论是通过空白字符还是连字符划分的:

17. (\(\d{3}\)

\d{3})\s?\d{3}[- ]\d{4} -- Ten digit phone numbers, a better way

【相关文章】好搜一下
ActiveReport For .Net开发程序简介

ActiveReport For .Net开

ActiveReport是.net下的一个出色的报表开发程序,虽然和水晶报表相比…