30分钟正则表达式指导

来源:动态网站制作指南  作者:by-Jim-Hollenhorst
摘要:我的目的就是在30分钟内带你入门并且对正则表达式有一个基本的理解。事实是正则表达式并没有它看起来那么复杂。学习它最好的办法就是开始写正则表达式并且不断实践。在最初的30分钟之后,你就应该知道一些基本的结构并且有能力在你的程序或者web页面中设计和使用正则表达式…

分组

圆括号可以用来划分一个子表达式来允许重复或者其他特殊的处理,例如:

18. (\d{1,3}\.){3}\d{1,3} -- A simple IP address finder

表达式的第一部分搜索后面跟着一个“\.”的一个一位到三位的数字。这被放在圆括号中并且通过使用修饰符“{3}”被重复三次,后面跟着与之前一样的表达式而不带后缀部分。

不幸的是,这个例子允许IP地址中被分隔的部分是任意的一位,两位,或三位数字,尽管一个合法的IP地址不能有大于255的数字。要是能够算术比较一个获取的数字N使N<256就好了,但是只用正则表达式是不能够办到的。下一个例子使用模式匹配测试了基于第一位数字的多种可选项来保证限制数字的取值范围。这表明一个表达式会变得很笨重,尽管搜索模式的描述是简单的。

19. ((2[0-4]\d

25[0-5]

[01]?\d\d?)\.){3}(2[0-4]\d

25[0-5]

[01]?\d\d?) -- IP finder

一个“回引”用来搜索前面被一个分组捕获的已匹配文本的再现。例如,“\1”表示“匹配分组1中已捕获到的文本”。下面是一个例子:

20. \b(\w+)\b\s*\1\b -- Find repeated words

它的运行过程是先捕获一个分组1中“(\w+)”表示的至少包含一个字母数字字符的字符串,但仅当它是一个单词的开始或结束字符时才行。然后它搜索任意数量的空白字符“\s*”后跟以被捕获的文本“\1”结尾的单词。

在上面的例子中,想要替换分组“(\w+)”这种写法,我们可以把它写成“(?<Word>\w+)”来给这个分组命名为“Word”。一个对这个分组的回引可以写成“\k<Word>”。试试下面的例子:

21. \b(?<Word>\w+)\b\s*\k<Word>\b -- Capture repeated word in a named group

通过使用圆括号,有很多可用的特殊用途的语法元素。一些最常用的归纳如下面这张表格:

捕获
(exp) 匹配exp并且在一个自动计数的分组中捕获它
(?<name>exp) 匹配exp并且在一个命名的分组中捕获它
(?:exp) 匹配exp并且不捕获它
察看
(?=exp) 匹配任何后缀exp之前的位置
(?<=exp) 匹配任何前缀exp之后的位置
(?!exp) 匹配任何未找到的后缀exp之后的位置
(?<!exp) 匹配任何未找到的前缀exp之前的位置
评论
(?#comment) 评论

   表4 常用分组结构

前两个我们已经说过了。第三个“(?:exp)”不会改变匹配行为,它只是不像前两个那样捕获已命名的或者计数的分组。

确定察看(Positive Lookaround)

下面四个是所谓的前向或后向断言。它们从当前的匹配向前或向后寻找需要的东西而不在匹配中包含它们。这些表达式匹配一个类似于“^”或“\b”的位置而不匹配任何文本,理解这个是很重要的。由于这个原因,他们也被称为“零宽度断言”。最好用例子来解释它们:

“(?=exp)”是“零宽度确定前向断言”。它匹配一个文本中在给定后缀之前的位置,但不在匹配中包含这个后缀:

22. \b\w+(?=ing\b) -- The beginning of words ending with "ing"

“(?<=exp)”是“零宽度确定后向断言”。它匹配在给定前缀后面的位置,但不在匹配中包含这个前缀:

23. (?<=\bre)\w+\b -- The end of words starting with "re"

下面这个例子可以用来重复向三位数为一组的数字中插入逗号的例子:

24. (?<=\d)\d{3}\b -- Three digits at the end of a word, preceded by a digit

下面是一个同时搜索前缀和后缀的例子:

25. (?<=\s)\w+(?=\s) -- Alphanumeric strings bounded by whitespace

否定察看(Negative Lookaround)

之前,我说明了怎样搜索一个不是特定字符或一个字符集合的成员的字符。那么如果我们想要简单的验证一个字符没有出现,但是不想匹配任何东西怎么办?例如,如果我们想要搜索其中“q”不是后跟着“u”的单词怎么办?我们可以尝试:

26. \b\w*q[^u]\w*\b -- Words with "q" followed by NOT "u"

运行例子你就会看到如果“q”是一个单词的最后一个字母就不会匹配,比如“Iraq”。这是因为“[^q]”总是匹配一个字符。如果“q”是单词的最后一个字符,它会匹配后面跟着的空白字符,所以这个例子中表达式结束时匹配两个完整的单词。否定察看可以解决这个问题,因为它匹配一个位置而不消耗任何文本。与确定察看一样,它也可以用来匹配一个任意复杂的子表达式的位置,而不仅仅是一个字符。我们现在可以做得更好:

27. \b\w*q(?!u)\w*\b -- Search for words with "q" not followed by "u"

我们使用“零宽度否定前向断言”,“(?!exp)”,只有当后缀“exp”没有出现时它才成功。下面是另一个例子:

28. \d{3}(?!\d) -- Three digits not followed by another digit

相似地,我们可以使用“(?<!exp)”,“零宽度否定后向断言”,来搜索文本中的一个位置,这里前缀“exp”没有出现:

29. (?<![a-z ])\w{7} -- Strings of 7 alphanumerics not preceded by a letter or space

这里是另一个使用后向的例子:

30. (?<=<(\w+)>).*(?=<\/\1>) -- Text between HTML tags

这个使用后向搜索一个HTML标记,而使用前向搜索对应的结束标记,这样,就能获得中间的文本而不包括两个标记。

【相关文章】好搜一下
C#3.0语言详解之基本的语言增强

C#3.0语言详解之基本的语言增强

Linq项目简介和开发环境的搭建9月份,微软推出了一项名为“Linq项目”的新技…