c# 正则表代式的分组和批评模式 .-白红宇

c# 正则表代式的分组和批评模式 .

阅读量：7051 次

发布时间：2019-06-28

本文共 5793 字，大约阅读时间需要 19 分钟。

一、组的分类

正则中的组有捕获组和非捕获组，而捕获组又分为普通的捕获组和命名捕获组，分别为

捕获组：(exp)

命名捕获组：(? <name> exp)

非捕获组：(?:exp)

二、组的作用

1、捕获组的作用

捕获组的作用是将正则表达式exp匹配到的内容保存到组里，供以后使用

比如这样一个字符串：

我想得到网址，而它符合的规则是在 <a...> 标签内，那就可以这样做

C# code

string

test

; Match m

Regex.Match(test,

, RegexOptions.IgnoreCase);

(m.Success) MessageBox.Show(m.Groups[

].Value);

上面的正则表达式匹配到了 <a href="http://bbs.csdn.net" title="床上等你"> ，而我们想得到网址，表达式其它部分只是为了保证取到的网址是在 <a...> 标签内的，所以这里用到的捕获组，把匹配到的网址保存到捕获组里，然后用m.Groups[1].Value得到这个捕获组所匹配到的内容

m.Groups[1].Value是一种对捕获的引用方式，还有另外一种引用方式m.Result("$1")，效果是一样的

普通捕获组是用1,2,3...这样的自然数对捕获组进行引用的

而命名捕获组可以不用去数捕获组的序号，直接通过捕获组的命称对它进行引用

C# code

string

test

; Match m

Regex.Match(test,

, RegexOptions.IgnoreCase);

(m.Success) MessageBox.Show(m.Groups[

url

].Value);

至于捕获组的分组命名及序号排序规则，在后面说明

2、非捕获组的作用

非捕获组的作用有两个，第一个比较常用，第二个了解一下即可

(1)、节省系统资源，提高效率

在使用“ ¦”表示“或”的关系时，稍微复杂的情况，需要用()来限制“ ¦”的作用范围，否则即表示“ ¦”的左右两侧整体为“或”的关系，这是题外话，这里不详细说明了，还有用{num}来表达式匹配次数时，有时前面也要用到()限制作用范围

而使用()来限制作用范围的同时，默认情况下会把匹配到的结果保存到一个捕获组里，而大多数时候，我们是不需要保存这部分内容的，这就带来一定的副作用，浪费了系统资源，降低了效率

非捕获组的一个作用就是用来消除这种副作用的，(?:exp)用来匹配exp所表示的规则，但不将匹配结果保存到捕获组里

比如匹配HH:mm:ss这样的时间

C# code

MessageBox.Show(Regex.IsMatch(

18:23:55

^(?:[01][0-9]|2[0-3])(?::[0-5][0-9]){2}$

).ToString());

(?:[01][0-9] ¦2[0-3])验证小时部分是否符合规则，但不会将匹配结果保存到捕获组里

(?::[0-5][0-9]){2}验证了分秒部分，但不会将匹配结果保存到捕获组里

(2)、在使用Regex.Split方法时，起到与RegexOptions .ExplicitCapture参数相同的作用，这个用得不多，了解一下就行了

三、捕获组分组命名及序号排序

普通捕获组是按“(”从左到右出现的先后顺序以自然数1,2,3...进行命名的

命名捕获组就是以(? <name> exp)中的name进行命名的

但是要注意一点，在表达式匹配成功的前提下，$0在任何情况下都表示整个表达式所匹配到的内容，m.Groups[0].Value表示整个表达式匹配到的内容，可以简写为m.Value

另外就是命名捕获组除了可以用name对它进行引用外，还可以通过序号对它引用，它的命名规则为：先对普通捕获组从左到右进行序号命名，然后再从开头，从左到右对命名捕获组进行序号命名，举例如下

<a/s*href="(? <url> [^"]*)"/s*title="([^"]*)"[^> ]*> (? <text> [/s/S]*?) </a>

2 url 1 3 text

C# code

string

test

; Match m

Regex.Match(test,

<a/s*href=""(?<url>[^""]*)""/s*title=""([^""]*)""[^>]*>(?<text>[/s/S]*?)</a>

, RegexOptions.IgnoreCase);

(m.Success) { richTextBox1.Text

m.Groups[

].Value

;

<a href="

http://bbs.csdn.net

" title="床上等你">CSDN</a>

richTextBox1.Text

m.Groups[

].Value

;

床上等你

richTextBox1.Text

m.Groups[

].Value

;

http://bbs.csdn.net

richTextBox1.Text

m.Groups[

url

].Value

;

http://bbs.csdn.net

richTextBox1.Text

m.Groups[

].Value

;

CSDN

richTextBox1.Text

m.Groups[

text

].Value

;

CSDN

}

四、组的另一种引用方式

除了上面 m.Groups[1].Value 和 m.Result("$1") 这两种对结果集进行处理时的引用方式外，还有在替换时的一种引用方式，举例如下

只保留网址和链接文字，去掉 <a...> 标签中其它无用信息

C# code

string

test

;

string

result

Regex.Replace(test,

, RegexOptions.IgnoreCase); MessageBox.Show(result);

普通捕获组就是用$number来引用，而命名捕获是用${name}来引用

预搜索

(?=exp)

(?!exp)

(? <=exp)

(? <!exp)

下面的说明很容易让人头晕，不看也罢，我将以另一种方式对它们的作用和用法进行说明

(?=exp) 匹配exp前面的位置

(? <=exp) 匹配exp后面的位置

(?!exp) 匹配后面跟的不是exp的位置

(? <!exp) 匹配前面不是exp的位置

有的资料上翻译为零宽度断言，我习惯于预搜索这种叫法，前两个为正向预搜索，后两个为反向预搜索，当然还有其它翻译，其实都是一个意思，知道就行，不必在意

这四种表达式，它们与非捕获的相同之处在于，并不将匹配到的结果保存到捕获组，不同之处在于，非捕获组匹配到的内容，虽然不保存到捕获组，但却是在结果$0实实在在存在的，而以上四种表达式所匹配到的内容，一般来说，是不存在$0内的，所以说它们匹配的结果是零宽度的

更好的理解方式，是把它们作为附加条件，而不是正则表达式的组成部分

为了更好的说明，先说一下“缝隙”的概念，“缝隙”是零宽度的，它只是字符串中的一个位置，而不是实际的字符，如字符串“ab”，在“a”前面，“a”和“b”中间，还有“b”后面，分别有一个“缝隙”，也就是整个字符串有三个“缝隙”

(?=exp) 在所在“缝隙”的后面附加一个条件，也就是“缝隙”后面必须能够匹配exp的内容

(?!exp) 在所在“缝隙”的后面附加一个条件，也就是“缝隙”后面必须不能够匹配exp的内容

(? <=exp) 在所在“缝隙”的前面附加一个条件，也就是“缝隙”前面必须能够匹配exp的内容

(? <!exp) 在所在“缝隙”的前面附加一个条件，也就是“缝隙”前面必须不能够匹配exp的内容

举例说明如下：

<[^> ]*> 表达式任意html标签

附加一个条件

<(?!img)[^> ]*>

这个就表示除 <img...> 标签外的所有标签，看下实际例子

C# code

string

test

; MatchCollection mc

Regex.Matches(test,

<(?!img)[^>]*>

, RegexOptions .IgnoreCase);

foreach

(Match m

mc) { richTextBox1.Text

m.Value

; }

输出结果为：

</a>

这时再看一下 <(?!img)[^> ]*> 这个正则表达式

(?!img)所在的“缝隙”是“ <”和它后面的第一个字符之间的“缝隙”，它表示的意思就是，在这个“缝隙”的后面，不能是img，整个表达式的意思也就是不匹配 <img...> 标签

同理， <(?=img)[^> ]*> 表示只匹配 <img...> 标签

C# code

string

test

; MatchCollection mc

Regex.Matches(test,

<(?=img)[^>]*>

, RegexOptions.IgnoreCase);

foreach

(Match m

mc) { MessageBox.Show(m.Value); }

输出：

(? <= <a[^> ]*> ) <img[^> ]*> 表示只匹配前面为 <a...> 标签的 <img...> 标签

C# code

string

test

; MatchCollection mc

Regex.Matches(test,

(?<=<a[^>]*>)<img[^>]*>

, RegexOptions.IgnoreCase);

foreach

(Match m

mc) { MessageBox.Show(m.Value); }

输出：

(? <! <a[^> ]*> ) <img[^> ]*> 表示只匹配前面不为 <a...> 标签的 <img...> 标签

C# code

string

test

; MatchCollection mc

Regex.Matches(test,

(?<!<a[^>]*>)<img[^>]*>

, RegexOptions.IgnoreCase);

foreach

(Match m

mc) { MessageBox.Show(m.Value); }

输出：

以上面的这个(? <= <a[^> ]*> ) <img[^> ]*> 为例，表达式中虽然有(? <= <a[^> ]*> )，但是在结果m.Value中并不存在它匹配到的内容 <a href="http://bbs.csdn.net" title="床上等你"> ，所以说它是零宽度的，只是作为一个附加条件存在

转载地址：http://hmdol.baihongyu.com/

你可能感兴趣的文章

我的友情链接

查看>>

订单可视化（智能制造、流程再造、企业信息化）第四篇技术方案的制定

查看>>

EBS 11i 中的标准工作流列表

查看>>

spring整合activemq发布订阅消息模式

查看>>

文件压缩及解压缩命令

查看>>