java 正则表达式获取链接 java正则表达式捕获组

转载

mob6454cc7c268c 2023-07-19 11:40:46

文章标签 java 正则表达式获取链接正则表达式 Back 字符串 bc 文章分类 Java 后端开发

正则表达式在字符串处理中经常使用，关于正则简单的用法相信有一点程序基础的人都懂得一些，这里就不介绍简单基础了。这里主要讲解一下在JAVA中实现了的正则的高级用法-分组与捕获。

对于要重复单个字符，非常简单，直接在字符后卖弄加上限定符即可，例如 a+ 表示匹配1个或一个以上的a，a?表示匹配0个或1个a。这些限定符如下所示：

X ?	X ，一次或一次也没有
X *	X ，零次或多次
X +	X ，一次或多次
X { n }	X ，恰好 n 次
X { n ,}	X ，至少 n 次
X { n , m }	X ，至少 n 次，但是不超过 m 次

但是我们如果要对多个字符进行重复怎么办呢？此时我们就要用到分组，我们可以使用小括号"()"来指定要重复的子表达式，然后对这个子表达式进行重复，例如：(abc)? 表示0个或1个abc 这里一个括号的表达式就表示一个分组

分组可以分为两种形式，捕获组和非捕获组。

捕获组

捕获组可以通过从左到右计算其开括号来编号。例如，在表达式 ((A)(B(C)))

1 ((A)(B(C)))2 /A3 (B(C))4 (C)

组零始终代表整个表达式

之所以这样命名捕获组是因为在匹配中，保存了与这些组匹配的输入序列的每个子序列。捕获的子序列稍后可以通过 Back 引用

捕获到的文本序列(是文本不是正则)

例如 ([" ']).* /1 其中使用了分组，/1就是对引号这个分组的引用，它匹配包含在两个引号或者两个单引号中的所有字符串，如，"abc" 或 " ' " 或 ' " ' ，但是请注意，它并不会对" a'或者 'a"匹配。原因上面已经说明，Back引用只是引用文本而不是表达式。

非捕获组

(?) 开头的组是纯的非捕获 组，它不捕获文本

在Java中，支持的非捕获组，有如下几种：




(?= X )	X ，通过零宽度的正 lookahead
(?! X )	X ，通过零宽度的负 lookahead
(?<= X )	X ，通过零宽度的正 lookbehind
(?<! X )	X ，通过零宽度的负 lookbehind

这四个非捕获组用于匹配表达式X，但是不包含表达式的文本。

(?=X )	零宽度正先行断言。仅当子表达式 X 在此位置的右侧匹配时才继续匹配。例如，/w+(?=/d) 与后跟数字的单词匹配，而不与该数字匹配。此构造不会回溯。
(?!X)	零宽度负先行断言。仅当子表达式 X 不在此位置的右侧匹配时才继续匹配。例如，例如，/w+(?!/d) 与后不跟数字的单词匹配，而不与该数字匹配。
(?<=X)	零宽度正后发断言。仅当子表达式 X 在此位置的左侧匹配时才继续匹配。例如，(?<=19)99 与跟在 19 后面的 99 的实例匹配。此构造不会回溯。
(?<!X)	零宽度负后发断言。仅当子表达式 X 不在此位置的左侧匹配时才继续匹配。例如，(?<!19)99 与不跟在 19 后面的 99 的实例匹配

举例：

上面都是理论性的介绍，这里就使用一些例子来说明一下问题：

1、测试匹配性 (?<!4)56(?=9) 这里的含义就是匹配后面的文本56前面不能是4，后面必须是9组成。因此，可以匹配如下文本 5569 ，与4569不匹配。

2 、提取字符串提取 da12bka3434bdca4343bdca234bm 提取包含在字符a和b之间的数字，但是这个a之前的字符不能是c,b后面的字符必须是d才能提取。

例如这里就只有3434这个数字满足要求。那么我们怎么提取呢？

首先我们写出提取这个字符串的表达式： (?<!c)a(/d+)bd 这里就只有一个捕获组(/d+)

JAVA代码片段如下：

1. "(?<!c)a(//d+)bd
2. "da12bka3434bdca4343bdca234bm"
3. while
4. 1
5.    System.out.println(m.group(0)); // 0组是整个表达式，看这里，并没有提炼出(?<!c)的字符 。结果 a3434bd
6.  }

可以看到，非捕获组，最后是不会返回结果的，因为它本身并不捕获文本。

本文章为转载内容，我们尊重原作者对文章享有的著作权。如有内容错误或侵权问题，欢迎原作者联系我们进行内容更正或删除文章。