Regular Expression正则表达式,简称RegExp,常规通用的表达式,在多个开发语言中都有它的实现,可以通过正则表达式来快速的检索、匹配、查找、替换字符串中的文本。

简单实例

匹配网址

/*
 * File:RegExp.java
 * User:iChochy
 * URL:https://ichochy.com
 * Copyright (c) 2020
 * Date:2020/09/07 18:11:07
 */

package com.ichochy.example;

import java.util.regex.Matcher;
import java.util.regex.Pattern;

public class RegExp {
    public static void main(String[] args) {
        String input = "https://ichochy.com";
        //正则表达式,(.+)代表一个或多个字符
        String regex = "https://.+.com";
        Boolean flag = Pattern.matches(regex,input);
        System.out.println(flag);  //全文匹配返回:true
    }
}

Matches 方法

Matcher.matches方法,为整块全匹配,字符串完全匹配返回true

/*
 * File:RegExp.java
 * User:iChochy
 * URL:https://ichochy.com
 * Copyright (c) 2020
 * Date:2020/09/07 18:11:07
 */

package com.ichochy.example;

import java.util.regex.Matcher;
import java.util.regex.Pattern;

public class RegExp {
    public static void main(String[] args) {
        String input = "https://ichochy.com";
        //正则表达式,(.+)代表一个或多个字符
        String regex = "https://.+.com";
        Pattern pattern = Pattern.compile(regex);//编译表达式
        Matcher matcher = pattern.matcher(input);//匹配表达式
        System.out.println(matcher.matches());//全文匹配返回:true
    }
}

Find 方法

Matcher.find方法,为查找模式匹配,匹配到就返回true

/*
 * File:RegExp.java
 * User:iChochy
 * URL:https://ichochy.com
 * Copyright (c) 2020
 * Date:2020/09/07 18:11:07
 */

package com.ichochy.example;

import java.util.regex.Matcher;
import java.util.regex.Pattern;

public class RegExp {
    public static void main(String[] args) {
        String input = "我的网站是:https://ichochy.com,你知道吗?";
        //正则表达式,(.+)代表一个或多个字符
        String regex = "https://.+.com";
        Pattern pattern = Pattern.compile(regex);//编译表达式
        Matcher matcher = pattern.matcher(input);//匹配表达式
        System.out.println(matcher.find());//查找匹配返回:true
        System.out.println(matcher.matches());//全文匹配返回:false
        System.out.println(matcher.find());//再次查找匹配返回:false
        matcher.reset();//重置匹配器
        System.out.println(matcher.find());//重置查找返回:true
    }
}

find方法多次调用,出现结果不相同的问题:

This method starts at the beginning of this matcher's region, or, if a previous invocation of the method was successful and the matcher has not since been reset, at the first character not matched by the previous match.

Matcher.find方法第一次查找匹配成功后,如果Matcher没有重置(Matcher.reset()),则从上一次匹配成功位置的后面开始查找,所以会出现,再次匹配不成功,返回false

Group 分组

正则表达式通过括号分组进行匹配,matcher.group(int group):通过组序号获取匹配信息

/*
 * File:RegExp.java
 * User:iChochy
 * URL:https://ichochy.com
 * Copyright (c) 2020
 * Date:2020/09/07 18:11:07
 */

package com.ichochy.example;

import java.util.regex.Matcher;
import java.util.regex.Pattern;

public class RegExp {
    public static void main(String[] args) {
        String input = "我的网站是:https://ichochy.com,你知道吗?";
        String regex = "(https://)(.+)(.com)";//分组表达式
        Pattern pattern = Pattern.compile(regex);
        Matcher matcher = pattern.matcher(input);
        if(matcher.find()){//查找匹配成功
            //匹配的信息:https://ichochy.com
            System.out.println(matcher.group().toString());
            //groupCount 组数
            for (int i = 0; i < matcher.groupCount(); i++) {
                //每组匹配的信息,注意:序号是从 1 开始
                System.out.println(matcher.group(i+1));
            }
        }

    }
}

正则表达式规则

字符

构造

匹配

x

字符 x

\

反斜线字符

\0n

带有八进制值 0 的字符 n (0 <= n <= 7)

\0nn

带有八进制值 0 的字符 nn (0 <= n <= 7)

\0mnn

带有八进制值 0 的字符 mnn(0 <= m <= 3、0 <= n <= 7)

\xhh

带有十六进制值 0x 的字符 hh

\uhhhh

带有十六进制值 0x 的字符 hhhh

\t

制表符('\u0009')

\n

新行(换行)符 ('\u000A')

\r

回车符 ('\u000D')

\f

换页符 ('\u000C')

\a

报警 (bell) 符 ('\u0007')

\e

转义符 ('\u001B')

\cx

对应于 x 的控制符

字符类

构造

匹配

[abc]

a、b 或 c(简单类)

[^abc]

任何字符,除了 a、b 或 c(否定)

[a-zA-Z]

a 到 z 或 A 到 Z,两头的字母包括在内(范围)

[a-d[m-p]]

a 到 d 或 m 到 p:[a-dm-p](并集)

[a-z&&[def]]

d、e 或 f(交集)

[a-z&&[^bc]]

a 到 z,除了 b 和 c:[ad-z](减去)

[a-z&&[^m-p]]

a 到 z,而非 m 到 p:[a-lq-z](减去)

预定义字符类

构造

匹配

.

任何字符(与行结束符可能匹配也可能不匹配)

\d

数字:[0-9]

\D

非数字: [^0-9]

\s

空白字符:[ \t\n\x0B\f\r]

\S

非空白字符:[^\s]

\w

单词字符:[a-zA-Z_0-9]

\W

非单词字符:[^\w]

POSIX 字符类(仅 US-ASCII)

构造

匹配

\p

小写字母字符:[a-z]

\p

大写字母字符:[A-Z]

\p

所有 ASCII:[\x00-\x7F]

\p

字母字符:[\p{Lower}\p{Upper}]

\p

十进制数字:[0-9]

\p

字母数字字符:[\p{Alpha}\p{Digit}]

\p

标点符号:!"#$%&'()*+,-./:;<=>?@[]^_`{

\p

可见字符:[\p{Alnum}\p{Punct}]

\p

可打印字符:[\p{Graph}\x20]

\p

空格或制表符:[ \t]

\p

控制字符:[\x00-\x1F\x7F]

\p

十六进制数字:[0-9a-fA-F]

\p

空白字符:[ \t\n\x0B\f\r]

java.lang.Character 类(简单的 java 字符类型)

构造

匹配

\p

等效于 java.lang.Character.isLowerCase()

\p

等效于 java.lang.Character.isUpperCase()

\p

等效于 java.lang.Character.isWhitespace()

\p

等效于 java.lang.Character.isMirrored()

Unicode 块和类别的类

构造

匹配

\p

Greek 块(简单块)中的字符

\p

大写字母(简单类别)

\p

货币符号

\P

所有字符,Greek 块中的除外(否定)

[\p{L}&&[^\p{Lu}]]

所有字母,大写字母除外(减去)

边界匹配器

构造

匹配

^

行的开头

$

行的结尾

\b

单词边界

\B

非单词边界

\A

输入的开头

\G

上一个匹配的结尾

\Z

输入的结尾,仅用于最后的结束符(如果有的话)

\z

输入的结尾

Greedy 数量词

构造

匹配

X?

X,一次或一次也没有

X*

X,零次或多次

X+

X,一次或多次

X

X,恰好 n 次

X

X,至少 n 次

X

X,至少 n 次,但是不超过 m 次

Reluctant 数量词

构造

匹配

X??

X,一次或一次也没有

X*?

X,零次或多次

X+?

X,一次或多次

X{n}?

X,恰好 n 次

X{n,}?

X,至少 n 次

X{n,m}?

X,至少 n 次,但是不超过 m 次

Possessive 数量词

构造

匹配

X?+

X,一次或一次也没有

X*+

X,零次或多次

X++

X,一次或多次

X{n}+

X,恰好 n 次

X{n,}+

X,至少 n 次

X{n,m}+

X,至少 n 次,但是不超过 m 次

Logical 运算符

构造

匹配

XY

X 后跟 Y

X

Y

(X)

X,作为捕获组

Back 引用

构造

匹配

\n

任何匹配的 nth 捕获组

引用

构造

匹配

\

Nothing,但是引用以下字符

\Q

Nothing,但是引用所有字符,直到 \E

\E

Nothing,但是结束从 \Q 开始的引用

特殊构造(非捕获)

构造

匹配

(?:X)

X,作为非捕获组

(?idmsux-idmsux)

Nothing,但是将匹配标志i d m s u x on - off

(?idmsux-idmsux:X)

X,作为带有给定标志 i d m s u x on - off

(?=X)

X,通过零宽度的正 lookahead

(?!X)

X,通过零宽度的负 lookahead

(?<=X)

X,通过零宽度的正 lookbehind

(?<!X)

X,通过零宽度的负 lookbehind

(?>X)

X,作为独立的非捕获组

总结

可以看到,通过灵活的规则,设计出你想的表达式,来匹配复杂的字符串,从而快速便捷的操作。