Java 正则表达式

一个正则表达式是含有一些具有特殊意义字符的字符串,这些特殊字符称作正则表达式中的元字符。正则表达式定义了字符串的模式,可以用来搜索、编辑或处理文本,并不仅限于某一种语言,但是在每种语言中有细微的差别。

1. 正则表达式语法

在 Java 中,\ \ 有着特殊的意义,这个表示要插入一个正则表达式的反斜线,\ 后面有的字符具有特殊的意义。一个 \ 有着转义的作用。

字符

在正则表达式中的写法

说明

.

.

匹配除了 “\r\n”之外的任何一个字符

\d

\ \d

代表 0 到 9 的任何一个数字,等效于 [0-9]

\D

\ \D

代表任何一个非数字字符,等效于 [ ^ 0-9]

\s

\ \s

匹配任何空白字符,包括空格,‘\t’,‘\n’,‘\x0B’,‘\f’,‘\r’,\s+可以匹配多个空格

\S

\ \S

代表非空格类字符

\w

\ \w

代表可用于标识符的字符(不包括美元符号)

\W

\ \W

代表不能用于标识符的字符

\p{Lower}

\ \p{Lower}

小写字母[a~z]

\p{Upper}

\ \p{Upper}

大写字母[A~Z]

\p{ASCII}

\ \p{ASCII}

ASCII字符

\p{Alpha}

\ \p{Alpha}

字母

\p{Digit}

\ \p{Digit}

数字字符,即[0~9]

\p{Alnum}

\ \p{Alnum}

字母或数字

\p{Punct}

\ \p{Punct}

标点符号:!“ # $ % & ‘ ( ) * + , - . / : ; < = > ? @ [ \ ] ^ _ ` { | } ~

\p{Graph}

\ \p{Graph}

可视字符:\p{Alnum}\p{Punct}

\p{Print}

\ \p{Print}

可打印字符:\p{Graph}

\p{Blank}

\ \p{Blank}

空格或制表符 [\t]

\p{Cntrl}

\ \p{Cntrl}

控制字符: [\x00-\x1F\x7F]

字符

说明

\

转义字符,将下一个字符标记为特殊字符,文本,反向引用或八进制转义符。\n 匹配换行符,\ \ ( 匹配 (

^

匹配输入字符串开始的位置

$

匹配输入字符串结尾的位置

*

零次或多次匹配前面的字符或子表达式。例如:ab* 匹配 “ab”,”abb”,等效于 {0,}

+

一次或多次匹配前面的字符或子表达式。例如:ab+ 匹配 “ab” ,“abb”但不匹配“a”,等效于{1,}


零次或一次匹配匹配钱前面的字符或子表达式。例如:ab 匹配 “ab”,“a”,等效于{0,1}

{n}

n 是非负正数,正好匹配 n 次。例如:a{2} 匹配 ”aa“

{n,}

n 是非负整数。至少匹配 n 次。例如:a{2,} 匹配 ”aaaaaa“,a{1,} 等效于”a+“,a{n,}等效于 ”o*“

{n,m}

m和n都是非负整数,其中 n <= m。匹配至少 n 次,至多 m 次。例如:a{1,3} 匹配 ”baa“ ,”o{0,1}“等效于 ”o?“,注意:不能将空格插入逗号和数字之间。


当次字符紧随任何其他限定符(*,+,?,{n},{n,},{n,m})之后时,匹配模式是“非贪心的”。“非贪心的”模式匹配搜索到的,尽可能短的字符串,而默认的“贪心的”模式匹配搜索到的,尽可能长的字符串。例如:在“aaaa”中,“a+?”只匹配单个 a,o+匹配所有的 a

(pattern)

匹配 pattern 并捕获该匹配的子表达式。例如:要匹配 ( ,java使用 (“\ \ (”)

(?:pattern)

匹配pattern但不捕获该匹配的子表达式,即它是一个非捕获匹配,不存储供以后使用的匹配。例如:(?:a|b)cc 匹配 acc,bcc

(?=pattern)

执行正向预测先行搜索的子表达式,该表达式匹配处于匹配 pattern 的字符串的起始点的字符串。它是一个非捕获匹配,即不能捕获供以后使用的匹配。例如:'Windows (?=95|98|2000)`匹配 Windows 2000 中的 Window,但不匹配 Windows 3 中的 Windows。预测先行不占用字符,即发生匹配后,下一匹配的搜索紧随上一匹配之后,而不是在组成预测先行的字符后。

(?!pattern)

执行反向预测先行搜索的子表达式该表达式,该表达式匹配不处于匹配 pattern 的字符串的起始点的搜索字符串。它是一个非捕获匹配,即不能捕获供以后使用的匹配。例如:'Windows (?!95|98|2000)` 匹配 Windows 3 中的 Windows,但不匹配 Windows 2000 中的 Windows。预测先行不占用字符,即发生匹配后,下一匹配的搜索紧随上一匹配之后,而不是在组成预测先行的字符后。

x|y

匹配 x 或 y。例如:a|b 匹配 a 或 b

[xyz]

字符集。匹配包含的任一字符。例如: [abc] 匹配 book 中的 b

[^xyz]

反向字符集。匹配未包含的任何字符。例如:[ ^ abc] 匹配 book 中的 o k

[a-z]

字符范围。匹配指定范围内的任何字符。例如:[a-z] 匹配 a 到 z 内的任何小写字母

[^a-z]

反向字符范围。匹配不在指定的范围内的任何字符。例如:[ ^a-z] 匹配任何不在 a 到 z 范围内的任何字符

\b

匹配一个字边界,即字与空格间的位置。例如:“er\b” 匹配 never 中的 er ,但不匹配 verb 中 er

\B

非字边界匹配。“er\B” 匹配 verb 中的 er,但不匹配 never 中的 er

\cx

匹配 x 指示的控制字符。例如:\cM 匹配 Control-M 或 回车符。x 的值必须在 A -Z 或 a - z 之间。如果不是这样,则假定 c 就是 “c” 字符本身。

\f

换页符匹配。等效于 \x0c 和 \cL

\n

换行符匹配。等效于 \x0a 和 \cJ

\r

匹配一个回车符。等效于 \x0d 和 \cM

\t

制表符匹配。等效于 \x09 和 \cl

\v

垂直制表符匹配。等效于 \x0b 和 \cK

\w

匹配任何字类字符,包括下划线。等效于 [A-Za-z0-9_]

\W

匹配任何非单词字符,等效于[ ^ fA-Za-z0-9_]

\xn

匹配 n,此处的 n 是一个十六进制转义码。十六进制转义码必须正好是两位数长。例如:\x041 匹配 A。\x041 与 \x04 & 1 等效,允许在正则表达式中使用 ASCII 代码

\num

匹配 num,此处的 num 是一个正整数,到捕获匹配的反向引用。例如:“(.)\1” 匹配两个连续的相同字符

\n

标识一个八进制转义码或反向引用。如果 \n 前面至少有 n 个捕获子表达式,那么 n 是反向引用。否则,如果 n 是八进制数(0-7),那么 n 是八进制转义码

\nm

标识一个八进制转义码或反向引用。如果 \nm 前面至少有 nm 个捕获子表达式,那么 nm 是反向引用。如果 \nm 前面至少有 n 个捕获,则 n 是反向引用,后面跟有字符 m。如果两种前面的情况都不存在,则 \nm 匹配 八进制值 nm,其中 n 和 m 是八进制数字 (0-7)

\nml

当 n 是八进制数(0-3),m 和 / 是八进制数 (0-7) 时,匹配八进制转义码 nml

\un

匹配 n,其中 n 是以四位十六进制数表示的 Unicode 字符。例如:\u00A9 匹配版权符号 @

2. 捕获组

捕获组就是把多个字符当一个单独单元进行处理的方法,它通过对括号内的字符分组来创建。

捕获组是通过从从左至右计算其开括号来编号。例如:在表达式 ((A)(B(C))),有四个组:

  • ((A)(B(C)))
  • (A)
  • (B(C))
  • (C)
    可以通过调用 matcher 对象的 groupCount 方法来查看表达式有多少个分组。groupCount 方法返回一个 int 值,表示 matcher 对象当前有多少个捕获组,特殊组(group(0)),它总是代表整个表达式,不包括在groupCount的返回值中。
public class TestString {
    public static void main(String[] args) {
        Pattern regex = Pattern.compile("((A)(B(C)))");

        Matcher matcher = regex.matcher("ABC");
        System.out.println(matcher.groupCount());
        matcher.find();
        System.out.println(matcher.group(0));
        System.out.println(matcher.group(1));
        System.out.println(matcher.group(2));
        System.out.println(matcher.group(3));
        System.out.println(matcher.group(4));
    }
}

运行结果:
    4
    ABC
    ABC
    A
    BC
    C
3. Pattern 类

Pattern 类用于创建一个正则表达式,也可以说创建一个匹配模式。它的构造方法是私有的,不可以直接创建,但可以通过 Pattern.complie(String regex) 简单工厂方法创建一个正则表达式。

public class TestString {
    public static void main(String[] args) {
        Pattern regex = Pattern.compile("\\d+");
        System.out.println(regex.pattern());
    }
}

运行结果:
    \d+
返回的是 regex 的参数
3.1 Pattern.split(CharSequence input)

功能:用于分隔字符串,并返回一个 String[]

public class TestString {
    public static void main(String[] args) {
        Pattern regex = Pattern.compile("\\d+");
        String[] str = regex.split("a1b2c3d4");
        for (String s : str) {
            System.out.println(s);
        }
    }
}

运行结果:
    a
    b
    c
    d
3.2 Pattern.matches(String regex, CharSequence input)

功能:静态方法,用于快速匹配字符串,该方法适合用于只匹配一次,且匹配全部字符串

public class TestString {
    public static void main(String[] args) {
        System.out.println(Pattern.matches("\\d+", "33"));
        System.out.println(Pattern.matches("\\d+", "33aa"));
    }
}

运行结果:
    true
    false
3.3 Pattern.matcher(CharSequence input)

返回一个 Matcher 对象,Matcher 类的构造方法也是私有的,不能随意创建,只能通过 Pattern.matcher(CharSequence input)方法得到该类似的实例。

public class TestString {
    public static void main(String[] args) {
        Pattern pattern = Pattern.compile("\\d+");
        Matcher matcher = pattern.matcher("123");
        System.out.println(matcher.pattern());
    }
}

运行结果:
    \d+
返回的 pattern,也就是返回 Mathcer 对象是由那个 Pattern 对象创建的

Pattern 类只能做一些简单的匹配操作,要想得到更好的正则匹配操作需要将 Pattern 和 Matcher 一起合作。Matcher 类提供了对正则表达式的分组支持,以及对正则表达式的多次匹配操作。

4. Matcher 类
4.1 Matcher.matches()

功能:匹配操作方法,返回 boolean 类型,当匹配到时返回true,否则返回 false。

matches 是对整个字符串进行匹配,只有整个字符串都匹配了才返回 true

public class TestString {
    public static void main(String[] args) {
        Pattern pattern = Pattern.compile("\\d+");
        Matcher matcher = pattern.matcher("123");
        System.out.println(matcher.matches());
        Matcher matcher1 = pattern.matcher("123abc");
        System.out.println(matcher1.matches());
    }
}

运行结果:
    true
    false
4.2 Matcher.lookingAt()

功能:匹配操作方法,返回 boolean 类型,对前面的字符串进行匹配,只有匹配的字符串在最前面才返回true,

public class TestString {
    public static void main(String[] args) {
        Pattern pattern = Pattern.compile("\\d+");
        Matcher matcher = pattern.matcher("123");
        System.out.println(matcher.lookingAt());
        Matcher matcher1 = pattern.matcher("123abc");
        System.out.println(matcher1.lookingAt());
        Matcher matcher2 = pattern.matcher("abc123");
        System.out.println(matcher2.lookingAt());
    }
}

运行结果:
    true
    true
    false
4.3 Matcher.find()

功能:匹配操作方法,返回 boolean 类型,匹配到的字符串可以在任何位置

public class TestString {
    public static void main(String[] args) {
        Pattern pattern = Pattern.compile("\\d+");
        Matcher matcher = pattern.matcher("a123b");
        System.out.println(matcher.find());
        Matcher matcher1 = pattern.matcher("123abc");
        System.out.println(matcher1.find());
        Matcher matcher2 = pattern.matcher("abc123");
        System.out.println(matcher2.find());
    }
}

运行结果:
    true
    true
    true
4.4 Matcher.start()

功能:返回匹配到的字符串在字符串中的索引位置

public class TestString {
    public static void main(String[] args) {
        Pattern pattern = Pattern.compile("\\d+");

        Matcher matcher = pattern.matcher("123");
        System.out.println(matcher.matches());
        System.out.println(matcher.start());

        Matcher matcher1 = pattern.matcher("123abc");
        System.out.println(matcher1.lookingAt());
        System.out.println(matcher1.start());

        Matcher matcher2 = pattern.matcher("abc123");
        System.out.println(matcher2.find());
        System.out.println(matcher2.start());
    }
}
运行结果:
    true 
    0
    true
    0
    true
    3
4.5 Matcher.end()

功能:返回匹配到的字符串的最后一个字符在字符串中的索引位置

public class TestString {
    public static void main(String[] args) {
        Pattern pattern = Pattern.compile("\\d+");

        Matcher matcher = pattern.matcher("123");
        System.out.println(matcher.matches());
        System.out.println(matcher.end());

        Matcher matcher1 = pattern.matcher("123abc");
        System.out.println(matcher1.lookingAt());
        System.out.println(matcher1.end());

        Matcher matcher2 = pattern.matcher("abc123");
        System.out.println(matcher2.find());
        System.out.println(matcher2.end());
    }
}

运行结果:
    true
    3
    true
    3
    true
    6
4.6 Matcher.group()

功能:返回匹配到的子字符串

public class TestString {
    public static void main(String[] args) {
        Pattern pattern = Pattern.compile("\\d+");

        Matcher matcher = pattern.matcher("123");
        System.out.println(matcher.matches());
        System.out.println(matcher.group());

        Matcher matcher1 = pattern.matcher("123abc");
        System.out.println(matcher1.lookingAt());
        System.out.println(matcher1.group());

        Matcher matcher2 = pattern.matcher("abc123");
        System.out.println(matcher2.find());
        System.out.println(matcher2.group());
    }
}

运行结果:
    true
    123
    true
    123
    true
    123
4.7 replaceFirst和replaceAll方法

功能:替换匹配正则表达式的文本,replaceFirst替换首次匹配,replaceAll替换所有匹配

public class TestString {
    public static void main(String[] args) {
        String str = "I am a student, he is a student";
        String regex = "student";
        Pattern pattern = Pattern.compile(regex);
        Matcher matcher = pattern.matcher(str);
        System.out.println(matcher.replaceFirst("teacher"));
        System.out.println(matcher.replaceAll("teacher"));
    }
}

运行结果:
    I am a teacher,he is a student
    I am a teacher,he is a teacher