JDK6笔记(3)----正则表达式
一、正则表达式的编译形式
1)指定为字符串的正则表达式必须首先被编译为此类的实例。compile
2)将得到的模式用于创建Matcher对象。matcher
3)依照正则表达式,该对象可以于任意字符序列匹配。matches
例:
Pattern p=Pattern.compile("a*b");
Matcher m=P.matcher("aaaaab");
boolean b=m.matches();
二、规则
1)字符类
. 表示任何字符
[abc] 包含a、b、c的任何字符 (和a|b|c相同)
[^abc] 除a、b、c之外的任何字符 (否定)
[a-zA-Z] 任何从a到z或从A到Z的字符 (范围)
[abc[hij]] 任意a、b、c、h、i、j字符 (与a|b|c|h|i|j相同)(合并)
[a-z&&[hij]] 任意h、i、j字符 (交)
/s whitespace符 (空格、tab、换行、换页、回车)
/S 非whitespace符 ([^/s])
/d 数字[0-9]
/D 非数字[^0-9]
/w word character ([a-zA-Z_[0-9])
/W 非word character (^/w)
2)在Java中,“//”意味着正在插入一个正则表达式的反斜杠,随后的字符具有特殊意义。
XY XY
X|Y X或Y
(X) Capturing group
3)边界匹配
^ 一行的开始
$ 一行的结束
/b 词界
/B 非词界
/G 上一级的结尾
4)量词
? 0或1个
* 0或多个
+ 1或多个
X{n} X,恰好n次
X{n,} X,至少n次
X{n,m} X,至少n次,至多m次
三、字符序列
CharSequence接口,从String到StringBuffer类中抽象出。
interface CharSequence{
charAt(int i); //返回指定索引处的char值
length(); //返回长度
subSequence(int start,int end); //返回从索引start开始,end结束的子序列
toString(); //返回字符串
}
四、在Java中,正则表达式是通过java.util.regex包里面的Pattern和Matcher类来实现的。
1)Matcher.find()用于发现应用于CharSequence的多重模式匹配。
2)find(int start) 重置此匹配器,然后尝试查找匹配该模式、从指定索引开始的输入序列的下一个子序列。
例:
package myfile;
import java.util.regex.*;
import java.util.*;
public class FindDemo {
private static String str="boolean contains(CharSequence s) new Test()";
public static void main(String[] args) {
Matcher m=Pattern.compile("//w+").matcher("Evening is full of the linnet's wings");
while(m.find())
System.out.println(m.group());
int i=0;
while(m.find(i)){
i++;
System.out.print(m.group()+" ");
}
System.out.println("/n"+"i="+i);
}
}