正则式使用场景 

·表单验证:如何验证用户注册时使用正确的邮箱?英文姓名是否含有中文字符?电话号码是否正确?等等 快速查找、替换:例如grep等

·过滤页面非法字符

·Java源程序词法检查

·爬取站点的相关页面

·……

 

 正则表达式基础
1)句点符号:匹配所有字符,包括空格、Tab字符甚至换行符,例如  “ba.y” 能匹配上 “baby” 或者”bacy “
2)方括号符号:只有方括号里面指定的字符才参与匹配,例如正则表达式t[aeio]n”只匹配“tan”、“Ten”、“tin”和“ton”。但“Toon”不匹配。
3) “或”符号:操作符的基本意义就是“或”运算。例如要匹配“toon”,使用“t(a|e|i|o|oo)n”正则表达式。

    4)转义字符“\”

5)“否”符号:,“^”表示不想要匹配的字符。例如,[^X]的正则表达式匹配所有单词,但以“X”字母开头的单词除外。

6)匹配量词

 

Java 正则API

1) java.util.regex.Pattern:正则表达式的一种已编译的实现。正则表达式通常以字符串的形式出现,它首先必须被编译为Pattern类的一个实例。
2) java.util.regex.Matcher:一个Matcher实例是被用来对目标字符串进行基于既有模式(也就是一个给定的Pattern所编译的正则表达式)进行匹配查找的

3) Pattern的方法如下:

    static Pattern compile(String regex)
static Pattern compile(String regex, int flags)
增加flag参数的指定,可选的flag参数包括:

    CASE_INSENSITIVE,MULTILINE,DOTALL,UNICODE CASE, CANON EQ
 4) java.util.regex.Matcher:一个Matcher实例是被用来对目标字符串进行基于既有模式(也就是一个给定的Pattern所编译的正则表达式)进行匹配查找的

Matcher类同时提供了四个将匹配子串替换成指定字符串的方法:
replaceAll()
replaceFirst()
appendReplacement()
appendTail()

 

 

一些问题:

如何用正则式表达函数foo(a,b,c),其中a,b,c是foo的参数,可以是变量,也可以是函数.

如何查找出来所有图片链接?怎样去掉详细描述中非法http链接?

如何把所有html代码中含有width属性的标签查找出来,并且进行如下判断:
如果width的值大于580,则设置为0,
否则保持不变。