正则表达式介绍及Python使用方法

原创

测试开发小记 2021-11-24 13:36:29 ©著作权

文章标签 linux shell 正则表达式 python 字符串 文章分类 代码人生

©著作权归作者所有：来自51CTO博客作者测试开发小记的原创作品，请联系作者获取转载授权，否则将追究法律责任

正则表达式（Regular expression）是组成搜索模式的一组字符序列，是记录文本规则的代码，用来检查文本中是否包含指定模式的字符串，通过定义一个规则来匹配字符串。正则表达式广泛应用于在字符串查找和处理中，大多文本编辑器基本都支持正则表达式查找。本文将简要介绍正则表达式语法，然后介绍Python语言中正则表达式使用方法。

正则表达式

Unix之父Ken Tompson将正则表达式引入Unix，后面发展成了grep（Global Regular Expression Print）命令，由于grep不支持+、|与? ，且分组比较麻烦，AT&T的Alfred Aho开发了egrep命令。随着Unix的版本不断演化，Unix中的程序（比如Linux三剑客中的awk、sed）所支持的正则表达式有差异，比较混乱。在1986年制定了POSIX（Portable Operating System Interface）标准，其中统一了正则表达式的语法。 POSIX标准把正则表达式分为两种：BRE（Basic Regular Expressions）和ERE（Extended Regular Expressions ）。BRE就是unix系统使用的grep命令，ERE对应egrep命令，是BRE的扩展。而linux系统使用的是GNU标准，linux发行版集成了GNU（Gnu’s Not Unix）套件，GNU在实现了POXIS标准的同时，做了一定的扩展。也包括GNU Basic Regular Expressions 和GNU Extends Regular Expressions。正则表达式除了POSIX标准之外还有一个Perl分支，Perl与sed和awk兼容，后来演化成为PCRE（Perl Compatible Regular Expressions），是一个用C语言编写的正则表达式函数库，功能很强大，性能比POSIX正则表达式好。PCRE被引入了其他语言中，比如PHP, Tcl, Python, Ruby, C++, Java, R语言等等。

普通正则

代码	说明
.	匹配除换行符以外的任意字符
\w	匹配字母或数字或下划线或汉字
\s	匹配任意的空白符
\d	匹配数字
\b	匹配单词的开始或结束
^	匹配字符串的开始
$	匹配字符串的结束
*	重复零次或更多次

扩展正则

扩展正则：grep加 -E 参数

grep -E ' 404 | 500' nginx.log

代码/语法	说明
+	重复一次或更多次
？	重复零次或一次
{n}	重复n次
{n,}	重复n次或更多次
{n,m}	重复n到m次

| \| | 表示或 |

零宽断言

语法	说明
(?=exp)	匹配exp前面的位置
(?<=exp)	匹配exp后面的位置
(?!exp)	匹配后面不是exp的位置
(?	匹配前面不是exp的位置

正则表达式实例

正则表达式在线测试工具：

测试文本test.txt

$ cat test.txt
abc
bac
123456
bc
test123
12345678901234
023-12345678
123
GET 1
GET123
GET
test123tes

1. 匹配以字母a开头的单词

$ grep '\ba\w*\b' test.txt
ab

2. 匹配刚好6个字符的单词

$ grep -E '\b\w{6}\b' test.txt
123456
GET12

3. 匹配1个或更多连续的数字

$ grep -Po '\d+' test.txt
123456
123
12345678901234
023
12345678
123
1
123
12

4. 5位到12位QQ号

$ grep -P '\d{5,12}' test.txt
123456
12345678901234
023-12345678
$ grep -P '^\d{5,12}$' test.txt
12345

5. 匹配电话号码

$ grep -P '0\d{2}-\d{8}' test.txt
023-1234567

6. 只匹配3位数字

$ grep -P '^\d{3}$' test.txt
12

7. 查找单词‘GET’

$ grep '\bGET\b' test.txt
GET 1
GET
$ grep '^GET$' test.txt
GE

8. 匹配两个字符之间的内容

$ grep -Eo "test(.+?)test" test.txt
test123test
$ grep -Po "(?<=test).*?(?=test)" test.txt
12

9. `.*`和`.+`的使用方法

$ text1="fn()"
$ text2="fn(6)"
$ echo $text1 | grep "fn\(.*\)"
fn()
$ echo $text2 | grep "fn\(.*\)"
fn(6)
$ echo $text1 | grep -E "fn\(.+\)"
$ echo $text2 | grep -E "fn\(.+\)"
fn(6

Python正则表达式

Python有一个内置正则表达式模块 re ，可以使用它来进行字符串操作：

import r

re模块提供了以下4种方法：

findall：返回所有匹配项
search：如果匹配到目标字符，返回一个匹配对象，用于判断是否存在目标字符串
split：分割
sub：替换

匹配数字、字母

text = '1&\nbsp;hour(s) 2&\nbsp;min 25&\nbsp;s'
re.findall(r'\d+',text) # 匹配时间（数字）
re.findall(r'\d+|(?<=;)\w+',text) # 匹配时间和单

output:

['1', '2', '25']
['1', 'hour', '2', 'min', '25', 's'

re.findall(r'\d{2}+',text) # 匹配2位数

查找替换两个字符串之间内容

替换字符target_text：

xpath_path = '//*[contains(text(),"target_text")]/../td[5]/span' # xpath路径
repl = "需要替换成的字符串"
re.sub(r"(?<=\").*?(?=\")", repl, xpath_path) # 替换要查找的文

output:

'//*[contains(text(),"需要替换成的字符串")]/../td[5]/span

添加千位分割符

number = '12345678' 
re.sub(r"\B(?=(?:\d{3})+(?!\d))", ",",number) # 替换要查找的文本
re.sub(r"\B(?:(?:\d{3})+(?!\d))", ",",number)

output:

'12,345,678'
'12,

(?:\d{3})+(?!\d):

查找3n(数字) + 非数字组合

(?:exp) :

匹配exp,不捕获匹配的文本(非获取匹配)，也不给此分组分配组号，当执行了第一次匹配时，匹配到了行尾，直接将345678替换成了“,”。

参考文档

正则表达式30分钟入门教程：https://deerchao.cn/tutorials/regex/regex.htm
github项目learn-regex：https://github.com/ziishaned/learn-regex
https://www.w3schools.com/python/python_regex.asp

欢迎关注公众号:「测试开发小记」及时接收最新技术文章！

上一篇：Linux三剑客grep、awk和sed

下一篇：JMeter性能监控系统：Jmeter + InfluxDB + Grafana

提问和评论都可以，用心的回复会被更多人看到评论

发布评论

相关文章

官方博客	全部文章	热门标签	班级博客
了解我们	网站地图	意见反馈

鸿蒙开发者社区	51CTO学堂
51CTO	软考资讯

正则表达式介绍及Python使用方法

正则表达式介绍及Python使用方法

正则表达式

普通正则

扩展正则

零宽断言

正则表达式实例

1. 匹配以字母a开头的单词

2. 匹配刚好6个字符的单词

3. 匹配1个或更多连续的数字

4. 5位到12位QQ号

5. 匹配电话号码

6. 只匹配3位数字

7. 查找单词‘GET’

8. 匹配两个字符之间的内容

9. ​​.*​​​和​​.+​​的使用方法

Python正则表达式

匹配数字、字母

查找替换两个字符串之间内容

添加千位分割符

参考文档

51CTO博客

9. `.*`和`.+`的使用方法