本章来小讲一下正则表达式的运用。
测试数据
测试数据是本公司的部分日志信息,截了一小段出来。用于练习正则。
[18:51:02]+CONNECTION TIME OUT
[18:51:11]+DISCONNECT
[18:51:13]+CONNECTED>>0x11899AAC51E3
[18:51:14]
[18:51:15]#
[18:51:21]# log 4
[18:51:21]4
[18:51:22]#
[18:51:22]------info(11.001)------
[18:51:22]<charge>
[18:51:22]vol : 676 mv
[18:51:22]cur : 1 ma
[18:51:22]status : null
[18:51:22]chgen : 0
[18:51:22]pwout : 1
[18:51:22]<warn>
万能匹配公式(.*?)
我愿称之为傻瓜式匹配,一起来看看,为什么这么说
如上数据,我需要匹配出CONNECTED>>0x11899AAC51E3中的"0x"
import re
datas = """
[18:51:02]+CONNECTION TIME OUT
[18:51:11]+DISCONNECT
[18:51:13]+CONNECTED>>0x11899AAC51E3
"""
values = re.findall(">>(.*?)1",datas)
print(values) # ['0x']
至于为什么使用findall无需疑惑,后面都会讲到。这里的意思就是在全部数据中匹配出介于">>"与"1"之间的数据,也就是0x。
那么我想匹配其他数据呢,例如"cur"
import re
datas = """
[18:51:22]<charge>
[18:51:22]vol : 676 mv
[18:51:22]cur : 1 ma
[18:51:22]status : null
"""
values = re.findall("](.*?): 1",datas)
print(values) # ['cur ']
这也就是,为什么称之为傻瓜式匹配了,你需要什么数据,原封不动的讲所需的数据前后的字符都抄上来即可,当然记得将(.*?)带上。
缺点也很明显,不够灵活,不够方便,如上数据匹配出来就会带有很多空格。
精准匹配
接上面的例子。
import re
datas = """
[18:51:22]<charge>
[18:51:22]vol : 676 mv
[18:51:22]cur : 1 ma
[18:51:22]status : null
"""
values = re.findall("](c\w*)\s",datas)
print(values)
这里用到了\s与\w,\s是匹配空白字符。\w是匹配单词字符。在这里的作用是匹配0个或多个。\w也就是匹配0个或者多个单词字符。
所以此处的意思是,从"]"匹配以c开头的0个或多个单词字符一直到空白字符结束。也久成功的匹配出了cur
匹配时间戳
上述例子中 ,需要将所有的时间戳匹配出来,怎么操作?照样可以(.*?)
import re
datas = """
[18:51:22]<charge>
[18:51:22]vol : 676 mv
[18:51:22]cur : 1 ma
[18:51:22]status : null
"""
values = re.findall("\[(.*?)\]",datas)
print(values)
# ['18:51:22', '18:51:22', '18:51:22', '18:51:22']
稍微有点不同的是,这里需要转义一下"[]",不然无法正常匹配到。
小结
本章5个知识点,注意举一反三