今天入门爬虫的时候看到有这个一种写法:

pic_url=re.findall('"objURL":"(.*?)",',html,re.S)
所以,今天来简单分析一下这个东西:re.S的作用

下面主要看一下这个代码:

 1 import re
 2 a = """sdfkhellolsdlfsdfiooefo:
 3 877898989worldafdsf"""
 4 b = re.findall('hello(.*?)world',a)
 5 c = re.findall('hello(.*?)world',a,re.S)
 6 print ('b is ' , b)
 7 print ('c is ' , c)
 8 
 9 
10 # 输出结果:
11 # b is []
12 # c is ['lsdlfsdfiooefo:\n877898989']

 


注意:只有三单引或者三双引号的情况下,可以直接回车(\n)换行写。其他双引号,单引号写法不同。这里不做其他解释。

在字符串a中,包含换行符\n,在这种情况下:

如果不使用re.S参数,则只在每一行内进行匹配,如果一行没有,就换下一行重新开始。

而使用re.S参数以后,正则表达式会将这个字符串作为一个整体,在整体中进行匹配。
————————————————