今天入门爬虫的时候看到有这个一种写法:
pic_url=re.findall('"objURL":"(.*?)",',html,re.S)
所以,今天来简单分析一下这个东西:re.S的作用
下面主要看一下这个代码:
1 import re 2 a = """sdfkhellolsdlfsdfiooefo: 3 877898989worldafdsf""" 4 b = re.findall('hello(.*?)world',a) 5 c = re.findall('hello(.*?)world',a,re.S) 6 print ('b is ' , b) 7 print ('c is ' , c) 8 9 10 # 输出结果: 11 # b is [] 12 # c is ['lsdlfsdfiooefo:\n877898989']
注意:只有三单引或者三双引号的情况下,可以直接回车(\n)换行写。其他双引号,单引号写法不同。这里不做其他解释。
在字符串a中,包含换行符\n,在这种情况下:
如果不使用re.S参数,则只在每一行内进行匹配,如果一行没有,就换下一行重新开始。
而使用re.S参数以后,正则表达式会将这个字符串作为一个整体,在整体中进行匹配。
————————————————