Python使用正则表达式获取想要的数据(案例)

上篇文章我们说了如果通过requests get 获取到我们的页面内容,不过页面的内容太多了,我们需要找到指定的内容就一定要通过其他的模块来获取,我们这篇文章主要就是写个正则表达式获取页面a标签的案例。这个 案例非常简单,

我们要使用requests模块就要用pip来安装:

python -m pip install requests

废话不多说了,上代码:

# -*- coding: UTF-8 -*-
import requests # 导入requests包
import re # 导入re包,正则表达式使用

url = ; # 需要请求的网址
html_str = requests.get(url) # 发送Get请求
# html_str 就是 html里面的所有内容
htms = re.findall(r"<a.*?>.*?</a>", html_str.text) # 通过正则表达式 r"<a.*?>.*?</a>" 找到所有的数据并输出

for item in htms:
print(item)

讲解:
还是获取我们CSDN官网的信息

url =;  # 需要请求的网址
html_str = requests.get(url) # 发送Get请求

正则表达式:

r"<a.*?>.*?</a>"

最后循环我们的数据

htms = re.findall(r"<a.*?>.*?</a>", html_str.text)  # 通过正则表达式 r"<a.*?>.*?</a>" 找到所有的数据并输出

for item in htms:
print(item)

结果的截图:(使用正则表达式获取a标签,并循环输出的结果)

Python小白爬虫(二) _使用正则表达式获取页面中我们想要的数据(案例)_正则表达式