Python小白爬虫(二) _使用正则表达式获取页面中我们想要的数据（案例）

原创

z盗理者 2022-09-15 11:17:43 博主文章分类：Python ©著作权

©著作权归作者所有：来自51CTO博客作者z盗理者的原创作品，请联系作者获取转载授权，否则将追究法律责任

Python使用正则表达式获取想要的数据（案例）

上篇文章我们说了如果通过requests get 获取到我们的页面内容，不过页面的内容太多了，我们需要找到指定的内容就一定要通过其他的模块来获取，我们这篇文章主要就是写个正则表达式获取页面a标签的案例。这个案例非常简单，

我们要使用requests模块就要用pip来安装：

python -m pip install requests

废话不多说了，上代码：

# -*- coding: UTF-8 -*-
import requests  # 导入requests包
import re  # 导入re包，正则表达式使用

url = ;  # 需要请求的网址
html_str = requests.get(url)  # 发送Get请求
# html_str 就是 html里面的所有内容
htms = re.findall(r"<a.*?>.*?</a>", html_str.text)  # 通过正则表达式 r"<a.*?>.*?</a>" 找到所有的数据并输出

for item in htms:
    print(item)

讲解：
还是获取我们CSDN官网的信息

url =;  # 需要请求的网址
html_str = requests.get(url)  # 发送Get请求

正则表达式：

r"<a.*?>.*?</a>"

最后循环我们的数据

htms = re.findall(r"<a.*?>.*?</a>", html_str.text)  # 通过正则表达式 r"<a.*?>.*?</a>" 找到所有的数据并输出

for item in htms:
    print(item)

结果的截图：（使用正则表达式获取a标签，并循环输出的结果）

Python小白爬虫(二) _使用正则表达式获取页面中我们想要的数据（案例）_正则表达式

上一篇：win10开机自启

下一篇：Python关于时间的问题

提问和评论都可以，用心的回复会被更多人看到评论

发布评论

相关文章

官方博客	全部文章	热门标签	班级博客
了解我们	网站地图	意见反馈

鸿蒙开发者社区	51CTO学堂
51CTO	软考资讯