Python3网络爬虫教程12——页面解析及正则表达式的使用

关注 Felixzfb

文章目录

1. 页面解析和数据提取简介
2. 正则表达式
3. XML XPath 请参考高级语言中的内容

Python3网络爬虫教程12——页面解析及正则表达式的使用

原创

Felixzfb 2023-07-12 16:07:56 博主文章分类：网络爬虫 ©著作权

文章标签 正则页面解析字符串正则表达式数据 文章分类 HarmonyOS 后端开发

©著作权归作者所有：来自51CTO博客作者Felixzfb的原创作品，请联系作者获取转载授权，否则将追究法律责任

1. 页面解析和数据提取简介

结构数据：先有的结构，再谈数据

JSON文件

JSON Path
转换成Python类型进行操作（json类）

XML文件

转化为Python类型进行操作（xml to dict)
XPath
CSS选择器
正则表达式

非结构化数据：现有数据，再谈结构

文本
电话号码
邮箱地址
通常处理上述数据，都有一定的规律，使用正则表达式
HTML文件

正则
XPath
CSS选择器

2. 正则表达式

一套规则，可以字符串文本中进行搜索替换等
案例67_1，re的基本使用流程
正则常用方法函数：

compile 函数用于编译正则表达式
生成一个正则表达式（ Pattern ）对象
供 match() 和 search() 这两个函数使用
re.match函数
尝试从字符串的起始位置匹配一个模式，如果不是起始位置匹配成功的话，match()就返回none。
re.match(pattern, string, flags=0)
re.search 扫描整个字符串并返回第一个成功的匹配
re.search(pattern, string, flags=0)
group() 或 groups() 匹配对象函数来获取匹配表达式
re.sub用于替换字符串中的匹配项
re.sub(pattern, repl, string, count=0)
start() 返回匹配开始的位置
end() 返回匹配结束的位置
span() 返回一个元组包含匹配 (开始,结束) 的位置
参考案例36_1/2/3.py

re.match和re.search的区别

re.match只匹配字符串的开始，如果字符串开始不符合正则表达式，则匹配失败，函数返回None；
而re.search匹配整个字符串，直到找到一个匹配。

匹配中文

大部分中文内容表示范围是[u4e00-u9fa5]
findall找出所有的匹配
看案例36_4

贪婪和非贪婪

贪婪：尽可能多的匹配（*）表示
非贪婪：找到符合条件的最小内容即可，（？）表示
正则默认使用贪婪匹配
看案例36_5

3. XML XPath 请参考高级语言中的内容

本章案例较多：
源代码请到GITHUB下载：
https://github.com/FangbaiZhang/TLXY_study_note/tree/master/Spider

赞
收藏
评论
分享
举报

上一篇：Python3网络爬虫教程14——BeautifulSoup4之搜索文档树

下一篇：Python 全栈工程师必备面试题 300 道（2020 版）

提问和评论都可以，用心的回复会被更多人看到评论

发布评论

相关文章

举报文章

请选择举报类型

内容侵权涉嫌营销内容抄袭违法信息其他

具体原因

包含不真实信息涉及个人隐私

原文链接（必填）

补充说明

0/200

上传截图

格式支持JPEG/PNG/JPG，图片不超过1.9M

已经收到您得举报信息，我们会尽快审核

鸿蒙开发者社区

WOT技术大会

公众号矩阵

移动端

短视频免费课程课程排行直播课软考学堂

全部课程厂商认证 IT技术 24年11月软考 PMP项目管理免费题库

在线学习

文章资源问答课堂专栏直播

51CTO

鸿蒙开发者社区

51CTO技术栈

51CTO官微

51CTO学堂

51CTO博客

CTO训练营

鸿蒙开发者社区订阅号

51CTO软考

51CTO学堂APP

51CTO学堂企业版APP

鸿蒙开发者社区视频号

51CTO软考题库

51CTO博客

首页
关注
排行榜
精品课程
免费直播
软考题库

科目全、试题精、讲解专业，扫码免费刷

搜索历史清空

热门搜索

查看【】的结果
写文章
创作中心
登录注册