# yyds干货盘点 # 盘点一个正则表达式在Python网络爬虫中的应用案例

原创

Python进阶者 2022-08-31 10:36:41 博主文章分类：Python那些事儿 ©著作权

文章标签 python 正则表达式 Python网络爬虫 Python基础 Python学习 文章分类 Python 后端开发

©著作权归作者所有：来自51CTO博客作者Python进阶者的原创作品，请联系作者获取转载授权，否则将追究法律责任

大家好，我是皮皮。

一、前言

前几天在Python钻石交流群【海南菜同学】问了一个Python网络爬虫的问题，后来【瑜亮老师】在解答过程中给了一个代码，代码如下：

url = "http://zw.hainan.gov.cn/wssc/ec/jlyhnkj.html"
resp = requests.get(url)
text = resp.text
parse = etree.HTML(text)
price = parse.xpath("//div[@class='productlist']/ul/li/div[4]/text()")
# 直接使用列表推导式，去掉冗余数据
price = [i.strip() for i in price if i.strip()]
print(price)
# 为了方便统计，再去掉￥符号，再转换成数字
# price = [int(float(i.replace('¥', '').replace(',', ''))) for i in price]
# 或者用re.sub去掉多余符号，再转换成数字，上下两种方法，选一个就行
# 需要import re
# price = [int(float(re.sub(r'[¥,]', '', i))) for i in price]
print(price)

大家针对这个代码，提出了一个正则表达式处理的问题，这里给大家一起分享下。

# yyds干货盘点 # 盘点一个正则表达式在Python网络爬虫中的应用案例_Python学习

二、实现过程

这里【瑜亮老师】写了一个例子，比如“身高180.3cm”这种，取180.3？如下所示：

# yyds干货盘点 # 盘点一个正则表达式在Python网络爬虫中的应用案例_Python网络爬虫_02

这里【🌑中华小矿工】给了一个正则表达式代码，如下所示：

\d+\.\d+

# yyds干货盘点 # 盘点一个正则表达式在Python网络爬虫中的应用案例_正则表达式_03

后来【瑜亮老师】针对上述代码，做了一个优化，代码如下所示：

d = ["身高180.3cm", "身高180.3", "身高180.3厘米", "higt180.3cm", "higt180.3厘米", "身高180.3cm", "higt180cm"]
for s in d:
    r = re.findall(r'\d+\.\d+|\d+', s)
    print(r)

稍作修改，就可以不论浮点数或者整数都适用的。

# yyds干货盘点 # 盘点一个正则表达式在Python网络爬虫中的应用案例_python_04