# yyds干货盘点 # 盘点一个正则表达式在Python网络爬虫中的应用案例
原创
©著作权归作者所有:来自51CTO博客作者Python进阶者的原创作品,请联系作者获取转载授权,否则将追究法律责任
大家好,我是皮皮。
一、前言
前几天在Python钻石交流群【海南菜同学】问了一个Python
网络爬虫的问题,后来【瑜亮老师】在解答过程中给了一个代码,代码如下:
url = "http://zw.hainan.gov.cn/wssc/ec/jlyhnkj.html"
resp = requests.get(url)
text = resp.text
parse = etree.HTML(text)
price = parse.xpath("//div[@class='productlist']/ul/li/div[4]/text()")
# 直接使用列表推导式,去掉冗余数据
price = [i.strip() for i in price if i.strip()]
print(price)
# 为了方便统计,再去掉¥符号,再转换成数字
# price = [int(float(i.replace('¥', '').replace(',', ''))) for i in price]
# 或者用re.sub去掉多余符号,再转换成数字,上下两种方法,选一个就行
# 需要import re
# price = [int(float(re.sub(r'[¥,]', '', i))) for i in price]
print(price)
大家针对这个代码,提出了一个正则表达式处理的问题,这里给大家一起分享下。
二、实现过程
这里【瑜亮老师】写了一个例子,比如“身高180.3cm”这种,取180.3?如下所示:
这里【🌑中华小矿工】给了一个正则表达式代码,如下所示:
后来【瑜亮老师】针对上述代码,做了一个优化,代码如下所示:
d = ["身高180.3cm", "身高180.3", "身高180.3厘米", "higt180.3cm", "higt180.3厘米", "身高180.3cm", "higt180cm"]
for s in d:
r = re.findall(r'\d+\.\d+|\d+', s)
print(r)
稍作修改,就可以不论浮点数或者整数都适用的。
完美地解决了粉丝的问题:
方法多多!
三、总结
大家好,我是皮皮。这篇文章主要盘点了一个Python
网络爬虫的问题,文中针对该问题给出了具体的解析和代码实现,帮助粉丝顺利解决了问题。
最后感谢粉丝【心田有垢生荒草】提问,感谢【瑜亮老师】、【🌑中华小矿工】给出的思路和代码解析,感谢【Engineer】、【Jason】、【海南菜同学】、【dcpeng】等人参与学习交流。