python爬取去哪网用python爬取网站

转载

岁月静好呀 2023-06-19 12:40:50

文章标签 python爬取去哪网 python 获取数据源文件数据保存 文章分类 Python 后端开发

爬虫的基本流程

1. 向网页发起请求
2. 获取获取网页源码
3. 通过正则或者Xpath表达式提取规律信息
4. 获取数据

以本人刚学爬虫时写的代码为案例

python爬取去哪网用python爬取网站_源文件

运行基本流程

请求网址：爬虫通过请求网址获取网页源码。图中蓝色部分表示请求网站并获取其源码获取的源文件就为网页右键——查看源文件中的代码一致
拆分源码：在爬取出的源码中找出自己想要的规律信息，如下图获取网页图片信息：
获取数据：获取数据后可以将数据保存到数据库，制作图表进行数据分析，或者批量下载图片等等，后续有时间都会持续更新

代码如下（示例）：

import requests
import re
import urllib
headers={
	'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/65.0.3314.0 Safari/537.36 SE 2.X MetaSr 1.0'
}
url='''https://list.tmall.com/search_product.htm?q=男鞋'''
response=requests.get(url,headers=headers)
date=response.text
pat='<img  data-ks-lazyload=  "(.*?)"'
ret=re.findall(pat,date)

for xx in ret:
	finname=xx.split('/')[-1]
	url1="http:"+xx
	r = requests.get(url1, stream=True)    
	with open(finname, 'wb') as f:
		for chunk in r.iter_content(chunk_size=32):
			f.write(chunk)