爬虫的基本流程




1. 向网页发起请求
2. 获取获取网页源码
3. 通过正则或者Xpath表达式提取规律信息
4. 获取数据

以本人刚学爬虫时写的代码为案例

python爬取去哪网 用python爬取网站_源文件


运行基本流程

  • 请求网址:爬虫通过请求网址获取网页源码 。 图中蓝色部分表示请求网站并获取其源码 获取的源文件就为网页右键——查看源文件 中的代码一致
  • 拆分源码:在爬取出的源码中找出自己想要的规律信息,如下图获取网页图片信息:
  • 获取数据:获取数据后可以将数据保存到数据库,制作图表进行数据分析,或者批量下载图片等等,后续有时间都会持续更新

代码如下(示例):

import requests
import re
import urllib
headers={
	'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/65.0.3314.0 Safari/537.36 SE 2.X MetaSr 1.0'
}
url='''https://list.tmall.com/search_product.htm?q=男鞋'''
response=requests.get(url,headers=headers)
date=response.text
pat='<img  data-ks-lazyload=  "(.*?)"'
ret=re.findall(pat,date)

for xx in ret:
	finname=xx.split('/')[-1]
	url1="http:"+xx
	r = requests.get(url1, stream=True)    
	with open(finname, 'wb') as f:
		for chunk in r.iter_content(chunk_size=32):
			f.write(chunk)

总结

一句话总结:就是下载网页源码,然后找出自己想要的数据,然后对数据进行操作。
以上是最基本的爬取网址流程,后面会牵涉到 用户代理IP,抓包分析scrapy框架等等一些东西等着我们去学习 ,最后希望你能够迈入学习爬虫的门。