(目录)
前言
本文分享一个爬虫案例,使用requests库爬取彼岸网中的动物的图片,利用parsel库进行数据解析,并把这些照片保存到本地。后续也会接着分享使用第三方库selenium篇和DrissionPage篇来爬取图片。
爬虫步骤
发起请求
确定要爬取的目标网站后要先发起请求,我们要发送请求需要依赖requests库,爬虫实质上是模拟浏览器的行为,所以还要加上模拟浏览器的标识,即下面headers中的Users-Agent。代码如下:
import requesets # 数据请求模块
# 请求url
url='https://pic.netbian.com/e/search/result/?searchid=147'
# 请求头 Users-Agent为浏览器的标识
headers={
'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/126.0.0.0 Safari/537.36 Edg/126.0.0.0'
}
获取数据
发送请求我们会的获得响应的数据,下面我们就要对数据内容进行分析。 获取到的数据常见的格式有json、text(HTML文本)和XML格式。 还有后面获取到的图片是二进制(content)格式的数据。
# 获取响应数据
response = requests.get(url, headers=headers).text
解析内容
解析数据有很多种方式,常用的包括但不限于xpath,正则表达式,lxml,Beautiful Soup等等,今天我们来用一下第三方库parsel。 使用parsel库首先需要创建一个Selector对象,然后利用css选择器来解析其中照片数据。 parsel库支持Xpath、css选择器以及正则表达式来提取数据。不了解parsel库的语法的同学可以先去了解下。
selector=parsel.Selector(response.text) # 创建一个个Selector对象
data_li=selector.css('.slist ul li') # 利用css选择器提取图片的数据
for li in data_li: # 遍历
img_src=li.css('a img::attr(src)').get() # 每个图片的网址
title=li.css('a b::text').get() # 图片的的名字
title=title.replace(' ','').replace("*",'-') # 把其中的空格和特殊字符*替换掉
de_src='https://pic.netbian.com'+img_src # 完整的图片地址
存储数据
利用第三方库parsel的css选择器获取到数据后,我们就需要存储数据了。可以存储到到excel表格中,也可以存储到数据库中,我们这次先存储到本地。
img_data=requests.get(de_src,headers=headers).content # 获取图片的二进制数据
with open('./images/'+title+'.jpg','wb') as f: # 存储到本地
f.write(img_data)
完整源码
import requests # 数据请求模块
import parsel # 数据解析模块
import os # 文件管理模块
import re # 正则表达式模块
# 请求头
url='https://pic.netbian.com/e/search/result/?searchid=147'
# 请求体
headers={
'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/126.0.0.0 Safari/537.36 Edg/126.0.0.0'
}
# 使用os库创建目录images
if not os.path.exists('./images'):
os.mkdir('./images')
res=0 # 计算爬取到的总的照片数
for num in range(0,15): # 多页爬取 爬取15页
url=f'https://pic.netbian.com/e/search/result/index.php?page={num}&searchid=147'
response = requests.get(url, headers=headers) # 获取请求内容
selector=parsel.Selector(response.text) # 创建一个个Selector对象
data_li=selector.css('.slist ul li') # 利用css标签提取照片的数据
for li in data_li:
img_src=li.css('a img::attr(src)').get() # 照片的网址
title=li.css('a b::text').get() # 照片的的名字
title=title.replace(' ','').replace("*",'-') # 把其中的空格和特殊字符*替换掉
de_src='https://pic.netbian.com'+img_src
img_data=requests.get(de_src,headers=headers).content # 获取图片的二进制数据
with open('./images/'+title+'.jpg','wb') as f: # 保存到本地
f.write(img_data)
print("已下载:",title,"网址为:",de_src)
res+=1
print(f'第{num}页爬取完成')
print(f'共爬取{res}张')
运行截图
成果
共勉
如果你赶不上凌晨五点的日出,不妨去看看傍晚六点的夕阳!
ps
- 当爬取到的数据过多的时候,可能面临着封ip的可能,这时候就得需要代理。需要带代理的源码私信d我一下。
- 保存图片的时候,可能会因为特殊字符的原因报错,记得替换掉。
- 最后:爬虫有风险,希望大家遵守robots协议。
博客
- 本人是一个渗透爱好者,不时会在微信公众号laity的渗透测试之路更新一些实战渗透的实战案例,感兴趣的同学可以关注一下,大家一起进步。