什么是爬虫?

爬虫的结构:

python3爬虫图片盗链 爬虫抓取图片代码_爬虫

python3爬虫图片盗链 爬虫抓取图片代码_爬虫_02

为什要爬虫?

        在现在社会当中,模型基本上都可以从一些途径下载得到(例如:码云,github等等),但是有了模型没有数据怎么办呢?这时候就需要有大量的数据,模型一般可以下载,但是数据可能是不能让你也下载,这就会涉及一些隐私了。

 今天分享一个爬图片的代码,好多都是爬数据的,今天咱们来爬图片,可以无限制的获取各种图片。这也是看别人的帖子,总结的一些东西。

爬照片的时候可以先去网站上大概看一下,方便后面的需求。

这是爬取的照片:

python3爬虫图片盗链 爬虫抓取图片代码_cnn_03

下面是代码:

import urllib.parse
import json
import requests
import jsonpath



url = 'https://www.duitang.com/napi/blog/list/by_search/?kw={}&start={}' #网址
label = '分类标签'
label = urllib.parse.quote(label)


num = 0
for index in range(0,2400,24):
    u = url.format(label,index)
    we_data = requests.get(u).text

    html = json.loads(we_data)
    photo = jsonpath.jsonpath(html,"$..path")

    for i in photo:
            a = requests.get(i)
            with open(r'D:\pcphoto\{}.jpg'.format(num),'wb') as f: #保存图片的路径
                f.write(a.content) # 二进制
            num += 1