python 爬虫入门–图片爬取

GitHub 地址: https://github.com/injetlee/Python/blob/master/%E7%88%AC%E8%99%AB%E9%9B%86%E5%90%88/meizitu.py

爬取文字信息没难度?
感觉太单调?
那我们试试找一些图片爬取一下!

首先了解看看文本信息和图片信息有何区别?

<p>文本信息</p>
<a href="http://网址">百度链接</a>
<img src="路径/图片.jpg" alt="">

那么,大家可以清楚的看出来,文本信息和链接信息的区别,是一个显示在页面上,一个是显示图片,但是下载路径不能直接显示出来。

import requests
from lxml import etree

index_html = etree.HTML(html)
# print(index_html)
for i in index_html:
	for j in i:
		print(j.text)
		#b = j.get('src')
		#print(b)

显示内容为:

文本信息
百度链接
None

这个我们获取的是文本信息,那么下边我们试一下获取src

import requests
from lxml import etree
# index_response = requests.get(html)

index_html = etree.HTML(html)
# print(index_html)
for i in index_html:
	for j in i:
		# print(j.text)
		b = j.get('src')
		print(b)
None
None
路径/图片.jpg

这样我们就可以根据这个方法来获取网页中的src来获取图片链接信息了。


  1. 下载界面的函数,利用 Requests 库来获取前端代码,以文本模式显示并给后续能检索内容打下铺垫。
def download_page(url):
    '''
    用于下载gb2312解码,并且加上表头
    '''
    headers = {"User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv:61.0) Gecko/20100101 Firefox/61.0"}
    r = requests.get(url, headers=headers)
    r.encoding = 'gb2312'
    return r.text
  1. 根据BeautifulSoup库来检索页面中标签,链接,以及相关的文本信息。
def get_pic_list(html):
    '''
    获取每个页面的图片链接和文本信息
    '''
    soup = BeautifulSoup(html, 'html.parser')
    pic_list = soup.find_all('li', class_='wp-item')
    for i in pic_list:
        a_tag = i.find('h3', class_='tit').find('a')
        link = a_tag.get('href')
        text = a_tag.get_text()
        get_pic(link, text)
  1. 根据刚才拿到的图片链接以及文本信息,下载下来,并且为了保证在下载的时候避免被插到,所以每执行一次,休息1秒。
def get_pic(link, text):
    '''
    获取当前页面的图片,并保存
    '''
    html = download_page(link)  # 下载界面
    soup = BeautifulSoup(html, 'html.parser')
    pic_list = soup.find('div', id="picture").find_all('img')  # 找到界面所有图片
    headers = {"User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv:61.0) Gecko/20100101 Firefox/61.0"}
    create_dir('pic/{}'.format(text))
    for i in pic_list:
        pic_link = i.get('src')  # 拿到图片的具体 url
        r = requests.get(pic_link, headers=headers)  # 下载图片,之后保存到文件
        with open('pic/{}/{}'.format(text, pic_link.split('/')[-1]), 'wb') as f:
            f.write(r.content)
            time.sleep(1)   # 休息一下,不要给网站太大压力,避免被封
  1. 最后根据本页面加载出来的信息,可以使用for循环实现翻页的作用。

整体代码如下:

import requests
import os
import time
import threading
from bs4 import BeautifulSoup


def download_page(url):
    '''
    用于下载页面
    '''
    headers = {"User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv:61.0) Gecko/20100101 Firefox/61.0"}
    r = requests.get(url, headers=headers)
    r.encoding = 'gb2312'
    return r.text


def get_pic_list(html):
    '''
    获取每个页面的图片链接和文本信息
    '''
    soup = BeautifulSoup(html, 'html.parser')
    pic_list = soup.find_all('li', class_='wp-item')
    for i in pic_list:
        a_tag = i.find('h3', class_='tit').find('a')
        link = a_tag.get('href')
        text = a_tag.get_text()
        get_pic(link, text)


def get_pic(link, text):
    '''
    获取当前页面的图片,并保存
    '''
    html = download_page(link)  # 下载界面
    soup = BeautifulSoup(html, 'html.parser')
    pic_list = soup.find('div', id="picture").find_all('img')  # 找到界面所有图片
    headers = {"User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv:61.0) Gecko/20100101 Firefox/61.0"}
    create_dir('pic/{}'.format(text))
    for i in pic_list:
        pic_link = i.get('src')  # 拿到图片的具体 url
        r = requests.get(pic_link, headers=headers)  # 下载图片,之后保存到文件
        with open('pic/{}/{}'.format(text, pic_link.split('/')[-1]), 'wb') as f:
            f.write(r.content)
            time.sleep(1)   # 休息一下,不要给网站太大压力,避免被封


def create_dir(name):
    if not os.path.exists(name):
        os.makedirs(name)


def execute(url):
    page_html = download_page(url)
    get_pic_list(page_html)


def main():
    create_dir('pic')
    queue = [i for i in range(1, 72)]   # 构造 url 链接 页码。
    threads = []
    while len(queue) > 0:
        for thread in threads:
            if not thread.is_alive():
                threads.remove(thread)
        while len(threads) < 5 and len(queue) > 0:   # 最大线程数设置为 5
            cur_page = queue.pop(0)
            url = 'http://meizitu.com/a/more_{}.html'.format(cur_page)
            thread = threading.Thread(target=execute, args=(url,))
            thread.setDaemon(True)
            thread.start()
            print('{}正在下载{}页'.format(threading.current_thread().name, cur_page))
            threads.append(thread)


if __name__ == '__main__':
    main()

再此,检索了一下泰勒的图片,翻页爬取了一千多张 高清图片。

python 实现图片中文字提取 python提取图片信息_html


python 实现图片中文字提取 python提取图片信息_python 实现图片中文字提取_02


哈,大家可以尽情试一下。

除了跑的慢点其他还是可以的,下次可以试试集群爬取。

这样,我们python爬虫爬取图片信息就完了。

能跑得动的,记得点个赞呗。

后期会有其他方法更新,关注一波呗