python 爬虫入门–图片爬取
GitHub 地址: https://github.com/injetlee/Python/blob/master/%E7%88%AC%E8%99%AB%E9%9B%86%E5%90%88/meizitu.py
爬取文字信息没难度?
感觉太单调?
那我们试试找一些图片爬取一下!
首先了解看看文本信息和图片信息有何区别?
<p>文本信息</p>
<a href="http://网址">百度链接</a>
<img src="路径/图片.jpg" alt="">
那么,大家可以清楚的看出来,文本信息和链接信息的区别,是一个显示在页面上,一个是显示图片,但是下载路径不能直接显示出来。
import requests
from lxml import etree
index_html = etree.HTML(html)
# print(index_html)
for i in index_html:
for j in i:
print(j.text)
#b = j.get('src')
#print(b)
显示内容为:
文本信息
百度链接
None
这个我们获取的是文本信息,那么下边我们试一下获取src
import requests
from lxml import etree
# index_response = requests.get(html)
index_html = etree.HTML(html)
# print(index_html)
for i in index_html:
for j in i:
# print(j.text)
b = j.get('src')
print(b)
None
None
路径/图片.jpg
这样我们就可以根据这个方法来获取网页中的src来获取图片链接信息了。
- 下载界面的函数,利用 Requests 库来获取前端代码,以文本模式显示并给后续能检索内容打下铺垫。
def download_page(url):
'''
用于下载gb2312解码,并且加上表头
'''
headers = {"User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv:61.0) Gecko/20100101 Firefox/61.0"}
r = requests.get(url, headers=headers)
r.encoding = 'gb2312'
return r.text
- 根据BeautifulSoup库来检索页面中标签,链接,以及相关的文本信息。
def get_pic_list(html):
'''
获取每个页面的图片链接和文本信息
'''
soup = BeautifulSoup(html, 'html.parser')
pic_list = soup.find_all('li', class_='wp-item')
for i in pic_list:
a_tag = i.find('h3', class_='tit').find('a')
link = a_tag.get('href')
text = a_tag.get_text()
get_pic(link, text)
- 根据刚才拿到的图片链接以及文本信息,下载下来,并且为了保证在下载的时候避免被插到,所以每执行一次,休息1秒。
def get_pic(link, text):
'''
获取当前页面的图片,并保存
'''
html = download_page(link) # 下载界面
soup = BeautifulSoup(html, 'html.parser')
pic_list = soup.find('div', id="picture").find_all('img') # 找到界面所有图片
headers = {"User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv:61.0) Gecko/20100101 Firefox/61.0"}
create_dir('pic/{}'.format(text))
for i in pic_list:
pic_link = i.get('src') # 拿到图片的具体 url
r = requests.get(pic_link, headers=headers) # 下载图片,之后保存到文件
with open('pic/{}/{}'.format(text, pic_link.split('/')[-1]), 'wb') as f:
f.write(r.content)
time.sleep(1) # 休息一下,不要给网站太大压力,避免被封
- 最后根据本页面加载出来的信息,可以使用for循环实现翻页的作用。
整体代码如下:
import requests
import os
import time
import threading
from bs4 import BeautifulSoup
def download_page(url):
'''
用于下载页面
'''
headers = {"User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv:61.0) Gecko/20100101 Firefox/61.0"}
r = requests.get(url, headers=headers)
r.encoding = 'gb2312'
return r.text
def get_pic_list(html):
'''
获取每个页面的图片链接和文本信息
'''
soup = BeautifulSoup(html, 'html.parser')
pic_list = soup.find_all('li', class_='wp-item')
for i in pic_list:
a_tag = i.find('h3', class_='tit').find('a')
link = a_tag.get('href')
text = a_tag.get_text()
get_pic(link, text)
def get_pic(link, text):
'''
获取当前页面的图片,并保存
'''
html = download_page(link) # 下载界面
soup = BeautifulSoup(html, 'html.parser')
pic_list = soup.find('div', id="picture").find_all('img') # 找到界面所有图片
headers = {"User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv:61.0) Gecko/20100101 Firefox/61.0"}
create_dir('pic/{}'.format(text))
for i in pic_list:
pic_link = i.get('src') # 拿到图片的具体 url
r = requests.get(pic_link, headers=headers) # 下载图片,之后保存到文件
with open('pic/{}/{}'.format(text, pic_link.split('/')[-1]), 'wb') as f:
f.write(r.content)
time.sleep(1) # 休息一下,不要给网站太大压力,避免被封
def create_dir(name):
if not os.path.exists(name):
os.makedirs(name)
def execute(url):
page_html = download_page(url)
get_pic_list(page_html)
def main():
create_dir('pic')
queue = [i for i in range(1, 72)] # 构造 url 链接 页码。
threads = []
while len(queue) > 0:
for thread in threads:
if not thread.is_alive():
threads.remove(thread)
while len(threads) < 5 and len(queue) > 0: # 最大线程数设置为 5
cur_page = queue.pop(0)
url = 'http://meizitu.com/a/more_{}.html'.format(cur_page)
thread = threading.Thread(target=execute, args=(url,))
thread.setDaemon(True)
thread.start()
print('{}正在下载{}页'.format(threading.current_thread().name, cur_page))
threads.append(thread)
if __name__ == '__main__':
main()
再此,检索了一下泰勒的图片,翻页爬取了一千多张 高清图片。
哈,大家可以尽情试一下。
除了跑的慢点其他还是可以的,下次可以试试集群爬取。
这样,我们python爬虫爬取图片信息就完了。
能跑得动的,记得点个赞呗。
后期会有其他方法更新,关注一波呗