互联网公开的信息很多,比如精美图片这类,如果单靠人工收集显然不现实,会懂技术的都会通过爬虫程序实现采集美图。单线程相对来说显得太过缓慢,多线程并发同时获取才是真效率。下面几行代码值得大家看看我是如何采集精美图片的。

# coding=utf-8

import os.path
from time import sleep

import requests
import re


dirname = 'photo/'
if not os.path.exists(dirname):
os.mkdir(dirname)

url = 'https://www.vmgirls.com/17081.html'

headers = {
'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/99.0.4844.74 Safari/537.36 Edg/99.0.1150.46'
}
res = requests.get(url, headers=headers)
# print(res.text)
print(res.status_code)

# <a href="(.*?)" alt=".*?" title=".*?">
# 只匹配括号内的内容
url_list = re.findall('<a href="(.*?)" alt=".*?" title=".*?">', res.text)
print(url_list)

for urls in url_list:
name = urls.split('/')[-1]
new_url = 'https:' + urls
# print(new_url)
res_content = requests.get(url=new_url, headers=headers).content
sleep(2)
# 保存文件
with open('photo/' + name + '.jpeg', mode='wb') as f:
f.write(res_content)


上面就是有关于美图爬取的一些经验,需要的小伙伴拿走不谢。