python根据url下载图像

转载

bugouhen 2024-11-06 23:14:42

文章标签 python根据url下载图像 python url解析path html Python python 文章分类 Python 后端开发

暴漫上有着很多有趣的GIF，想要把它们下载下来，一张一张的点不免太过麻烦，那么编写Python爬虫抓取暴走漫画上gif图片,就很舒服了。

python根据url下载图像_python根据url下载图像

这里介绍的爬虫是抓取暴走漫画上的GIF趣图，方便离线观看。爬虫用的是python3开发环境，主要用到了urllib、request和BeautifulSoup模块。(这里主要介绍下urllib和BeautifulSoup这两个比较重要的模块)

urllib模块

python根据url下载图像_python url解析path_02

该模块提供了从万维网中获取数据的高层接口，当我们用urlopen()打开一个URL时，就相当于使用Python内设的open()打开一个文件。但不同的是，urlopen()接收一个URL作为参数，并且操作的是socket，所以没有办法对打开的文件流进行seek操作，而Python内设的open()接收的是一个本地文件名。

BeautifulSoup模块

python根据url下载图像_Python_03

这个模块可以帮助你实现HTML和XML的解析，一般写网页爬虫，步骤抓取网页的html源码等内容，然后分析，提取相应的内容。在分析内容时也可以用正则表达式去匹配，只是如果解析的内容稍微复杂点就会很头疼，使用BeautifulSoup模块去实现分析html源码的工作，就会变得十分简单，极大地提高了分析html源码的效率。

爬虫源代码

一、通过模拟浏览器访问网站

import urllib.requestimport bs4,os page_sum = 1 # 下载页数设置，这里使用页数为1 path = os.getcwd()path = os.path.join(path,'暴走GIF文件夹')if not os.path.exists(path): os.mkdir(path) #创建文件夹 url = "http://baozoumanhua.com/gif/year" # 此处输入的是暴走漫画GIF网页的url地址headers = {  'User-Agent':'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko)' ' Chrome/32.0.1700.76 Safari/537.36' }

二、通过爬虫获取图片信息及信息的整理解析

for count in range(page_sum): req = urllib.request.Request( url = url+str(count+1), headers = headers ) print(req.full_url) content = urllib.request.urlopen(req).read() soup = bs4.BeautifulSoup(content) # BeautifulSoup img_content = soup.findAll('img',attrs={'style':'width:460px'}) url_list = [img['src'] for img in img_content] # 列表推导 url title_list = [img['alt'] for img in img_content] # 图片名称

三、图片文件的格式化和图片的下载

for i in range(url_list.__len__()) : imgurl = url_list[i] # 通过迭代的方法获取图片的url filename = path + os.sep +title_list[i] + ".gif" # 格式化命名GIF图片文件 print(filename+":"+imgurl) #打印下载信息，便于观察下载进度 urllib.request.urlretrieve(imgurl,filename) #下载图片

将此文件保存为pabaozougif.py，使用命令python pabaozougif.py运行后在同目录下会生成「暴走GIF文件夹」的文件夹，所有的GIF图片会自动下载保存到该目录下。

python根据url下载图像_python根据url下载图像_04