#!/usr/bin/python import sys #正则表达式库 import re import urllib def getHtml(url): page = urllib.urlopen(url) html = page.read() return html def getImg(html): reg = r'src="(.=?\.jpg)"' imgre = re.compile(reg) imglist = re.findall(imgre,html) x = 0 for imgurl in imglist: urllib.urlretrieve(imgurl,'%s.jpg' % x) x += 1 return imglist if __name__ = "__main__": if len(sys.argv) < 2: sys.exit(-1) htmurl = sys.argv[1] html = getHtml(htmlurl) imglist = getImg(html) print imglist
Python爬虫--抓取单一页面上的图片文件学习
原创
©著作权归作者所有:来自51CTO博客作者邹旭钢的原创作品,请联系作者获取转载授权,否则将追究法律责任
提问和评论都可以,用心的回复会被更多人看到
评论
发布评论
相关文章
-
angular3-单一页面的优势
前端
前端 大数据 angular.js 其他 -
爬虫案例—抓取腾牛网第一页图片列表里的图片src
【代码】爬虫案例—抓取腾牛网第一页图片列表里的图片src。
爬虫 超链接 背景图片 HTML