话不多说,都在代码里
#下载斗鱼颜值栏目主播照片
#author:ives
#date:2016-8-28 21:58
#e-mail:renhanlinbsl@163.com
import urllib.request
import string
import re
import json
import sys,os
url="http://capi.douyucdn.cn/api/v1/getColumnRoom/8?offset="
urlAfter="&limit=30&client_sys=android"
offset=0
#下载的张数
count=1
#获取当前脚本路径
def cur_file_dir():
path=sys.path[0]
if os.path.isdir(path):
return path
elif os.path.isfile(path):
return os.path.dirname(path)
#获取网页json
def getHtml(url):
page=urllib.request.urlopen(url)
html=page.read()
#解决编码问题
return html.decode("UTF-8")
#下载图片
def downLoadImg(url):
#截取文件名
file=open(downLoadUrl+url.split("/")[-1],'wb')
img=urllib.request.urlopen(url)
buf=img.read()
file.write(buf)
return
#动态生成路径
def getLink(url):
response=getHtml(url)
#处理中文编码问题
response = response.encode('latin-1').decode('unicode_escape')
jsonText=json.loads(response)
#获取所有的数据
test=jsonText["data"]
for i in test:
#获取图片路径
src=i["vertical_src"]
downLoadImg(src)
global count
print("已下载"+str(count)+"张"+src+"-*-"+str(offset))
count=count+1
return
######################################################
#获取下载目录
downLoadUrl=cur_file_dir()+"/"
#动态修改offset获取更多图片
while(True):
finalUrl=url+str(offset)+urlAfter
getLink(url)
offset=offset+20
python3.5.2爬虫
原创
©著作权归作者所有:来自51CTO博客作者ives404的原创作品,请联系作者获取转载授权,否则将追究法律责任
上一篇:mqtt emqx 开启授权
下一篇:ffmpeg获取首帧
提问和评论都可以,用心的回复会被更多人看到
评论
发布评论
相关文章
-
Python爬虫:清华大学新闻爬虫的实现
这个爬虫功能强大,代码简介,是爬虫学习入门的不二之选。该文章将一步一步但你探索其中奥秘,解决你在这方面的困惑。
python 爬虫 请求头 jieba -
在linux下,安装python3.5.2
python安装
安装 python -
python3.5.2连接hdfs
python连接hdfs
Python开发 Python教程 -
python开发环境搭建---pyenv安装python3.5.2
python开发环境搭建
pyenv python3.5.2 python开发环境搭建 pyenv本地安装python