python3.5.2爬虫

原创

ives404 2022-07-28 14:57:21 博主文章分类：py ©著作权

文章标签 爬虫 py 3.5.2 json html 文章分类 后端开发

©著作权归作者所有：来自51CTO博客作者ives404的原创作品，请联系作者获取转载授权，否则将追究法律责任

话不多说，都在代码里
#下载斗鱼颜值栏目主播照片
#author:ives
#date:2016-8-28 21:58
#e-mail:renhanlinbsl@163.com
 
import urllib.request
import string
import re
import json
import sys,os
 
url="http://capi.douyucdn.cn/api/v1/getColumnRoom/8?offset="
urlAfter="&limit=30&client_sys=android"
offset=0
#下载的张数
count=1
 
#获取当前脚本路径
def cur_file_dir():
path=sys.path[0]
if os.path.isdir(path):
return path
elif os.path.isfile(path):
return os.path.dirname(path)
 
#获取网页json
def getHtml(url):
page=urllib.request.urlopen(url)
html=page.read()
#解决编码问题
return html.decode("UTF-8")
 
#下载图片
def downLoadImg(url):
#截取文件名
file=open(downLoadUrl+url.split("/")[-1],'wb')
img=urllib.request.urlopen(url)
buf=img.read()
file.write(buf)
return
 
#动态生成路径
def getLink(url):
response=getHtml(url)
#处理中文编码问题
response = response.encode('latin-1').decode('unicode_escape')
jsonText=json.loads(response)
#获取所有的数据
test=jsonText["data"]
for i in test:
#获取图片路径
src=i["vertical_src"]
downLoadImg(src)
global count
print("已下载"+str(count)+"张"+src+"-*-"+str(offset))
count=count+1
return
######################################################
 
#获取下载目录
downLoadUrl=cur_file_dir()+"/"
 
#动态修改offset获取更多图片
while(True):
finalUrl=url+str(offset)+urlAfter
getLink(url)
offset=offset+20