python 批量下载 ftp python批量下载pdf文件

转载

mob64ca141a683a 2024-05-17 07:57:02

文章标签 python 批量下载 ftp python36中文手册 html 正则表达式 python 文章分类 Python 后端开发

最近在学习蒙特卡洛方法相关的理论知识，在证明置信概率与打靶次数的关系时用到了Hoeffding不等式，于是查了一部分文献，发现一篇论文的引用是一个讲义的资源网站，有很多PDF形式的讲义，因此想批量下载下来。之前只是大致有印象可以用python完成，但没有做过，因此本着学习和鼓捣的双重目的查了一下操作方法。

网上有很多大佬早就做过类似的事了，主要参考了

@WittyLu

的一篇文章，顺便学习了一下正则表达式。主要的区别在于原文是采用python自带的urllib库实现的，本文出于简单采用了requests库，并根据自己的理解进行了一些修改。

由于在下载文件的同时也想对方法本身进行学习，因此对一些细节都进行了研究。按照我自己折腾的顺序，主要工作主要分为以下几个部分：

1.requests库/urllib库相关

urllib库是参考文章采用的方法，在开始时也对其进行了一定的学习，并仿照原文进行了实现，达成了目标，

# 批量下载PDF，采用python原生urllib的版本
# 另一种方法为使用第三方的requests库
import urllib.request
import re
import os # 主要用于定位下载地址的
# 获取网页的全部内容
def getHTML(url):
page = urllib.request.urlopen(url, timeout=30)
html = page.read()
return html
# 通过正则表达式提取待下载的PDF的URL信息，需通过检查元素观察得到
def getURL(html):
reg = r'lecture'
reURL = re.compile(reg)
listURL = reURL.findall(html.decode('utf-8')) # page.read 返回值是byte型，需要转成str
return listURL
# 进行下载
def getFile(url):
file_name = url.split('/')[-1]
u = urllib.request.urlopen(url, timeout=60)
f = open(file_name, 'wb')
f.write(u.read())
f.close()
print(file_name + '下载成功')
rootURL = 'http://nowak.ece.wisc.edu/SLT09/'
rawURL = 'http://nowak.ece.wisc.edu/SLT09/'
html = getHTML(rawURL)
listURL = getURL(html)
# print(html)
# print(listURL)
# 用于划定下载目录
os.mkdir('Lectures')
os.chdir(os.path.join(os.getcwd(), 'Lectures'))
for url in listURL:
getFile(rootURL + url)

getHTML函数：用于获取待抓取网页的全部内容，urllib.request.urlopen()函数会返回一个HTTPResponse对象page，read()方法则给出byte形式的网页内容，这里为urlopen函数设置了请求超时时间(30s)，因为网络比较差，将允许时间设置长一些能够增加下载的成功率。

getURL函数：使用正则表达式提取当前网页中待下载PDF的链接信息，具体在下一部分记录。

getFile函数：设定下载地址后，使用前两个函数得到的PDF文件URL对文件进行下载。网页上的音频、视频、图片本质上都是采用二进制码组成的，而read()方法返回值类型即为二进制，因此可以使用Python的文件操作直接对其进行存储。

采用urllib库成功完成了既定目标，期间有几次由于网络超时导致下载失败，但网络条件正常时能够成功。

python 批量下载 ftp python批量下载pdf文件_html

本着折腾不止的原则，又对采用requests库的方法进行了学习，实现上大同小异，只需对原代码稍加修改即可

# 使用Requests爬
import requests as req
import os
import re
def getHTML(url):
page = req.get(url)
html = page.text
return html
def getURL(html):
reg = r'lecture'
reURL = re.compile(reg)
listURL = reURL.findall(html) # page.read 返回值是byte型，需要转成str
return listURL
def getFile(url, name):
r = req.get(url)
f = open(name, 'wb')
f.write(r.content)
f.close()
print(name + '下载成功')
rootURL = 'http://nowak.ece.wisc.edu/SLT09/'
rawURL = 'http://nowak.ece.wisc.edu/SLT09/'
html = getHTML(rawURL)
listURL = getURL(html)
os.mkdir('LEC/Lectures')
os.chdir(os.path.join(os.getcwd(), 'Lectures'))
for url in listURL:
getFile(rootURL + url, url)

使用resquest包的get()方法能够直接得到网址的内容，并返回一个Response对象page，此对象的text属性将以str形式返回网页编码内容，而content属性将以byte形式返回，这也导致了在进行正则表达式匹配和文件下载时的一些区别。这种方法同样完成了目标，而且似乎看起来更简单一些。

2.正则表达式

第一次用到正则表达式，之前只是听说而没有真正研究和使用过，因此耗费了一些时间对语法规则等进行了学习。主要参考了

Python学习网

的入门教程和一些博客内容，大概了解后感觉这东西还是很神奇和强力的，直接扒一个图片过来作为笔记，具体也懒得再记录了

python 批量下载 ftp python批量下载pdf文件_python_02