pdf下载

import requests
 
# python requests 的pdf 文档
requests_pdf_url = "https://link.springer.com/content/pdf/10.1007/s11663-021-02419-9.pdf"
r = requests.get(requests_pdf_url)
filename = "requests.pdf"
with open(filename, 'wb+') as f:
    f.write(r.content)

pdf合并

import os
from PyPDF2 import PdfFileMerger

target_path = os.getcwd()  ## 获取文件当前工作目录路径
pdf_lst = [f for f in os.listdir(target_path) if f.endswith('.pdf')]
pdf_lst = [os.path.join(target_path, filename) for filename in pdf_lst]

file_merger = PdfFileMerger()
for pdf in pdf_lst:
    file_merger.append(pdf,import_bookmarks=False)     # 合并pdf文件

file_merger.write(r"合并文件.pdf")

注意:合并的时候,pdf_lst 是根据文件的名称来排序生成,如果对于pdf文件合成顺序有要求,建议吧文件按照期望的合成顺序编号1 2 3这样,方便一些

os.listdir() 方法用于返回指定的文件夹包含的文件或文件夹的名字的列表。

import os, sys

# 打开文件
# 输出所有文件和文件夹
for file in os.listdir("C:/Users/sun78/下载_chrome"):
   print (file)

Python endswith() 方法用于判断字符串是否以指定后缀结尾,如果以指定后缀结尾返回True,否则返回False。可选参数"start"与"end"为检索字符串的开始与结束位置。

os.path.abspath(path)

返回绝对路径

os.path.basename(path)

返回文件名

os.path.commonprefix(list)

返回list(多个路径)中,所有path共有的最长的路径

os.path.dirname(path)

返回文件路径

os.path.exists(path)

如果路径 path 存在,返回 True;如果路径 path 不存在,返回 False。

os.path.lexists

路径存在则返回True,路径损坏也返回True

os.path.expanduser(path)

把path中包含的"~"和"~user"转换成用户目录

os.path.expandvars(path)

根据环境变量的值替换path中包含的"$name"和"${name}"

os.path.getatime(path)

返回最近访问时间(浮点型秒数)

os.path.getmtime(path)

返回最近文件修改时间

os.path.getctime(path)

返回文件 path 创建时间

os.path.getsize(path)

返回文件大小,如果文件不存在就返回错误

os.path.isabs(path)

判断是否为绝对路径

os.path.isfile(path)

判断路径是否为文件

os.path.isdir(path)

判断路径是否为目录

os.path.islink(path)

判断路径是否为链接

os.path.ismount(path)

判断路径是否为挂载点

os.path.join(path1[, path2[, ...]])

把目录和文件名合成一个路径

os.path.normcase(path)

转换path的大小写和斜杠

os.path.normpath(path)

规范path字符串形式

os.path.realpath(path)

返回path的真实路径

os.path.relpath(path[, start])

从start开始计算相对路径

os.path.samefile(path1, path2)

判断目录或文件是否相同

os.path.sameopenfile(fp1, fp2)

判断fp1和fp2是否指向同一文件

os.path.samestat(stat1, stat2)

判断stat tuple stat1和stat2是否指向同一个文件

os.path.split(path)

把路径分割成 dirname 和 basename,返回一个元组

os.path.splitdrive(path)

一般用在 windows 下,返回驱动器名和路径组成的元组

os.path.splitext(path)

分割路径,返回路径名和文件扩展名的元组

os.path.splitunc(path)

把路径分割为加载点与文件

os.path.walk(path, visit, arg)

遍历path,进入每个目录都调用visit函数,visit函数必须有3个参数(arg, dirname, names),dirname表示当前目录的目录名,names代表当前目录下的所有文件名,args则为walk的第三个参数

os.path.supports_unicode_filenames

设置是否支持unicode路径名

参考资料

Python endswith()方法 | 菜鸟教程

Python os.listdir() 方法 | 菜鸟教程

Python OS 文件/目录方法 | 菜鸟教程

使用python合并多个pdf文件