python怎么在网站下载pdf文件

原创

mob649e81593bda 2023-11-23 09:43:08 ©著作权

文章标签 Python 网页内容文件保存 文章分类 Python 后端开发

©著作权归作者所有：来自51CTO博客作者mob649e81593bda的原创作品，请联系作者获取转载授权，否则将追究法律责任

项目方案：Python 网站 PDF 下载器

项目目标

本项目旨在开发一个 Python 网站 PDF 下载器，能够从指定的网站上下载 PDF 文件。

项目需求分析

用户输入网站 URL 和 PDF 文件保存路径。
程序通过输入的网站 URL 获取网页内容。
从网页内容中提取出 PDF 文件的下载链接。
使用 Python 下载器模块（如 requests）下载 PDF 文件，并保存到指定路径。

技术方案

本项目将使用以下技术和 Python 库来实现：

抓取网页内容：使用 requests 库发送 GET 请求获取网页内容。
解析网页内容：使用 BeautifulSoup 库解析 HTML，提取出需要的 PDF 下载链接。
下载 PDF 文件：使用 requests 库下载文件，并保存到指定路径。

代码示例

安装所需库

在开始之前，确保已经安装了 requests 和 beautifulsoup4 两个 Python 库。如果没有安装，可通过以下命令进行安装：

pip install requests beautifulsoup4

示例代码

import requests
from bs4 import BeautifulSoup

def download_pdf(url, save_path):
    # 发送 GET 请求获取网页内容
    response = requests.get(url)
    if response.status_code == 200:
        # 使用 BeautifulSoup 解析网页内容
        soup = BeautifulSoup(response.text, 'html.parser')
        # 找到所有的 <a> 标签
        links = soup.find_all('a')
        for link in links:
            href = link.get('href')
            if href.endswith('.pdf'):
                # 构造 PDF 文件的完整链接
                pdf_url = url + href if href.startswith('/') else url + '/' + href
                # 发送 GET 请求下载 PDF 文件
                response = requests.get(pdf_url)
                if response.status_code == 200:
                    # 保存 PDF 文件到指定路径
                    with open(save_path, 'wb') as file:
                        file.write(response.content)
                    print(f'Successfully downloaded {pdf_url}')
                    return
        print('No PDF file found on the website.')
    else:
        print(f'Failed to access {url}')

# 用户输入网站 URL 和 PDF 文件保存路径
website_url = input('Please enter the website URL: ')
pdf_save_path = input('Please enter the PDF save path: ')

# 调用函数下载 PDF 文件
download_pdf(website_url, pdf_save_path)