python爬虫实战pdf下载

原创

mob64ca12f49f4b 2024-10-28 04:08:25 ©著作权

文章标签 Python ci python 文章分类 Python 后端开发

©著作权归作者所有：来自51CTO博客作者mob64ca12f49f4b的原创作品，请联系作者获取转载授权，否则将追究法律责任

Python爬虫实战：PDF下载教程

在这个教程中，我们将教你如何使用Python编写一个简单的爬虫程序，用于下载PDF文件。这个过程将分为几个步骤，下面我们先看一下整个流程。

流程概览

步骤	描述
1	安装所需库
2	确定目标网站
3	获取页面内容
4	解析PDF链接
5	下载PDF文件
6	完成

步骤详解

1. 安装所需库

在开始之前，我们需要安装一些库。使用以下命令安装requests和BeautifulSoup库。

pip install requests beautifulsoup4

requests：用于发送HTTP请求。
BeautifulSoup：用于解析HTML内容。

2. 确定目标网站

选择一个我们想要爬取PDF的目标网站。在这个示例中，我们假设的网站是一个公共文档分享网站。

3. 获取页面内容

首先，我们需要发送一个HTTP GET请求来获取页面内容。以下代码示例展示了如何做到这一点：

import requests

# 目标网页的URL
url = '

# 发送GET请求
response = requests.get(url)

# 检查响应状态码
if response.status_code == 200:
    print("页面获取成功!")
    page_content = response.text
else:
    print(f"请求失败，状态码: {response.status_code}")

requests.get(url)：向指定的URL发送GET请求。
response.text：获取响应内容。

4. 解析PDF链接

接下来，我们需要使用BeautifulSoup来解析HTML内容并找到PDF链接：

from bs4 import BeautifulSoup

# 创建BeautifulSoup对象
soup = BeautifulSoup(page_content, 'html.parser')

# 查找所有的<a>标签
pdf_links = []
for link in soup.find_all('a'):
    href = link.get('href')
    # 检查链接是否以.pdf结尾
    if href and href.endswith('.pdf'):
        pdf_links.append(href)

print("找到的PDF链接:", pdf_links)

soup.find_all('a')：获取所有的链接元素。
link.get('href')：获取链接的URL。
href.endswith('.pdf')：判断链接是否为PDF文件。

5. 下载PDF文件

现在我们找到了PDF链接，可以用以下代码下载它们：

import os

# 创建一个目录来保存下载的PDF文件
if not os.path.exists('pdfs'):
    os.makedirs('pdfs')

# 下载每个PDF文件
for pdf_url in pdf_links:
    pdf_response = requests.get(pdf_url)
    # 提取PDF文件名
    pdf_name = pdf_url.split('/')[-1]
    
    # 保存PDF文件
    with open(f'pdfs/{pdf_name}', 'wb') as f:
        f.write(pdf_response.content)
        print(f"下载完成: {pdf_name}")

os.makedirs('pdfs')：创建一个保存PDF文件的目录。
pdf_response.content：获取响应的二进制内容。
open(f'pdfs/{pdf_name}', 'wb')：以二进制写模式打开文件。

6. 完成

通过上述步骤，我们已经成功实现了PDF的下载功能。目前项目的所有代码整理如下：

import requests
from bs4 import BeautifulSoup
import os

# 目标网页的URL
url = '

# 发送GET请求
response = requests.get(url)
if response.status_code == 200:
    print("页面获取成功!")
    page_content = response.text
else:
    print(f"请求失败，状态码: {response.status_code}")

# 创建BeautifulSoup对象
soup = BeautifulSoup(page_content, 'html.parser')

# 查找所有的<a>标签
pdf_links = []
for link in soup.find_all('a'):
    href = link.get('href')
    if href and href.endswith('.pdf'):
        pdf_links.append(href)

print("找到的PDF链接:", pdf_links)

# 创建一个目录来保存下载的PDF文件
if not os.path.exists('pdfs'):
    os.makedirs('pdfs')

# 下载每个PDF文件
for pdf_url in pdf_links:
    pdf_response = requests.get(pdf_url)
    pdf_name = pdf_url.split('/')[-1]
    with open(f'pdfs/{pdf_name}', 'wb') as f:
        f.write(pdf_response.content)
        print(f"下载完成: {pdf_name}")

序列图

以下是我们整个过程的序列图，使用mermaid语法描述：

sequenceDiagram
    participant User
    participant Python_Script
    participant Requests_Library
    participant BeautifulSoup_Library

    User->>Python_Script: 输入URL
    Python_Script->>Requests_Library: 发送GET请求
    Requests_Library-->>Python_Script: 返回页面内容
    Python_Script->>BeautifulSoup_Library: 解析HTML内容
    BeautifulSoup_Library-->>Python_Script: 返回PDF链接
    Python_Script->>Requests_Library: 下载PDF
    Requests_Library-->>Python_Script: 返回PDF内容
    Python_Script-->>User: 下载完成