python获取网页表格

原创

mob649e815c000a 2024-08-16 07:31:40 ©著作权

©著作权归作者所有：来自51CTO博客作者mob649e815c000a的原创作品，请联系作者获取转载授权，否则将追究法律责任

使用Python获取网页表格的完整指南

在当今数据驱动的时代，网络数据的获取和解析变得越来越重要。作为新手开发者，你可能会遇到需要从网页中提取表格数据的情况。此篇文章将为你提供一个详细的指南，以便你能够轻松地通过Python获取网页表格。

流程概述

获取网页表格的总体流程可以分为以下几个步骤：

步骤	描述
1. 选择库	确定需要使用的库，如`requests`和`BeautifulSoup`。
2. 发起请求	使用`requests`库发起GET请求，获取网页内容。
3. 解析网页	使用`BeautifulSoup`解析网页 HTML 内容。
4. 提取数据	从解析后的 HTML 中提取所需的表格数据。
5. 数据存储	将数据存储到所需的格式中（如CSV、Excel等）。
6. 可选数据处理	对提取的数据进行清洗、处理或可视化。

接下来，我们将逐步深入每个步骤，提供代码示例及相关注释。

步骤详解

1. 选择库

首先，我们需要安装两个库：requests和beautifulsoup4。这两个库可以通过Python的包管理工具pip进行安装。

pip install requests beautifulsoup4

2. 发起请求

接下来，我们需要使用requests库发起调用，获取网页内容：

import requests

# 定义要抓取的网页 URL
url = '  # 替换为实际的网址

# 发起 GET 请求
response = requests.get(url)

# 检查请求是否成功
if response.status_code == 200:
    print("成功获取网页内容")
else:
    print("网页获取失败，状态码:", response.status_code)

代码注释：

requests.get(url)：向指定的 URL 发送 GET 请求。
response.status_code：检查请求的状态码以确认是否成功。

3. 解析网页

获得网页内容后，接下来使用BeautifulSoup解析 HTML：

from bs4 import BeautifulSoup

# 解析网页内容
soup = BeautifulSoup(response.content, 'html.parser')

# 打印解析后的网页标题（可选）
print("网页标题:", soup.title.string)

代码注释：

BeautifulSoup(response.content, 'html.parser')：将网页内容传递给 BeautifulSoup 进行解析。
soup.title.string：获取网页的标题进行打印。

4. 提取数据

一旦解析完成，我们就可以找到需要的表格，并提取出数据。假设目标表格的标签是<table>：

# 找到第一个表格
table = soup.find('table')

# 提高清洗表格数据
data = []
for row in table.find_all('tr'):
    cols = row.find_all('td')
    data.append([col.text.strip() for col in cols])

print("提取的数据：", data)

代码注释：

soup.find('table')：找到网页中的第一个表格。
find_all('tr')：找到所有行（<tr>），并为每行收集所有单元格数据（<td>）。
col.text.strip()：去掉单元格数据两边的空格。

5. 数据存储

提取完数据后，我们可以选择将其保存为 CSV 文件：

import csv

# 定义 CSV 文件名
filename = 'table_data.csv'

# 写入 CSV 文件
with open(filename, 'w', newline='', encoding='utf-8') as csvfile:
    csvwriter = csv.writer(csvfile)
    
    # 写入表头（可选，假设有表头）
    # csvwriter.writerow(['Column 1', 'Column 2', 'Column 3'])

    # 写入数据
    csvwriter.writerows(data)

print(f"数据已成功存储到 {filename}")

代码注释：

csv.writer(csvfile)：创建 CSV 写入对象。
csvwriter.writerows(data)：将提取的数据写入 CSV 文件。

6. 可选数据处理

在数据存储完毕后，你可能会想要对数据进行进一步处理，例如使用 pandas 库：

pip install pandas

import pandas as pd

# 读取 CSV 文件并显示数据框
df = pd.read_csv(filename)
print(df.head())  # 显示前几行数据

流程图

下面是整个流程的可视化图表：

flowchart TD
    A[选择库] --> B[发起请求]
    B --> C[解析网页]
    C --> D[提取数据]
    D --> E[数据存储]
    E --> F[可选数据处理]

关系图

根据我们的工作流程，以下是其 ER 图：

erDiagram
    TABLE {
        string column1
        string column2
    }
    CSV {
        string filename
    }

    TABLE ||--o| CSV : stores

结尾

通过本篇文章，相信你已经掌握了使用Python获取网页表格的基本步骤。从选择库到发起请求，从解析网页到提取数据，最后存储到CSV格式，每一个步骤都至关重要。实践中，你可能会遇到各种不同结构的网页、反爬虫技术等问题，但通过不断尝试和学习，你会逐步熟练掌握这些技能。希望这篇文章对你有所帮助，祝你在数据获取的道路上越走越远！