python 提取table中的td

原创

mob64ca12e8d855 2024-08-15 05:03:30 ©著作权

©著作权归作者所有：来自51CTO博客作者mob64ca12e8d855的原创作品，请联系作者获取转载授权，否则将追究法律责任

使用Python提取HTML表格中的数据

在数据科学与网络爬虫的领域中，经常需要从网页中提取数据。HTML表格是一个常见的数据存储格式，在很多网页上都能看到。本文将介绍如何使用Python提取HTML表格中的<td>元素，并展示相应的代码示例。

1. 基础知识

HTML表格由<table>, <tr>（行）和<td>（单元格）构成。一个简单的HTML表格示例如下：

<table>
    <tr>
        <td>姓名</td>
        <td>年龄</td>
        <td>城市</td>
    </tr>
    <tr>
        <td>张三</td>
        <td>25</td>
        <td>北京</td>
    </tr>
    <tr>
        <td>李四</td>
        <td>30</td>
        <td>上海</td>
    </tr>
</table>

2. Python解析HTML

为了从HTML中提取数据，我们通常使用BeautifulSoup库。这个库为解析HTML和XML文档提供了非常方便的工具。

2.1 安装BeautifulSoup

如果您尚未安装BeautifulSoup，可以通过以下命令安装：

pip install beautifulsoup4

2.2 提取表格数据

以下是一个完整的示例代码，用于提取上述HTML表格中的<td>数据：

from bs4 import BeautifulSoup

# 假设我们有一段HTML文本
html_doc = """
<table>
    <tr>
        <td>姓名</td>
        <td>年龄</td>
        <td>城市</td>
    </tr>
    <tr>
        <td>张三</td>
        <td>25</td>
        <td>北京</td>
    </tr>
    <tr>
        <td>李四</td>
        <td>30</td>
        <td>上海</td>
    </tr>
</table>
"""

# 使用BeautifulSoup解析HTML
soup = BeautifulSoup(html_doc, 'html.parser')

# 提取所有行
rows = soup.find_all('tr')

# 存储提取的数据
data = []

# 遍历行和单元格，提取数据
for row in rows:
    cols = row.find_all('td')
    # 提取列数据并去除多余的空格
    cols = [elem.text.strip() for elem in cols]
    data.append(cols)

# 输出提取的数据
for item in data:
    print(item)

当您运行上述代码时，将输出：

['姓名', '年龄', '城市']
['张三', '25', '北京']
['李四', '30', '上海']

3. 关系图与类图

在进行数据提取时，可以将数据与其结构形成图示化的关系。这对于理解数据的组织以及通过代码进行处理是非常有帮助的。

3.1 表关系图

以下是一个简单的关系图，展示了表格中数据的关系。

erDiagram
    用户 {
        string 姓名
        integer 年龄
        string 城市
    }

3.2 类图

同时，我们可以使用类图来表现BeautifulSoup如何协同工作进行数据提取。

classDiagram
    class HTMLTable {
        +list<data>
        +parse(html_doc)
        +extract_rows()
    }
    
    class BeautifulSoup {
        +find_all(tag)
        +text
    }