python 提取html href etree

原创

mob64ca12d16caa 2024-10-18 06:32:31 ©著作权

文章标签 HTML python xml 文章分类 Python 后端开发

©著作权归作者所有：来自51CTO博客作者mob64ca12d16caa的原创作品，请联系作者获取转载授权，否则将追究法律责任

使用Python提取HTML中的href链接：一个新手指南

在学习如何使用Python提取HTML中的href链接之前，我们需要了解整个流程。这项任务主要由几个步骤组成，我们将逐步进行实现。

流程步骤

下面是提取HTML中的href链接的步骤：

步骤	描述
1	安装所需的库
2	导入库
3	读取HTML内容
4	使用`etree`解析HTML
5	提取所有`href`链接
6	输出提取到的链接

flowchart TD
    A[开始] --> B[安装所需的库]
    B --> C[导入库]
    C --> D[读取HTML内容]
    D --> E[使用etree解析HTML]
    E --> F[提取所有href链接]
    F --> G[输出提取到的链接]
    G --> H[结束]

每一步的实现

1. 安装所需的库

我们将使用lxml库，这是Python中用于解析HTML和XML的一个非常强大的库。在命令行中运行以下命令来安装：

pip install lxml

2. 导入库

导入我们在第一步中安装的库。在你的Python脚本中，添加以下代码：

from lxml import etree
import requests

lxml.etree用于解析HTML。
requests库用于发送HTTP请求并获取网页内容。

3. 读取HTML内容

使用requests库获得HTML内容，假设我们要提取的网址是`

url = '  # 我们要提取的网页
response = requests.get(url)  # 发送HTTP请求
html_content = response.content  # 获取网页内容

4. 使用`etree`解析HTML

接下来，我们对获取的HTML内容进行解析：

tree = etree.HTML(html_content)  # 使用lxml解析HTML

5. 提取所有`href`链接

现在我们可以提取所有的href链接了。微信利用XPath语法在解析后的对象中查找链接：

links = tree.xpath('//a/@href')  # 查找所有<a>标签的href属性

6. 输出提取到的链接

最后，我们将提取到的所有链接打印在控制台上：

for link in links:
    print(link)  # 打印每个链接

完整代码

以下是上述所有步骤的整合代码：

from lxml import etree
import requests

# Step 1: Read HTML content
url = '  # 我们要提取的网页
response = requests.get(url)  # 发送HTTP请求
html_content = response.content  # 获取网页内容

# Step 2: Parse HTML
tree = etree.HTML(html_content)  # 使用lxml解析HTML

# Step 3: Extract all href links
links = tree.xpath('//a/@href')  # 查找所有<a>标签的href属性

# Step 4: Output the extracted links
for link in links:
    print(link)  # 打印每个链接

甘特图

为了帮助新手更好地理解各个步骤之间的时间安排，这里提供一个简单的甘特图：

gantt
    title 提取HTML href链接进度图
    dateFormat  YYYY-MM-DD
    section 任务
    安装所需的库                :done,    des1, 2023-01-01, 1d
    导入库                     :active,  des2, 2023-01-02, 1d
    读取HTML内容               :done,    des3, 2023-01-03, 1d
    解析HTML                  :done,    des4, 2023-01-04, 1d
    提取所有href链接          :active,  des5, 2023-01-05, 1d
    输出提取到的链接          :active,  des6, 2023-01-06, 1d