python 爬虫保存文件代码

原创

mob649e8155edc4 2024-10-16 04:17:00 ©著作权

文章标签 数据保存 HTTP 代码示例 文章分类 Python 后端开发

©著作权归作者所有：来自51CTO博客作者mob649e8155edc4的原创作品，请联系作者获取转载授权，否则将追究法律责任

Python 爬虫保存文件代码入门指南

在开始学习如何用 Python 实现一个简单的爬虫并将数据保存到文件中之前，我们需要先理清整个流程。下面是我们将要进行的步骤：

步骤	说明
1	安装必要的库
2	发起 HTTP 请求
3	解析网页内容
4	将数据保存到文件

接下来，我们来逐步实现每一个步骤，并提供必要的代码示例。

1. 安装必要的库

我们需要使用 requests 库来发起 HTTP 请求，使用 BeautifulSoup 来解析 HTML 内容。可以使用以下命令安装这两个库。

pip install requests beautifulsoup4

2. 发起 HTTP 请求

接下来，我们可以使用 requests 库来获取网页。以下是代码示例：

import requests  # 导入requests库

url = '  # 设定我们要爬取的网址
response = requests.get(url)  # 发送HTTP GET请求

这段代码的作用是向指定的 URL 发送一个 GET 请求，并将响应保存到 response 变量中。

3. 解析网页内容

我们需要使用 BeautifulSoup 来解析网页内容，并提取所需数据。下面是代码示例：

from bs4 import BeautifulSoup  # 导入BeautifulSoup库

soup = BeautifulSoup(response.text, 'html.parser')  # 创建一个BeautifulSoup对象并解析HTML内容
# 例如，提取网页中的所有标题
titles = soup.find_all('h1')  # 查找所有的h1标签

这段代码通过给定的 HTML 内容创建一个 BeautifulSoup 对象，随后使用 find_all 方法查找所有的 <h1> 标签。

4. 将数据保存到文件

现在我们已经获得了所需数据，最后一步是将这些数据保存到文件中。以下是示例代码：

with open('titles.txt', 'w', encoding='utf-8') as f:  # 以写入模式打开一个文件
    for title in titles:  # 遍历所有标题
        f.write(title.get_text() + '\n')  # 将标题文本写入文件，后面加换行符

这段代码打开一个名为 titles.txt 的文件，并将提取到的每个标题写入该文件中。

完整代码示例

将以上所有步骤结合起来，完整的代码如下：

import requests  # 导入requests库
from bs4 import BeautifulSoup  # 导入BeautifulSoup库

url = '  # 设定我们要爬取的网址
response = requests.get(url)  # 发送HTTP GET请求

soup = BeautifulSoup(response.text, 'html.parser')  # 创建一个BeautifulSoup对象并解析HTML内容
titles = soup.find_all('h1')  # 查找所有的h1标签

with open('titles.txt', 'w', encoding='utf-8') as f:  # 以写入模式打开一个文件
    for title in titles:  # 遍历所有标题
        f.write(title.get_text() + '\n')  # 将标题文本写入文件，后面加换行符