Python爬虫爬取12306

原创

mob64ca12d16caa 2024-08-27 08:42:33 ©著作权

文章标签 Python 数据解析数据 文章分类 Python 后端开发

©著作权归作者所有：来自51CTO博客作者mob64ca12d16caa的原创作品，请联系作者获取转载授权，否则将追究法律责任

Python爬虫爬取12306的科普之旅

在当今互联网时代，数据获取变得越来越便捷，尤其是通过爬虫技术。今天，我们将深入了解如何使用Python爬取12306网站（中国铁路客户服务中心）的火车票信息。本文将涵盖爬虫的基本概念、状态图、旅行流程以及相关代码示例。

什么是爬虫？

网络爬虫是自动访问互联网获取信息的程序或脚本。它们可以在短时间内提取大量数据，通常用于数据分析、市场研究及其他许多应用场景。爬虫在合法及合规的前提下使用，可以极大地提高信息获取的效率。

爬取12306的思路

在爬取12306的火车票信息时，我们需要关注以下几个核心步骤：

请求与响应：使用Python的requests库发送HTTP请求获取网页数据。
解析数据：利用Beautiful Soup或lxml等库解析HTML文档。
存储信息：将爬取到的信息保存在本地，如CSV或数据库中。

状态图

在这个过程中，我们可以使用状态图展示爬虫的不同状态和流程，如下所示：

stateDiagram
    [*] --> 启动
    启动 --> 请求数据
    请求数据 --> 数据响应
    数据响应 --> 解析数据
    解析数据 --> 存储结果
    存储结果 --> [*]

示例代码

接下来，我们来看一个基本的示例代码。这段代码演示了如何从12306获取一些基本的车次信息：

import requests
from bs4 import BeautifulSoup

# 设置请求头，模拟浏览器行为
headers = {
    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/85.0.4183.121 Safari/537.36'
}

# 发送请求，获取页面内容
url = '
response = requests.get(url, headers=headers)

# 检查请求状态
if response.status_code == 200:
    # 解析HTML内容
    soup = BeautifulSoup(response.text, 'html.parser')
    # 提取数据，例如车次信息
    trains = soup.find_all('some-selector')  # 请替换成正确的选择器
    for train in trains:
        print(train.text)  # 输出车次信息
else:
    print('请求失败，状态码：', response.status_code)

旅行图

在爬虫的执行过程中，我们可以用旅行图来描述用户的体验流程，如下所示：

journey
    title 火车票查询旅程
    section 尝试查询票
      用户输入出发地和目的地: 5: 用户
      用户点击查询: 5: 用户
    section 结果展示
      页面加载车次信息: 3: 系统
      用户查看车次信息: 4: 用户
    section 获取车票
      用户选择车次: 5: 用户
      用户进入购票页面: 5: 用户