script怎么爬取python

原创

mob64ca12f831ae 2023-10-07 04:29:04 ©著作权

文章标签 网页内容 html python 文章分类 Python 后端开发

©著作权归作者所有：来自51CTO博客作者mob64ca12f831ae的原创作品，请联系作者获取转载授权，否则将追究法律责任

使用Python爬取网页内容的实际问题解决

在日常生活和工作中，我们经常需要从网页上获取数据，例如获取股票行情、天气预报、新闻等。而Python提供了丰富的库和工具，使得我们能够轻松地实现网页内容的爬取。

本文将以一个实际问题为例，介绍如何使用Python的requests库和BeautifulSoup库来爬取网页内容，并将获取到的数据解析和处理，最后将结果以表格形式展示出来。

问题描述

假设我们需要从一个电影评分网站上获取热门电影的评分信息，并将电影名称、评分和评分人数以表格形式展示出来。我们选择豆瓣电影作为我们爬取的网站。

爬取网页内容

首先，我们需要使用requests库来发送HTTP请求，获取网页的内容。以下是获取豆瓣电影首页的示例代码：

import requests

url = '
response = requests.get(url)
html = response.text

# 输出网页内容
print(html)

上述代码中，我们首先定义了需要爬取的网页URL，然后使用requests.get方法发送GET请求，并将返回的响应对象保存在response变量中。最后，我们可以通过response.text属性获取网页的内容。

解析网页内容

获取到网页内容后，我们需要使用BeautifulSoup库来解析HTML，并提取我们需要的数据。以下是解析豆瓣电影首页的示例代码：

from bs4 import BeautifulSoup

# 创建BeautifulSoup对象
soup = BeautifulSoup(html, 'html.parser')

# 查找电影名称、评分和评分人数
movies = soup.find_all('div', class_='item')
for movie in movies:
    name = movie.find('span', class_='title').text
    rating = movie.find('span', class_='rating_num').text
    num = movie.find('div', class_='star').find_all('span')[-1].text

    # 输出电影信息
    print(name, rating, num)

上述代码中，我们首先使用BeautifulSoup类创建一个BeautifulSoup对象，并指定使用html.parser解析器来解析HTML。然后，我们使用find_all方法查找所有class为item的div元素，这些元素包含了电影的信息。接着，我们可以通过find方法和相应的CSS选择器来查找电影的名称、评分和评分人数，并使用text属性获取它们的文本内容。

使用表格展示结果

最后，我们将获取到的电影信息以表格形式展示出来。为了实现这一功能，我们可以使用pandas库来处理和展示数据。以下是将电影信息以表格形式展示的示例代码：

import pandas as pd

# 创建DataFrame对象
data = {'名称': [], '评分': [], '评分人数': []}
for movie in movies:
    name = movie.find('span', class_='title').text
    rating = movie.find('span', class_='rating_num').text
    num = movie.find('div', class_='star').find_all('span')[-1].text

    data['名称'].append(name)
    data['评分'].append(rating)
    data['评分人数'].append(num)

df = pd.DataFrame(data)

# 输出表格
print(df)

上述代码中，我们首先创建了一个空的字典data来保存电影的信息。然后，我们遍历电影列表，提取电影的名称、评分和评分人数，并将它们添加到字典中。接着，我们使用pd.DataFrame类创建了一个DataFrame对象，将字典作为参数传递进去。最后，我们可以通过print(df)语句将结果以表格形式输出。

流程图

以下是本文所描述的爬取网页内容的流程图：

graph TD;
    A(开始)
    B(发送HTTP请求)
    C(获取网页内容)
    D(解析HTML)
    E(获取电影信息)
    F(创建DataFrame对象)
    G(输出表格)
    H(结束)
    A --> B
    B --> C
    C --> D
    D --> E
    E --> F