目录

一、 实验目的

二、 实验环境

三、 实验准备

  1. 数据来源
  2. 接口数据分析
  3. requests模块安装

四、 实验设计

  1. 程序源码-python实现

五、 实验结果



实验目的

了解并掌握网络爬虫的基本原理,并动手实现动态获取全国新型冠状病毒疫情现状。

实验环境

windows 10

Pycharm 2020.1

python 3.7

实验准备

数据来源

打开浏览器访问腾讯新闻疫情大数据展示页面https://news.qq.com/zt2020/page/feiyan.htm#/global

打开chrome开发者工具,可以看到该页面打印了疫情数据

基于Python的新冠肺炎致病因素分析平台的设计与实现 python新冠疫情数据分析_ci

通过进一步查看network请求可知,实际数据接口为

https://view.inews.qq.com/g2/getOnsInfo?name=disease_h5

基于Python的新冠肺炎致病因素分析平台的设计与实现 python新冠疫情数据分析_数据_02

接口数据分析

首先将上文中的接口页面另存为(Ctrl+S)

getOnsInfo.json文件,使用编辑器notepad++打开,通过查找替换功能将文件中多余的’\’号去除,并删除

data:”{}” 字段中花括号两边的引号。 接着使用插件JSON

Viewer(自行安装)格式化该文件,最后可得到如下图所示的可读文件:

基于Python的新冠肺炎致病因素分析平台的设计与实现 python新冠疫情数据分析_python_03


基于Python的新冠肺炎致病因素分析平台的设计与实现 python新冠疫情数据分析_ci_04

可以很清楚的看到,该json数据以树形的方式展示了国家-身份-城市各个范围内的疫情数据,而我们需要的数据则位于
total和today字段下

在today中展示了按天范围内的疫情数据, total中则包含了疫情出现以来的总数据。

requests模块安装

使用python实现爬虫程序之前,需要安装必要的模块

如果安装了Anaconda,requests就已经可用了。否则,需要在命令行下通过pip安装:

python -m pip install requests

实验设计

程序源码-python实现

import csv
import json

import requests

todayKey = 'today'
totalKey = 'total'
confirmKey = 'confirm'
nowConfirmKey = 'nowConfirm'
nameKey = 'name'
childrenKey = 'children'
ExcelName = '疫情日报.csv'  # 数据保存文件
# 腾讯实时疫情接口api接口
api = 'https://view.inews.qq.com/g2/getOnsInfo?name=disease_h5'

# 运行后会在同目录下生成一个 疫情日报.csv文件
if __name__ == '__main__':
    datas = json.loads(requests.get(url=api).json()['data'])
    with open(ExcelName, 'w', encoding='utf-8', newline='') as csvfile:
        writer = csv.writer(csvfile)
        dataLog = '更新时间:' + datas['lastUpdateTime']
        writer.writerow([dataLog])
        for contry in datas['areaTree']:
            if contry[nameKey] == '中国':
                for province in contry[childrenKey]:
                    provinceName = str(province[nameKey])
                    newConfirm = str(province[todayKey][confirmKey])
                    nowConfirm = str(province[totalKey][nowConfirmKey])
                    writer.writerow([str('\t' + provinceName + ' 新增确诊: '
                                         + newConfirm + ', 现有确诊:' + nowConfirm)])
                    for city in province[childrenKey]:
                        newConfirm = str(city[todayKey][confirmKey])
                        nowConfirm = str(city[totalKey][nowConfirmKey])
                        cityName = city[nameKey]
                        writer.writerow([str('\t\t' + cityName + ' \t\t新增确诊:' + newConfirm
                                             + ',\t现有确诊:' + nowConfirm)])

实验结果

程序运行后,会将获取到的疫情数据保存在同级目录下的疫情日报.csv文件中,使用记事本打开:(部分内容)

基于Python的新冠肺炎致病因素分析平台的设计与实现 python新冠疫情数据分析_ci_05