基于Python的新冠肺炎致病因素分析平台的设计与实现 python新冠疫情数据分析

转载

小鱼儿 2024-01-22 09:17:59

文章标签 python 大数据爬虫 ci 数据 文章分类 Python 后端开发

目录

一、实验目的

二、实验环境

三、实验准备

数据来源
接口数据分析
requests模块安装

四、实验设计

程序源码-python实现

五、实验结果

实验目的

了解并掌握网络爬虫的基本原理，并动手实现动态获取全国新型冠状病毒疫情现状。

实验环境

windows 10

Pycharm 2020.1

python 3.7

实验准备

数据来源

打开浏览器访问腾讯新闻疫情大数据展示页面https://news.qq.com/zt2020/page/feiyan.htm#/global

打开chrome开发者工具，可以看到该页面打印了疫情数据

基于Python的新冠肺炎致病因素分析平台的设计与实现 python新冠疫情数据分析_ci

通过进一步查看network请求可知，实际数据接口为

https://view.inews.qq.com/g2/getOnsInfo?name=disease_h5

基于Python的新冠肺炎致病因素分析平台的设计与实现 python新冠疫情数据分析_数据_02

接口数据分析

首先将上文中的接口页面另存为(Ctrl+S)

getOnsInfo.json文件，使用编辑器notepad++打开，通过查找替换功能将文件中多余的’\’号去除，并删除

data:”{}” 字段中花括号两边的引号。接着使用插件JSON

Viewer(自行安装)格式化该文件，最后可得到如下图所示的可读文件：

基于Python的新冠肺炎致病因素分析平台的设计与实现 python新冠疫情数据分析_python_03

基于Python的新冠肺炎致病因素分析平台的设计与实现 python新冠疫情数据分析_ci_04

可以很清楚的看到，该json数据以树形的方式展示了国家-身份-城市各个范围内的疫情数据，而我们需要的数据则位于
total和today字段下

在today中展示了按天范围内的疫情数据, total中则包含了疫情出现以来的总数据。

requests模块安装

使用python实现爬虫程序之前，需要安装必要的模块

如果安装了Anaconda，requests就已经可用了。否则，需要在命令行下通过pip安装：

python -m pip install requests

实验设计

程序源码-python实现

import csv
import json

import requests

todayKey = 'today'
totalKey = 'total'
confirmKey = 'confirm'
nowConfirmKey = 'nowConfirm'
nameKey = 'name'
childrenKey = 'children'
ExcelName = '疫情日报.csv'  # 数据保存文件
# 腾讯实时疫情接口api接口
api = 'https://view.inews.qq.com/g2/getOnsInfo?name=disease_h5'

# 运行后会在同目录下生成一个 疫情日报.csv文件
if __name__ == '__main__':
    datas = json.loads(requests.get(url=api).json()['data'])
    with open(ExcelName, 'w', encoding='utf-8', newline='') as csvfile:
        writer = csv.writer(csvfile)
        dataLog = '更新时间：' + datas['lastUpdateTime']
        writer.writerow([dataLog])
        for contry in datas['areaTree']:
            if contry[nameKey] == '中国':
                for province in contry[childrenKey]:
                    provinceName = str(province[nameKey])
                    newConfirm = str(province[todayKey][confirmKey])
                    nowConfirm = str(province[totalKey][nowConfirmKey])
                    writer.writerow([str('\t' + provinceName + ' 新增确诊: '
                                         + newConfirm + ', 现有确诊：' + nowConfirm)])
                    for city in province[childrenKey]:
                        newConfirm = str(city[todayKey][confirmKey])
                        nowConfirm = str(city[totalKey][nowConfirmKey])
                        cityName = city[nameKey]
                        writer.writerow([str('\t\t' + cityName + ' \t\t新增确诊:' + newConfirm
                                             + ',\t现有确诊：' + nowConfirm)])