数据采集第二次实验

转载

mb5fe5605983816 2021-10-13 20:06:00

文章标签 数据库数据 mysql 正则匹配编码方式 文章分类 代码人生

1.作业①

1.1作业内容

要求：在中国气象网（http://www.weather.com.cn）给定城市集的7日天气预报，并保存在数据库。

数据采集第二次实验_mysql

1.2解题过程

1.2.1解析网页和获取数据

对应城市的网页：

数据采集第二次实验_数据库_02

使用requests获取网页内容并使用BeautifulSoup解析网页：

import requests
from bs4 import BeautifulSoup

reponse = requests.get(url=url)
reponse.encoding="utf-8"
bs4 = BeautifulSoup(reponse.text, 'lxml')

同时设置编码方式，

再通过BeautifulSoup找到要找到内容，如找气温的数据：

tem = bs4.find_all(attrs={"class" :"tem"})

寻找class为”tem“的所有内容。

1.2.2存入数据库

使用pymysql存入mysql数据库

import pymysql

conn = pymysql.connect(host="localhost", user="root", password="root", database="spider", charset='utf8')       #配置数据库信息
cs1 = conn.cursor()

这里存入名为spider的数据库

然后提交sql指令来进行数据表的创建和写入操作如：

sqlcreat = '''
     create table if not exists exp2_1(
            序号 char(100) not null,
            日期 char(30) not null,
            地区 char(50) not null,
            天气信息 char(50) not null,
            温度 char(50) not null)
   '''          #创建对应的表exp2_1
cs1.execute(sqlcreat)

1.2.3输出

数据采集第二次实验_数据_03

数据库：

数据采集第二次实验_正则匹配_04

1.3心得体会

在页面内容中要获取的内容分类很明确时，如class设置明确，BeautifulSoup较正则匹配的方式简便且高效。使用python将数据写入mysql数据库时应注意sql语句是否正确。

2.作业②

2.1作业内容

要求：用requests和自选提取信息方法定向爬取股票相关信息，并存储在数据库中。

候选网站：东方财富网：https://www.eastmoney.com/ 新浪股票：http://finance.sina.com.cn/stock/

数据采集第二次实验_mysql_05

2.2解题过程

2.2.1获取目标内容

打开此网页：

数据采集第二次实验_数据_06

然后按F12进行抓包：

数据采集第二次实验_编码方式_07

找到对应的url进入页面查看：

数据采集第二次实验_数据库_08

都是json的格式进行存储数据。

2.2.2提取目标内容

将上述的url复制到代码中进行爬取

使用requests进行页面的获取和re库获取想要的数据

import requests
import re

reponse = requests.get(url=url)
reponse.encoding="utf-8"  #设置编码方式，否则有乱码
paper = reponse.text

获取对应的内容只要使用正则匹配如匹配股票名称：

regname = '"f14":"(.*?)"'       #股票名称
names = re.findall(regname,paper)

对应的是文件中的：

数据采集第二次实验_数据库_09

爬取其他的数据同理。

2.2.3输出

数据采集第二次实验_数据库_10

2.3新的体会

正则表达式在处理如json格式的文本内容时，可以较轻易的去除想要的内容。

某些网页的内容不是直接写进页面的html中的，而是通过js文件，要通过抓包才能找到要爬取的内容。

3.作业③

3.1作业内容

要求：爬取中国大学2021主榜（https://www.shanghairanking.cn/rankings/bcur/2021）所有院校信息，并存储在数据库中，同时将浏览器F12调试分析的过程录制Gif加入至博客中。

数据采集第二次实验_正则匹配_11

3.2解题过程

3.2.1获取目标内容

直接打开题目的连接只有前20的学校排名

数据采集第二次实验_mysql_12

按F12进行抓包：

数据采集第二次实验_正则匹配_13

在network选择js文件，找到第一个payload.js，里面的url就是要找的，

在网页打开：

数据采集第二次实验_数据库_14

可以看到都是乱码，所有在代码中要设置编码方式
数据采集第二次实验_数据_15

3.2.2提取目标内容

由于文件内容也是使用json的格式，所以使用requests获取页面信息和re进行正则匹配

import requests
import re

正则匹配如匹配学校名称时：

regname='univNameCn:"(.+?)"'    #匹配学校名称的正则表达式
names = re.findall(regname, paper)

对应文件中的：

数据采集第二次实验_正则匹配_16

其他内容同理。

如果有总分相同的学校，只显示第一个学校的分数，所以需要处理：

for i in range(len(score)):
    try:
        float(score[i])
        num=score[i]
    except ValueError:
        score[i]=num

这里将第一个的分数填入

存入数据库同第一题。

3.2.3输出

数据采集第二次实验_数据库_17

数据库：

数据采集第二次实验_数据_18

3.3心得体会

熟悉Python对mysql的操作，要注意存入mysql的数据是否有缺少的值。

第二次实验源代码

本文章为转载内容，我们尊重原作者对文章享有的著作权。如有内容错误或侵权问题，欢迎原作者联系我们进行内容更正或删除文章。

上一篇：【数据采集】第二次实验

下一篇：Scons使用教程

提问和评论都可以，用心的回复会被更多人看到评论

发布评论

相关文章

官方博客	全部文章	热门标签	班级博客
了解我们	网站地图	意见反馈

鸿蒙开发者社区	51CTO学堂
51CTO	软考资讯