数据采集第二次大作业

转载

mb5ff981a16d1dd 2021-10-24 15:55:00

文章标签 数据库数据 html f5 抓包 文章分类 代码人生

作业①:

要求：在中国气象网（http://www.weather.com.cn）给定城市集的7日天气预报，并保存在数据库。

实验步骤：

1、观察url

福州：数据采集第二次大作业_数据
上海：数据采集第二次大作业_抓包_02

2、F12寻找所需数据

数据采集第二次大作业_数据库_03

3、写出正则表达式

date = re.findall(r'<h1>(.*?)</h1>', req.text）#日期
message = re.findall(r'<p title="(.*?)"', req.text)#天气信息
temp1 = re.findall(r'<span>(\d+)</span>', req.text) temp2 = re.findall(r'<i>(.*?)</i>', req.text)#气温

4、存储到数据库

点击查看代码

class WeatherDB:
    def openDB(self):
        self.con=sqlite3.connect("weathers.db")
        self.cursor=self.con.cursor()
        try:
            self.cursor.execute("create table weathers (wCity varchar(16),wDate varchar(16),wWeather varchar(64),wTemp varchar(32),constraint pk_weather primary key (wCity,wDate))")
        except:
            self.cursor.execute("delete from weathers")

    def closeDB(self):
            self.con.commit()
            self.con.close()

    def insert(self, city, date, weather, temp):
        try:
            self.cursor.execute("insert into weathers (wCity,wDate,wWeather,wTemp) values (?,?,?,?)",
                                (city, date, weather, temp))
        except Exception as err:
            print(err)

    def show(self):
        self.cursor.execute("select * from weathers")
        rows = self.cursor.fetchall()
        print("%-16s%-16s%-32s%-16s" % ("city", "date", "weather", "temp"))
        for row in rows:
            print("%-16s%-16s%-32s%-16s" % (row[0], row[1], row[2], row[3]))

输出信息：

1、控制台输出

数据采集第二次大作业_数据库_04

2、数据库内容

数据采集第二次大作业_数据库_05

心得体会：

1、更好地掌握了正则表达式的使用
2、学会该如何将数据存储到数据库，并查看数据库内容

码云链接：https://gitee.com/huang-weiting/data-acquisition/blob/master/%E4%BD%9C%E4%B8%9A2/weather.py

作业②

要求：用requests和BeautifulSoup库方法定向爬取股票相关信息。

候选网站：东方财富网：http://quote.eastmoney.com/center/gridlist.html#hs_a_board

技巧：在谷歌浏览器中进入F12调试模式进行抓包，查找股票列表加载使用的url，并分析api返回的值，并根据所要求的参数可适当更改api的请求参数。根据URL可观察请求的参数f1、f2可获取不同的数值，根据情况可删减请求的参数。

参考链接：https://zhuanlan.zhihu.com/p/50099084

实验步骤：

1、F12观察网络状态，找到所需信息

数据采集第二次大作业_数据_06

f12/f14/f2/f3/f4/f5/f6/f7/f15/f16/f17/f18就是我们需要的信息

2、获取单个页面数据

点击查看代码

def getOnePageStock(cmd,page):
    data = getHtml(cmd,page)
    #print(data)
    db = MoneyDB()
    db.openDB()
    datas = data[0].split('},')
    infos=[]
    for info in datas:
        if info[-1]!='}':
            info=info+'}'
            infos.append(json.loads(info))
    stocks = []
    for stock in infos:
        stocks.append([stock['f12'],stock['f14'],stock['f2'],stock['f3'],stock['f4'],stock['f5'],stock['f6'],stock['f7'],stock['f15'],stock['f16'],stock['f17'],stock['f18']])
        db.insert(stock['f12'],stock['f14'],stock['f2'],stock['f3'],stock['f4'],stock['f5'],stock['f6'],stock['f7'],stock['f15'],stock['f16'],stock['f17'],stock['f18'])
        #print(stocks)
    db.closeDB()
    return stocks

3、获取全部数据

点击查看代码

cmd = {
        "上证指数":"C.1",
        "深圳指数":"C.5",
        "沪深A股":"C._A",
        "上证A股":"C.2",
        "深圳A股":"C._SZAME",
        "新股":"C.BK05011",
        "中小板":"C.13",
        "创业板":"C.80"
    }
    for i in cmd.keys():
        page = 1
        stocks = getOnePageStock(cmd[i],page)
        #自动爬取多页，并在结束时停止
        while True:
            page +=1
            if page>8:
                break
            if getHtml(cmd[i],page)!= getHtml(cmd[i],page-1):
                stocks.extend(getOnePageStock(cmd[i],page))
                print(i+"已加载第"+str(page)+"页")
            else:
                break
        df = pd.DataFrame(stocks)