又是写在前面的一些碎碎念,大家都去读这本书!!(●'◡'●)

目录

第三章 基础知识考察

统计及数据分析知识

假设检验

贝叶斯统计概览

模型及数据挖掘知识

第四章 编程技能考察

熟悉Python

pandas

数据可视化——matplotlib&pyecharts

文本处理——jieba&wordcloud


第三章 基础知识考察

统计及数据分析知识

假设检验

假设检验中的两类错误

①原假设成立的情况下错误地拒绝了原假设;②没有成功拒绝不成立的原假设

假设检验中,如何平衡两类错误

首先会预设第一类错误的上限,定义显著性水平α(一般为5%),在显著性水平固定的情况下,需要减少第二类错误β发生的概率(1-β用power表示,也称检验效能);通过预设的显著性水平和检验效能可以计算出完成试验所需要的最小样本量。

简述假设检验中的p-value、显著性水平、置信度、检验效能

p-value:在原假设成立的前提下,检验统计量出现当前值或者更为极端的值的概率。 

显著性水平:在假设检验中,犯第一类错误的上限,用α表示。

置信度:用1-α表示检验的置信度。

检验效能:规避第二类错误的概率,用power表示。

z检验与t检验之间的区别

t检验无须提前获知方差的大小

贝叶斯统计概览

最需要掌握的是全概率公式及贝叶斯的实际运用,例如已知男女比例以及男女穿校服比例,对于一个穿校服的学生是男生的概率就可以用贝叶斯定理进行计算,=男生比例*男生穿校服比例/穿校服比例(男生比例*男生穿校服比例+女生比例*女生穿校服比例)

模型及数据挖掘知识

数据集分为哪几类

训练集、验证集和测试集

参数与超参数之间的区别

参数可以通过模型对训练集训练获得,而超参数只能在训练前人为给出,再通过验证集验证调整

过拟合与欠拟合

模型的误差由偏差与方差相加而成,偏差过高表示欠拟合,模型过于简单,需要进一步提升模型复杂度;方差反映模型稳定性,模型过于复杂会产生大量噪声,导致模型泛化能力变差

监督学习和非监督学习常用模型

监督学习:

【预测问题】线性回归模型、时间序列模型、神经网络模型

【分类问题】逻辑回归模型、SVM模型、决策树模型、随机森林模型、Boosting模型

非监督学习:

【聚类问题】K-Means聚类模型、DBSCAN聚类模型、E-M聚类模型

【降维问题】PCA模型

模型效果评估方法

MSE(均方误差):值越小,模型精确度越高

RMSE(均方根误差):均方误差的算术平方根

MAE(平均绝对误差):绝对误差的平均值

对于二分类问题常用的评估方法

准确率、召回率,而正确率和准确率不同,正确率考虑了正负样本预测的情况,而准确率只考虑了正样本的预测情况(因为存在正负样本比例可能会达到1:999的极端情况,如果看正确率只要将所有结果都预测为负样本则会高达99.9%,因此准确率的使用频率更高)

第四章 编程技能考察

熟悉Python

首先介绍了一些数据类型和对象类型,包括列表、元组、字典等。

pandas

可以用来读取Excel和CSV文件,以及显示数据前几列信息(以5为例)

import pandas as pd
r = pd.read_excel('名字.xlsx')
r.head(5)

添加新的一列(例如生成某列数据的log值列)

import math
r['log列名']=[math.log(i) if i>0 else 1 for i in r['原列名']]

如果要删除则直接drop掉:

r = r.drop('log列名',axis=1)

筛选和聚合计算

例如统计每天排名前5的热搜标题的平均热度

r_dt = r[resou['rank']<=5].groupby('date',as_index=False).agg({'searchCount':['mean']})
r_dt = ['date','avg_count']
r_dt.head(5)

数据可视化——matplotlib&pyecharts

介绍了一些绘图代码

文本处理——jieba&wordcloud

介绍了一些分词&绘制词云图

(上述两部分由于平时使用过所以就没有详细介绍)