初看Xgboost,翻了多篇博客发现关于xgboost原理的描述实在难以忍受,缺乏逻辑性,写一篇供讨论。观其大略,而后深入细节,一开始扎进公式反正我是觉得效率不高,还容易打消人的积极性。首先说下决策树决策树是啥? 举个例子,有一堆人,我让你分出男女,你依靠头发长短将人群分为两拨,长发的为“女”,短发为“男”,你是不是依靠一个指标“头发长短”将人群进行了划分,你就形成了一个简单的决策树,官
一、简介这是一篇关于线性回归的基本操作,用月度收益率数据以及其所在市场的市场收益率数据,通过StataIC软件求得个股的β系数博主是一个普普通通的大学生,没有很厉害的技术,写的内容都是不太正经的偏小白简单的,写的也是学校教过的知识消化后自己的见解,不是很学术研究的博文。配置:Window 7旗舰版+64位操作系统+StataIC 14(64-bit)二、参数解释1. β的含义β=1,表示该单项资
01回归系数注意回归系数的正负要符合理论和实际。截距项的回归系数无论是否通过T检验都没有实际的经济意义。02回归系数的标准差标准误差越大,回归系数的估计越不可靠,这可以通过T的计算公式可知(自查)。03T检验T检验回归系数是否等于某一特定,在回归方程中这一特定为0,因此T=回归系数/回归系数的标准误差,因此T的正负应该与回归系数的正负一致,回归系数的标准误差越大,T
转载 2024-02-09 15:23:33
2305阅读
作者:SAS_Miner 分类回归树  classification and regression tree(C&RT)  racoon优点(1)可自动忽略对目标变量没有贡献的属性变量,也为判断属性变量的重要性,减少变量数据提供参考;(2)在面对诸如存在缺失、变量数多等问题时C&RT 显得非常稳健(robust);(3)估计
一.概述       回归分析是研究统计规律的方法之一。在回归分析中我们把所关心的一些指标称为因变量,通常用Y来表示;影响因变量的变量称为自变量,用X1、X2、…XP来表示。回归分析研究的主要问题是:确定Y与X1、X2、…XP间的定量关系表达式,这种表达式称为回归方程;对求得的回归方程的可信度进行检验,判断自变量对Y有无影响;利
清洗 - 处理丢失数据常见的两种空数据(丢失数据) None np.nan(NaN) None  None是python自带的,其类型为python object .因此,None不能参与到任何计算中 type(None) #NoneType Npne + 1 #报错 np.nan(NaN)  np.nan是浮点型,能参与计算,但计算的结果总是NaN import num
机器学习求索之路(2)— 逻辑回归@(Machine Learning) 文章目录机器学习求索之路(2)--- 逻辑回归1. 原理2. 损失函数2.1. 损失函数推导2.2. 损失函数求解3. 正则化和模型评估3.1. 正则化3.2. 模型评估4. 类别不平衡问题5. 优缺点6. Python调用及参数 1. 原理和输入样本矩阵之间的线性关系系数,满足。此时是连续的,所以是回归模型。如果是离散的话
t p>[t]  F R^2 置信区间的做出相应解释   因变量是新生儿体重birth weight  主题是产前护理及父母恶习对新生儿健康的影响 此外hypothesis假设应该怎么写.首先说觉得你这个方程回归的不好,R系数太小,显著性不好。F应该大于该自由度下查表的才行,所有的t大于查表得到的,这样从方程到参量全部显著。不过受制于原始数据,一般都
在线性回归模型中,其参数估计公式为不可逆时无法求出,另外如果越趋近于0,会使得回归系数趋向于无穷大,此时得到的回归系数是无意义的。解决这类问题可以使用岭回归和LASSO回归,主要针对自变量之间存在多重共线性或者自变量个数多于样本量的情况。一、正则化1.什么是正则化对损失函数(目标函数)加入一个惩罚项,使得模型由多解变为更倾向其中一个解。在最小二乘法中,可以这样理解。XTX可能是不可逆的,通过加上正
转载 2024-04-30 08:20:09
85阅读
分类回归树  Classification and RegressionTree(C&RT) 优点(1)可自动忽略对目标变量没有贡献的属性变量,也为判断属性变量的重要性,减少变量数据提供参考;(2)在面对诸如存在缺失、变量数多等问题时C&RT 显得非常稳健(robust);(3)估计模型通常不用花费很长的训练时间; ( 4 ) 推理过程完全依据属性变
K-means 聚类算法:K-means聚类算法 算法流程,我们首先有训练集,但是训练集我们没有类标签,我们想把数据聚类成一些cluster ,这是一种无监督学习方法。具体步骤:1. 首先初始化cluster centroid 2. 迭代的找每一个数据集点到最近cluster centroid,然后把该点给到最近cluster centroid所在的cluster,然后在更新cluster cen
比赛怎么做的(先说解决的问题,属于回归还是二分类问题,KS曲线是什么含义,能优化吗(用AUC代替)) KS:用真正率和假正率的累计分别做为纵坐标就得到两个曲线,这就是K-S曲线。 传统GBDT以CART作为基分类器,xgboost还支持线性分类器,这个时候xgboost相当于带L1和L2正则化项的逻辑斯蒂回归(分类问题)或者线性回归回归问题)。 传统GBDT在优化时只用到一阶导数信
  线性模型的核心是一个线性函数 s= wTx,即将所有输入变量进行线性组合, 对于线性回归问题(linear regression),输入x,输出wTx;对于线性分类(linear classification)问题,需要离散的输出,例如输出1表示某个样本属于类别C1,输出0表示不属于类别C1, 这时候只需要简单的在线性函数的基础上附加一个阈值即可,通过分类函数执行时得到的
目录1、了解线性回归2、了解似然函数3、了解交叉验证的原理4、梯度下降算法4.1、批量梯度下降算法(Batch Gradient Descent,简称BGD):4.2、随机梯度下降算法(SGD):4.3、折中:5、了解一些参数指标6、了解Logistic回归7、了解最小二乘法8、了解AUC指标 目录1、了解线性回归当只有一个变量的时候,可以表示为下面的式子。 当为多个特征时,线性回归可以表示为
本文是关于线性回归以及代码实现作为初学者,这个是我的第一篇博客,相信我在这里有不少没有做好的地方,欢迎大家指点。1.线性回归(加粗是矩阵,带T表示转置) 函数原始模型:y=wT*x+b b是一个我们自己给定的一个参数,一般可以选择全部为1或者0, 当然,也可以自己百度查找比较适合的结果 w可以叫做权重参数,我们的目标就是找到最适合的w 为了判断模型是否优秀有效,我们引入 ζ 作为误差,同时认为
多因子分析与复合分析探索属性和属性之间的联系,分析属性和属性之间联系的分析方法假设检验 根据一定的假设条件,从样本推断总体,或者推断样本与样本之间关系。作出一个假设,然后根据数据,或者根据已知的分布性质来推断这个假设成立的概率有多大 方法: 建立原假设H0,H0的反命题H1(备择假设)在假设检验中,常常把这个假设和一个已知的分布关联起来,这样原假设为符合该分布,备择假设为不符合该分布 选择检验统计
大家下午好,最近在网上认识一个妹子,叫XDB,偏偏她和我闹别扭,失效了。所以我通过去她老家MOS,多次明察暗访,研究了一些她的资料,大致摸清她的星座性格之后,得出了重建XDB的大致流程。以下是把我的研究过程与大家一起分享:首先,就我的理解,和大家简单说说XDB是啥东东。根据官档的概述: XDB又叫XML DB,主要的作用是用来高效率地处理XML类型的数据,提供本地的XML支持,包含存储
1.逻辑回归逻辑回归是一种线性回归模型,它假设数据服从伯努力分布(二项分布,0-1分布),通过极大似然估计,运用梯度下降方法(牛顿法) 求解,进而达到二分类目的。逻辑回归与线性回归有很多相似之处,去除Sigmoid映射函数的话,逻辑回归算法就是一个线性回归。逻辑回归以线性回归理论作为支持。由于引入了Sigmoid函数,可以处理非线性问题,因此可以轻松处理0/1分布问题。2.伯努利(Binomial
在理性的基础上,所有的判断都是统计学。——Calyampudi Radhakrishna Rao正如一个法庭宣告某一判决为“无罪”而不为“清白”,统计检验的结论也应为“不拒绝”而不为“接受”——Jan Kmenta 我们知道,统计推断有两类:参数估计与假设检验。参数估计是利用样本信息推断未知的总体参数,而假设检验则是先对总体参数提出一个假设,然后利用样本信息判断这一假设是否成立。在假设检验中,“
转载 2024-05-05 17:51:23
173阅读
1.样本正反例基本概念TP: True Positive 指正确分类成为正的样本数,实际为正,预测为正 FP: False Positive 指错误分类为正的样本数,实际为负,预测为正 FN: False Negative 指错误分类为负的样本数,实际为正,预测为负 TN: True Negative 指正确分类为负的样本数,实际为负,预测为负TP+FP+T
  • 1
  • 2
  • 3
  • 4
  • 5