目录一、理论知识二、Excel多元线性回归1.数据集2.数据分析三、借助Sklearn库实现多元线性回归1.基础包与数据导入2.变量探索3.分析数据4.建立线性回归模型5.Sklearn库建立多元线性回归模型四、参考文献 一、理论知识一元线性回归是分析只有一个自变量(自变量x和因变量y)线性相关关系的方法。一元线性回归分析的数学模型为:y = a+bx+ε。 使用偏差平方和分别对参数a和参数b求
转载
2024-05-20 15:55:54
149阅读
(这篇文章主要参考了黄言同学的这篇文章,按着自己的理解把文章重写了一遍,删除了一些自己觉得可能不太常用的指标和比较难的公式推导部分,比如决定系数等内容,补充了一些自己想到的小例子。)机器学习评估指标大致可以分成两类,回归(Regression)算法指标和分类(Classification)算法指标。回归(Regression)算法指标常用的回归(Regression)算法指标有平均绝对误差(Mea
转载
2024-05-02 07:40:49
276阅读
1. 多元线性回归定义在回归分析中,如果有两个或两个以上的自变量,就称为多元回归。事实上,一种现象常常是与多个因素相联系的,由多个自变量的最优组合共同来预测或估计因变量,比只用一个自变量进行预测或估计更有效,更符合实际。因此多元线性回归比一元线性回归的实用意义更大。 我们现在介绍方程的符号,我们可以有任意数量的输入变量。这些多个特征的假设函数的多变量形式如下:hθ(x)=θ0+θ1x1+θ2x2+
转载
2024-03-19 21:56:48
310阅读
线性回归:LinearRegression误差真实值和预测值之间肯定存在的差异用ε表示,误差项越小越好。误差εi是独立并且具有相同分布,并且服从均值为0方差为θ2的高斯分布(样本间独立,不会互相影响,所以误差εi也是独立的)将1式带入2式似然函数(解释:什么样的参数跟我们的数据组合后恰好是真实值):注意是概率累乘对数似然:(乘法转加法)关注的不是极值等于多少,即不关心L(θ)或者logL(θ)的值
转载
2024-04-06 09:40:33
510阅读
上一篇文章讲述了梯度下降法的数学思想,趁热打铁,这篇博客笔者将使用梯度下降法完成多元线性回归,话不多说,直接开始。我们假设我们的目标函数是长这样的:其中的是我们认为对输出产生影响的输入值,而则是我们要求的参数,也就是各个x的权值。需要指出的是,取值为1,也就是式中的第一项代表的是偏置值。是我们根据我们的输入值计算得到的预测输出值。我们如何能找到能使这个预测值最贴近实际值的参数呢?我们引入cost
转载
2024-05-10 09:41:52
61阅读
统计学习方法的经典研究主题包括: 线性回归模型感知机k 近邻法朴素贝叶斯法决策树Logistic 回归与最大熵模型支持向量机提升方法EM 算法隐马尔可夫模型条件随机场 之后我将介绍 10 项统计技术,帮助数据科学家更加高效地处理大数据集的统计技术。在此之前,我想先理清统计学习和机器学习的区别: 机器学习是偏向人工智能的
文章目录一、预测问题评价指标均方误差(MSE)均方根误差(RMSE)平均绝对误差(MAE)平均绝对百分比误差(MAPE)对称平均绝对百分比误差(SMAPE)均方对数误差(MSLE)中位绝对误差(MedAE)以上7种预测评价指标如何选用?二、分类问题评价指标2.1单项分类问题指标准确率(Accuracy)精确率/查准率(Precision)召回率/查全率(Recall)2.2综合分类问题指标F1分
转载
2024-07-22 16:44:46
486阅读
文章目录第2章:单变量线性回归2.1 模型描述 Model representation2.2 代价函数 Cost function2.3 梯度下降 Gradient descent2.4 线性回归的梯度下降 Gradient descent for linear regression 第2章:单变量线性回归2.1 模型描述 Model representation机器学习可以分为监督学习和无监
转载
2024-09-29 18:53:45
96阅读
文章目录1.概念:在概率论和统计学中,数学期望 (mean)(或 均值,亦简称期望)是试验中每次可能结果的 概率 乘以其结果的总和,是最基本的数学特征之一。它反映随机变量 平均取值 的大小。需要注意的是,期望值并不一定等同于常识中的“期望”——“期望值”也许与每一个结果都不相等。期望值是该变量输出值的 平均数 。期望值并不一定包含于变量的输出值集合里。大数定律 规定,随着重复次数接近无穷大,数值的
回归模型的评价指标一、总体介绍1. 均方误差(Mean Squared Error,MSE) 观测值与真值偏差的平方和与观测次数的比值:这就是线性回归中最常用的损失函数,线性回归过程中尽量让该损失函数最小。那么模型之间的对比也可以用它来比较。 MSE可以评价数据的变化程度,MSE的值越小,说明预测模型描述实验数据具有更好的精确度。2. 均方根误差(标准误差)(Root Mean Squard Er
转载
2024-04-18 09:13:57
82阅读
回归模型评估有三种方法,分别是:平均绝对值误差、均方误差和R平方值,如表1所示:指标描述metrics方法Mean Absolute Error(MAE)平均绝对误差from sklearn.metrics import mean_absolute_errorMean Square Error(MSE)平均方差from sklearn.metrics import mean_squared_e
转载
2024-04-23 10:24:47
658阅读
前面几节都是监督学习方面的算法,监督学习是指有目标变量或预测目标的机器学习方法,回归与分类的不同,就在于其目标变量是连续数值型,而分类的目标变量是标称型数据,其实前面的Logistic回归就是回归的一种,他们的处理方法大同小异,在这里系统的讲解一下回归的来龙去脉,理解影响回归的因素,知道如何处理这方面的问题,系统的梳理一下。本节将从最简单的一元线性回归开始,然后是多元,逐次深入, 下面就
一、标准化/归一化定义归一化和标准化经常被搞混,程度还比较严重,非常干扰大家的理解。为了方便后续的讨论,必须先明确二者的定义。归一化 就是将训练集中某一列数值特征(假设是第i列)的值缩放到0和1之间。方法如下所示:标准化 就是将训练集中某一列数值特征(假设是第i列)的值缩放成均值为0,方差为1的状态。如下所示:进一步明确二者含义 归一化和标准化的相同点都是对某个特征(column)进行缩放(sca
转载
2024-08-01 07:31:32
46阅读
个人认为主要有两个原因。原因一:为了让估计出的回归系数是无偏估计。总体参数的估计值必须符合一些好的特性才行,比如无偏性,相合性(一致性),有效性之类的,否则你的估计值就是瞎猜。如果假定误差均值为零,则最小二乘估计出来的回归系数就是无偏的。一个估计量并不是说无偏就一定好,也可以有偏。如果有偏,只要它和无偏估计量相比较“均方误差”更小,则我们就可以选用有偏的估计量。比如岭回归得到的回归系数就是有偏估计
转载
2024-02-24 16:59:30
382阅读
标准偏差和标准误差是统计学中的两个变异性估计量。两者只有一字之差,但是所表示的估计含义却很不同。首先,从英文名字来讲,标准偏差是standard deviation,deviation有“离差”的意思,标准偏差表征的是数据的离散程度;而标准误差的英文名是standard error,表征的是单个统计量在多次抽样中呈现出的变异性。可以这样理解,前者是表示数据本身的变异性,而后者表征的是抽样行为的变异
转载
2024-01-05 22:57:06
23阅读
一 序 本文属于极客时间机器学习40讲学习笔记系列。11基础线性回归:一元与多元线性模型最大的优点不是便于计算,而是便于解释。之前的课证明了当噪声满足正态分布时,基于最小二乘法(least squares)的线性回归和最大似然估计是等价的。线性回归的数学表达式被写成讨论几何意义时,这个表达式要被改写成:当输出被写成其背后的寓意是每个包含若干输入属性和一个输出结果的样本都被
在学习logistic regression(逻辑斯蒂回归)的时候,我们用类似交叉熵的损失函数Log误差:,而不是在线性回归里常用的平均平方误差(MSE):.我最近找到一篇博文讲得不错,这两天翻译一下,顺便求一波thesis高分Why not Mean Squared Error(MSE) as a loss function for Logistic Regression? – Rajesh S
L1和L2正则化的区别L1是模型各个参数的绝对值之和,L2为各个参数平方和的开方值。L1更趋向于产生少量的特征,其它特征为0,最优的参数值很大概率出现在坐标轴上,从而导致产生稀疏的权重矩阵,而L2会选择更多的矩阵,但是这些矩阵趋向于0。Loss Function有哪些,怎么用? 平方损失(预测问题)、交叉熵(分类问题)、hinge损失(SVM支持向量机)、CART回归树的残差损失线性回归的表达式,
转载
2024-09-04 14:20:21
39阅读
简单线性回归方程式:
1.1 估计参数代表第i 个残差第i 个观测到的响应值和第i 个用线性模型预测出的响应值之间的差距 残差平方和(residual sum of squares ,RSS): &nb
转载
2023-09-30 09:43:58
634阅读
点赞
1评论
Part1描述统计描述统计是通过图表或数学方法,对数据资料进行整理、分析,并对数据的分布状态、数字特征和随机变量之间关系进行估计和描述的方法。描述统计分为集中趋势分析和离中趋势分析和相关分析三大部分。集中趋势分析:集中趋势分析主要靠平均数、中数、众数等统计指标来表示数据的集中趋势。例如被试的平均成绩多少?是正偏分布还是负偏分布?离中趋势分析:离中趋势分析主要靠全距、四分差、平均差、方差(协方差:用
转载
2024-08-05 11:56:04
156阅读