1. 写在前面如果想从事数据挖掘或者机器学习的工作,掌握常用的机器学习算法是非常有必要的,常见的机器学习算法:监督学习算法:逻辑回归,线性回归,决策树,朴素贝叶斯,K近邻,支持向量机,集成算法Adaboost等无监督算法:聚类,降维,关联规则, PageRank等为了详细的理解这些原理,曾经看过西瓜书,统计学习方法,机器学习实战等书,也听过一些机器学习的课程,但总感觉话语里比较深奥,读起来没有耐心            
                
         
            
            
            
            岭回归岭回归是一种专用于共线性数据分析的有偏估计回归方法,实质上是一种改良的最小二乘估计法,通过放弃最小二乘法的无偏性,以损失部分信息、降低精度为代价获得回归系数更为符合实际、更可靠的回归方法,对病态数据的拟合要强于最小二乘法。使用sklearn.linear_model.Ridge进行岭回归一个简单的例子from sklearn.linear_model import Ridge
clf = R            
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2024-03-29 13:56:42
                            
                                152阅读
                            
                                                                             
                 
                
                                
                     
                                    
                             
         
            
            
            
            机器学习入门:① 提出问题 ② 理解数据 ③ 数据清洗 ④ 构建模型 ⑤ 评估python机器学习包:sklearn一、相关性分析相关性分析:研究2种或2种以上的数据之间有什么关系。比如身高和体重,工作和疾病发病率等。三种线性相关性:       二、协方差我们先来看下两个变量 同方向变化 和 反方向变化 情况同方向变化:       反方向变化:       因此 协方差:协方差(Covaria            
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2024-03-29 10:50:34
                            
                                199阅读
                            
                                                                             
                 
                
                                
                     
                                    
                             
         
            
            
            
            题目:构建模型预测某个学生是否能被大学录取,你有之前申请学生的两次考试成绩和最终录取的结果,需要你构建一个评估录取的分类模型。首先准备数据,绘出散点图import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
# 读取数据
path = 'ex2data1.txt'
data = pd.read_csv(path,            
                
         
            
            
            
            文章目录二项logistic回归  R语言中的 factor()函数可以把变量变为因子类型,默认是没有等级之分的(可以理解为无序分类变量nominal)!当然也可以通过添加参数 ordered=T变成有序因子(等级资料,有序分类ordinal)。 二项logistic回归因变量是二分类变量时,可以使用二项逻辑回归(binomial logistic regression),自变量可以是数值变量、            
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2023-06-05 23:08:47
                            
                                2113阅读
                            
                                                                             
                 
                
                             
         
            
            
            
            俗话说得好,每天一苹果,医生远离我~多亏了农民伯伯们的辛勤劳作,让我们四季都能吃上苹果。那么苹果树怎么种才能结更多的果子呢?已知各苹果树的结果数量,以及它们种植期间平均每天的日照时间与浇水次数,怎样才能知道这两个因素有没有对苹果树的结果数量产生影响呢?这时就可以用到回归分析。相关分析描述分析项之间是否有关系,回归分析研究影响关系情况。回归分析实质上就是研究 X对 Y的影响关系情况。打开在线SP            
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2024-05-03 20:11:02
                            
                                72阅读
                            
                                                                             
                 
                
                             
         
            
            
            
            当我们处理一个新的数据集的时候,第一件事就是要对数据做一个了解。数据的格式是什么?数据的维度是多少?变量名是什么? 变量如何存储? 是否缺少数据? 数据中是否有任何缺陷?本次课将学习如何使用R的内置函数回答这些问题以及以及其他更多内容。 我们将使用从美国农业部PLANTS数据库构建的数据集。尺寸和大小假设我们已经把数据读取并存入一个名为plants的变量。我们输入ls()命令查看工作空间里的变量,            
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2023-06-27 21:13:45
                            
                                175阅读
                            
                                                                             
                 
                
                                
                     
                                    
                             
         
            
            
            
             主要内容:一.回归与分类二.Logistic模型即sigmoid function三.decision boundary 决策边界四.cost function 代价函数五.梯度下降六.自带求解函数七.多分类问题  一.回归与分类回归:用于预测,输出值是连续型的。例如根据房子的大小预测房子的价格,其价格就是一个连续型的数。分类:用于判别类型,输出值是离散型的(或者可            
                
         
            
            
            
            文章目录一、回归的概念与Logistic回归1.1 回归1.2 Logistic回归1.3 极大似然法求参数1.4 梯度上升法二、代码实现2.1 梯度上升法2.2 随机梯度上升算法三、实例测试3.1 数据准备3.2 计算错误率四、总结 一、回归的概念与Logistic回归1.1 回归假设有一些数据,能在坐标轴上展示,我们利用一条直线对这些点进行拟合(该线称为最佳拟合直线),这个拟合过程就称作为回            
                
         
            
            
            
                  数据的重要性已经被越来越多的公司、个人所熟知与接受,甚至于有过犹不及之势头。大数据的概念满天飞,似乎一夜之间人人都在谈论大数据,见了面不用 大数据打招呼,好像就不是在数据圈子里混的了。那么,被外界传得神乎其神的数据,到底可以在哪些方面促进业务的腾飞?或者换种说法,业务对数据有哪些层次 的需求?数据在哪些地方能够帮            
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2024-08-08 14:36:59
                            
                                52阅读
                            
                                                                             
                 
                
                                
                     
                                    
                             
         
            
            
            
            一、线性回归1.概念        对于一组特征,使用线性方程来进行拟合,对结果进行预测,公式如下:2.代价函数        线性回归选取的损失函数是均方误差,均方误差表示所有样本到该预测函数的欧式距离最小,代价函数如下:对每一个θ进行求            
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2024-05-02 17:07:46
                            
                                298阅读
                            
                                                                             
                 
                
                                
                     
                                    
                             
         
            
            
            
            一、Logistic回归Logistic回归(Logistic Regression,简称LR)是一种常用的处理二类分类问题的模型。在二类分类问题中,把因变量y可能属于的两个类分别称为负类和正类,则因变量y∈{0, 1},其中0表示负类,1表示正类。线性回归的输出值在负无穷到正无穷的范围上,不太好解决这个问题。于是我们引入非线性变换,把线性回归的输出值压缩到(0, 1)之间,那就成了Logisti            
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2024-01-05 13:53:25
                            
                                118阅读
                            
                                                                             
                 
                
                                
                     
                                    
                             
         
            
            
            
            GLM:线性回归GLM即Generalized linear model,广义线性模型。  贝叶斯统计的一些软件工具包JAGS, BUGS, Stan 和 PyMC,使用这些工具包需要对将要简历的模型有充分的了解。线性回归的传统形式通常,频率学派将线性回归表述为:  Y=Xβ+ϵ 其中,  
Y 是我们期望预测的输出(因变量); X 是预测因子(自变量); 
 
β 是待估计的模型系数(参数);            
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2024-03-28 03:50:05
                            
                                678阅读
                            
                                                                             
                 
                
                                
                     
                                    
                             
         
            
            
            
            大家好,我又回来了。今天讲一讲回归。回归算法通常用于数值的预测,但是也能用来分类(通过回归计算属于各分类的概率,取其最大者),所以 weka 把回归算法归并于 分类器标签。打开 weka 在data文件夹下找到 cpu.with.vendor.arff 文件,这就是我们用来测试的样本,加载该样本。线性回归算法切换到分类器标签,在 choose 下拉框中选择 function节点下的 LinearR            
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2024-03-22 16:09:58
                            
                                80阅读
                            
                                                                             
                 
                
                                
                     
                                    
                             
         
            
            
            
             在我们遇到回归问题时,例如前面提到的线性回归,我们总是选择最小而成作为代价函数,形式如下:这个时候,我们可能就会有疑问了,我们为什么要这样来选择代价函数呢?一种解释是使我们的预测值和我们训练样本的真实值之间的距离最小,下面我们从概率的角度来进行解释。 首先假设输入变量和目标变量满足下面的等式ε(i)指的是误差,表示我们在建模过程中没有考虑到的,但是它对预测的结果又有影响。它是            
                
         
            
            
            
            # R语言中K-means聚类结果分析
K-means聚类是一种广泛使用的非监督学习算法,旨在将数据分为K个预定义的簇(clusters)。在R语言中,可以使用`kmeans()`函数进行K-means聚类分析。本文将介绍如何解读K-means聚类的结果,并通过示例代码及可视化手段增进理解,同时还会涉及甘特图和序列图的展示。
## 1. K-means聚类基本原理
K-means算法的主要目            
                
         
            
            
            
            Ridge回归由于直接套用线性回归可能产生过拟合,我们需要加入正则化项,如果加入的是L2正则化项,就是Ridge回归,有时也翻译为岭回归。它和一般线性回归的区别是在损失函数上增加了一个L2正则化的项,和一个调节线性回归项和正则化项权重的系数α。损失函数表达式如下:J(θ)=1/2(Xθ−Y)T(Xθ−Y)+1/2α||θ||22其中α为常数系数,需要进行调优。||θ||2为L2范数。Ridge回归            
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2023-09-14 16:12:19
                            
                                125阅读
                            
                                                                             
                 
                
                             
         
            
            
            
             本科学信息与计算科学专业,但基本上也算是个应用数学专业,所以很早就接触了统计。最开始学的是数理统计,后来又学习了多元统计分析。研究生又读了一个统计学专业,走上工作岗位,又做了数据分析相关的工作,一做就是10年。从一开始的茫然不知所措,到逐渐喜欢统计,到现在日常工作中离不开统计。也许你真正用统计学思维解决问题的时候,你才会真正爱上它。统计学不是简单的分析工具,是一种思考问题的思维方式,让            
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2024-09-29 20:36:03
                            
                                46阅读
                            
                                                                             
                 
                
                                
                     
                                    
                             
         
            
            
            
            最近我们被要求撰写关于电力负荷时间序列预测的研究报告,包括一些图形和统计输出。 相关视频:非线性模型原理与R语言多项式回归、局部平滑样条、 广义相加模型GAM分析  
 非线性模型原理与R语言多项式回归、局部平滑样条、 广义相加模型GAM分析 ,时长05:41视频:R语言广义相加模型(GAM)在电力负荷预测中的应用  
 拓端tecdat:R语言广义相加模型(GAM)在电力负荷预测中的应            
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2024-07-08 22:38:20
                            
                                32阅读
                            
                                                                             
                 
                
                                
                     
                                    
                             
         
            
            
            
            # 项目方案:利用Python实现岭回归分析
## 项目背景
岭回归(Ridge Regression)是一种常用于解决多重共线性问题的线性回归方法,在自变量之间存在较高相关性时,它通过引入L2正则化项来降低模型的复杂度,提高模型的泛化能力。本项目旨在通过Python实现岭回归分析,探索其在实际数据集上的应用效果,并结合可视化手段展示结果。
## 项目目标
1. 理解岭回归的基本原理与应用