目录一、特征工程概述二、特征工程数据预处理1、缺失值处理2、离散特征的连续化处理3、连续特征的离散化处理4、特征的标准化和归一化(数值型数据)5、时间类型的数据处理6、文本类型的数据预处理7、异常特征样本清洗三、特征选择1、过滤法选择特征(Filter)2、包装法选择特征(Wrapper)3、嵌入法选择特征(Embedded)4、寻找高级特征(特征构造)四、特征工程降维一、特征工程概述             
                
         
            
            
            
            文章目录什么是特征收缩或者特征选择设置和数据加载线性回归(Linear Regression)偏差方差均衡最佳子集回归(Best Subset Regression)岭回归(Ridge Regression)LASSO弹性网(Elastic Net)最小角度回归(Least Angle Regression)主成分回归(Principal Components Regression)偏最小二乘法            
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2024-06-03 16:04:46
                            
                                110阅读
                            
                                                                             
                 
                
                             
         
            
            
            
            针对ng上的线性回归课程,几个技巧性的方法,现整理如下: 
在求解线性回归的模型时,有三个需要注意的问题一就是特征组合问题,比如房子的长和宽作为两个特征参与模型的构造,不如把其相乘得到面积然后作为一个特征来进行求解,这样在特征选择上就做了减少维度的工作。这个是多项式回归(Polynomial Regression)里面的一个重点问题。二就是特征归一化(Feature Scaling),这也是许多机            
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2023-11-20 23:41:59
                            
                                113阅读
                            
                                                                             
                 
                
                                
                     
                                    
                             
         
            
            
            
            第二天(神经网络基础一)需要掌握及应用 - 掌握 * 知道逻辑回归的算法计算输出、损失函数 * 知道导数的计算图 * 知道逻辑回归的梯度下降算法 * 知道多样本的血量计算 - 应用 * 应用完成向量化运算 * 应用完成一个单神经元神经网络的结构1.1 Logistic 回归逻辑回归是一个主要用于二分分类类的算法。那么逻辑回归是给定一个x,输出一个该样本属于1对应类预测概率y = P(y = 1|x            
                
         
            
            
            
            文章目录1、逻辑回归概述2、为什么需要逻辑回归?3、sklearn中的逻辑回归4、损失函数5、重要参数penatly&C6、逻辑回归中的特征工程业务选择PCA和SVD一般不用统计方法可以使用,但不是非常必要高效的嵌入法embedded比较麻烦的系数累加法简单快速的包装法7、梯度下降(1)梯度下降的概念(2)步长的概念8、二元回归与多元回归:重要参数solver & multi_c            
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2024-03-26 10:34:13
                            
                                201阅读
                            
                                                                             
                 
                
                                
                     
                                    
                             
         
            
            
            
                逻辑斯谛回归模型是研究因变量为二分类或多分类观察结果与影响因素之间的关系的一种概率型非线性回归模型。逻辑斯谛回归系数通过最大似然估计得到。Logistic函数如下:           x为       &nbs            
                
         
            
            
            
            1、什么是线性回归?线性回归模型的基本原理和假设。线性回归是一种广泛用于统计学和机器学习中的回归分析方法,用于建立自变量(特征)与因变量(目标)之间的线性关系模型。线性回归的基本原理是寻找一条直线(或者在多维情况下是一个超平面),以最佳地拟合训练数据,使得模型的预测与真实观测值之间的误差最小化。下面我们来详细解释线性回归的基本原理和假设。简单线性回归模型:y = β0 + β1x + ε多元线性回            
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2024-08-10 17:16:34
                            
                                46阅读
                            
                                                                             
                 
                
                             
         
            
            
            
            Task04:特征工程特征工程指的是把原始数据转变为模型的训练数据的过程,它的目的就是获取更好的训练数据特征,使得机器学习模型逼近这个上限。特征工程能使得模型的性能得到提升,有时甚至在简单的模型上也能取得不错的效果。特征工程在机器学习中占有非常重要的作用,一般认为括特征构建、特征提取、特征选择三个部分。特征构建比较麻烦,需要一定的经验。 特征提取与特征选择都是为了从原始特征中找出最有效的特征。它们            
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2024-04-03 08:19:06
                            
                                73阅读
                            
                                                                             
                 
                
                                
                     
                                    
                             
         
            
            
            
            本文主要简析XLNet模型的动机,核心实现过程,以及优缺点。一. 动机目前,无监督表示学习中最成功有两种模型:AR(Auto Regression)自回归模型和AE(Auto Encoding)自编码模型。 自回归模型采用上文或下文信息预测当前词,典型模型例如GPT,ELMO,其中ELMO采用了两个方向自回归模型,本质上同样属于自回归模型。自回归模型和自然语言处理任务过程匹配,即从左至右或从右至左            
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2024-03-16 01:18:14
                            
                                225阅读
                            
                                                                             
                 
                
                             
         
            
            
            
            2. 使用sklearn构建完整的机器学习项目流程一般来说,一个完整的机器学习项目分为以下步骤:明确项目任务:回归/分类收集数据集并选择合适的特征。选择度量模型性能的指标。选择具体的模型并进行训练以优化模型。评估模型的性能并调参。2.1 使用sklearn建立完整的回归项目2.1.1 收集数据集并选择合适的特征在数据集上我们使用我们比较熟悉的Boston房价数据集,原因是:第一个,我们通过这些简单            
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2024-05-11 12:05:40
                            
                                89阅读
                            
                                                                             
                 
                
                                
                     
                                    
                             
         
            
            
            
            特征工程&规则模型导语在诸多比赛中,常常都可以听说到一些高手避开了XGBoost、TensorFlow等高            
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2022-08-13 00:03:11
                            
                                58阅读
                            
                                                                             
                 
                
                                
                     
                                    
                             
         
            
            
            
            对数几率回归对数几率回归(logistic regression),又称为逻辑回归,虽然它的名字是“回归”,但实际却是一种分类学习方法,那为什么“回归”?个人觉得是因为它跟线性回归的公式有点关联。 对数几率函数是sigmoid函数。1、模型线性回归:逻辑回归:线性回归只能做数值预测,不能做分类,而阶跃函数适合做二类分类:但由于阶跃函数是不连续的,不能单调可微,因此我们需要找一个代替函数,而对数几率            
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2024-04-25 16:03:35
                            
                                38阅读
                            
                                                                             
                 
                
                             
         
            
            
            
            文章目录前言Softmax回归1.分类问题2.softmax回归模型3.单样本分类的矢量计算表达式4.小批量样本分类的矢量计算表达式5.交叉熵损失函数6.模型预测及评价7.小结上一节了解完单层单输出神经网络后,这一节主要学习单层多输出的神经网络模型:Softmax回归模型Softmax回归前几节介绍的线性回归模型适用于输出为连续值的情景。在另一类情景中,模型输出可以是一个像图像类别这样的离散值。对            
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2024-04-30 18:09:15
                            
                                65阅读
                            
                                                                             
                 
                
                             
         
            
            
            
            章节目标了解自回归模型为何比较适合生成序列数据 (例如文本)了解如何处理并tokenize文本数据了解RNN(recurrent neural networks)的架构设计利用Keras从零开始构建并训练 LSTM (long short-term memory network)使用LSTM来生成新的文本了解RNNs的其它变种,包括GRUs(Gated Recurrent Units) 以及 双向            
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2024-07-04 15:05:36
                            
                                83阅读
                            
                                                                             
                 
                
                             
         
            
            
            
            在机器学习和统计领域,线性回归模型是最简单的模型之一。这意味着,人们经常认为对线性回归的线性假设不够准确。例如,下列2个模型都是线性回归模型,即便右图中的线看起来并不像直线。若对此表示惊讶,那么本文值得你读一读。本文试图解释对线性回归模型的线性假设,以及此类线性假设的重要性。回答上述问题,需要了解以下两个简单例子中线性回归逐步运行的方式。例1:最简单的模型从最简单的例子开始。给定3对(x,y)训练            
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2024-06-18 13:25:46
                            
                                60阅读
                            
                                                                             
                 
                
                                
                     
                                    
                             
         
            
            
            
            在创建一个以“Python构建特征工程预测模型”为主题的博文时,我决定以一种结构化且有逻辑的方式呈现内容。本文将包括备份策略、恢复流程、灾难场景、工具链集成、日志分析以及扩展阅读模块,并且要注意图表的使用和代码的嵌入。
在构建特征工程预测模型时,特征的选择和处理方法对预测的效果有显著影响,因此整个流程的管理也变得至关重要。让我带你一起进入这个过程。
### 备份策略
在建设一个模型的过程中,            
                
         
            
            
            
            0.决策树  决策树是一种树型结构,其中每个内部节结点表示在一个属性上的测试,每一个分支代表一个测试输出,每个叶结点代表一种类别。  决策树学习是以实例为基础的归纳学习  决策树学习采用的是自顶向下的递归方法,其基本思想是以信息熵为度量构造一棵熵值下降最快的树。到叶子节点的处的熵值为零,此时每个叶结点中的实例都属于同一类。 1.决策树学习算法的特点  决策树算法的最大优点是可以自学习。在            
                
         
            
            
            
            介绍Excel真的能构建预测模型?这通常是我提起这个话题时的第一反应。当我演示如何利用Excel的灵活性为我们的数据科学和分析项目构建预测模型时,接下来是一个令人怀疑的眼神。让我问你一个问题-如果你周围的商店开始收集客户数据,他们是否可以采用基于数据的策略来销售他们的商品?他们能预测自己的销售额或估计可能销售的产品数量吗?       现在你一定想知道,他们究竟将如何建立一个复杂的统计模型来预测这            
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2024-08-26 16:02:23
                            
                                43阅读
                            
                                                                             
                 
                
                                
                     
                                    
                             
         
            
            
            
            前言:在介绍基于逻辑评分卡之前,需要对逻辑回归有个基本认知,最好能自己推导公式。评分卡模型1:概述信用评分本质上是模式识别中的一类分类问题,将企业或者个体消费者划分为能够按期还本付息(即“好”客户)和违约(即“坏”)两类。具体做法是根据历史数据中的样本,从已知的数据中找出违约及不违约客户的特征,从而总结出分类的规则,建立数学模型,用于测量价款人的违约风险(或者违约概率),为消费信贷决策提供依据。2            
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2024-04-30 19:39:00
                            
                                96阅读
                            
                                                                             
                 
                
                             
         
            
            
            
            入门小菜鸟,希望像做笔记记录自己学的东西,也希望能帮助到同样入门的人,更希望大佬们帮忙纠错啦~侵权立删。目录一、XGBoost简介二、XGBoost原理1、基本组成元素2、整体思路(1)训练过程——构建XGBoost模型       (2)测试过程3、目标函数(1)最初的目标函数(2)推导4、从目标函数到特征划分准则 + 叶子节点的值的确定(1)