【《白话机器学习的数学》笔记1】回归博客园的显示效果不是很好,推荐去我的GitHub或这个网站(其实就是个可以渲染GitHub上的notebook的网站,nbviewer.org)查看notebook笔记基于《白话机器学习的数学》这本书中关于回归的理论知识,准备自己动手利用代码实现一波,来一次真正地从源头上的入门!(所有的应用案例都是贴合书中的内容的,比如现在这里讲回归,所说的案例就是 利用广告费
线型回归是一种典型的参数学习,只能解决回归问题,简单线性回归–最小二乘法目的:使得用拟合的直线所求的的预测值与实际值的差距尽可能的小,差距可以用绝对值表示或者差距的平方表示,但由于需要通过求导求得系数,绝对值函数不连续可导,因此选择平方的形式,那么简单线型回归的目的为: 找到a和b使得∑(axi+b-yi)2(i=1,2,……m,m为样本个数)最小 这个函数也称为损失函数,用于度量模型没有拟合样本
转载
2024-09-02 12:44:16
51阅读
这一节主要介绍以下使用XGBoost算法再CPU/GPU版本下代码的编写基本流程,主要分为以下几个部分:构造训练集/验证算法参数设置XGBoost模型训练/验证模型预测本节主要面对的任务场景是回归任务,有关多分类的任务见:XGBoost–4–代码编写基本流程–分类另外,除上述几个部分外,会涉及到sklearn用于加载数据集以及最后的模型预测的评价指标计算;导入使用到的库:import time
i
转载
2024-03-28 12:15:07
134阅读
最近正在做信息抽取方向的工作,想要了解目前使用率高、易于落地且公认效果比较好的baseline模型,以便进行之后的相关工作。自回归(autoregressive)语言模型,如GPT,采用从左向右单向解码的方式,适用于自然语言生成(NLG)任务。非自回归(non-autoregressive)语言模型,如BERT,每个时刻的输出都可以充分利用双向信息,适用于自然语言理解(NLU)任务,但是在NLG上
转载
2024-04-07 14:22:30
62阅读
之前对于LR的介绍已经不少了,有从LR的极大似然概率模型开始推导的,从极大似然开始推导可以得到我们常用的损失函数形式,接下来就可以利用梯度下降方法。也从最大熵模型推导了满足二项分布的LR模型Hypothesis函数来源,以及满足多项式分布的Softmax回归模型。接下来对LR模型做一个总结。(参照面经等,以后可能会有补充……)如何凸显你是一个对逻辑回归已经非常了解的人呢。那就是用一句话概括它!逻辑
一、在运行XGboost之前,必须设置的三种类型参数。1.General parameters:一般参数。设定boosting过程中使用哪种booster,常用的booster有树模型(tree)和线性模型(linear model)booster [default=gbtree] 有两中模型可以选择gbtree和gblinear。(树模型-线性模型)silent [default=0] 
转载
2024-05-28 11:05:07
315阅读
数据挖掘xgb使用总结
1.集成学习背景
说到Xgb一般会先想到GBDT,从而引出boost类模型,什么是xgb模型,简单的说这就是一个常见的分类(回归)模型,和LR,SVM一样广泛应用在数据分类中,xgb的全称是X (Extreme) GBoosted,其中的X是极端的,G是梯度,翻译过来可以是极致的梯度提升模型,说到底还是梯度提升模型,本质
转载
2024-04-01 00:02:00
365阅读
通用参数这些参数用来控制XGBoost的宏观功能。1、booster[默认gbtree]选择每次迭代的模型,有两种选择: gbtree:基于树的模型 gbliner:线性模型2、silent[默认0]当这个参数值为1时,静默模式开启,不会输出任何信息。 一般这个参数就保持默认的0,因为这样能帮我们更好地理解模型。3、nthread[默认值为最大可能的线程数]这个参数用来进行多线程控制,
转载
2024-08-23 13:52:28
290阅读
一、概念XGBoost全名叫(eXtreme Gradient Boosting)极端梯度提升,经常被用在一些比赛中,其效果显著。它是大规模并行boosted tree的工具,它是目前最快最好的开源boosted tree工具包。XGBoost 所应用的算法就是 GBDT(gradient boosting decision tree)的改进,既可以用于分类也可以用于回归问题中。1、回归树与决策树
转载
2024-04-19 09:28:17
176阅读
import numpy as np
import pandas as pd
import mathdf=pd.read_excel("data.xlsx",dtype=str)df.describe()
随机值公司Id时间内注册公司数量(月)注册地址重合关联公司涉案法人有涉案记录(总次数)社保人数纳税金额法人过境记录预测结果属性count47234723472347234723472347
转载
2024-05-17 15:05:17
93阅读
掌握回归模型的参数评估及超参数调优对模型超参数进行调优(调参):对模型得优化不止局限于对模型算法的优化,比如:岭回归对线性回归的优化是通过在线性回归的损失函数中加入L2正则化项从而牺牲无偏性降低方差。但是,大家是否想过这样的问题:在L2正则化中参数 ? 应该选择多少?是0.01、0.1、还是1?到目前为止,我们只能凭经验或者瞎猜,能不能找到一种方法找到最优的参数 ? ?事实上,找到最佳参数的问题本
统计学中,一般将变量与变量之间的关系划分为函数关系和相关关系。函数关系:因变量与自变量之间存在函数式关系。当一个变量或几个变量取一定的值时,另一个变量有确定值。例如,当给出圆的半径r时,就可以根据S=πr2,计算出圆面积S。相关关系:因变量与自变量之间存在非严格的依存关系。当一个变量或几个变量取定一个数值时,另一个对应变量的数值是不确定的。但是,该变量的数值却是随着前述变量的所取数值而发生一定的变
转载
2024-06-20 19:45:50
66阅读
机器学习数学基础之线性回归1. 线性回归公式2. 利用矩阵对线性公式整合3. 误差项分析4. 似然函数5. 最小二乘★(矩阵求导公式) (本文为学习总结笔记,如有雷同请无视) 知识点: 1、利用矩阵的只是对线性公式进行整合 2、误差项的分析 3、似然函数的理解 4、矩阵求偏导 5、线性回归的最终求解1. 线性回归公式其中b为误差值,对最终的结果影响较小。线性回归中最重要的求解即为求w。 线性回
转载
2024-04-11 13:12:26
78阅读
XGBoost的参数XGBoost的作者把所有的参数分成了三类:
1、通用参数:宏观函数控制。
2、Booster参数:控制每一步的booster(tree/regression)。
3、学习目标参数:控制训练目标的表现。---------------------- 分别介绍-----------------------1. 通用参数1.1、booster[默认gbtree
转载
2024-03-05 22:20:09
152阅读
本文是根据这篇博客写出来的。其中的公式什么的可以去这个博客里面看。 本文主要讲述的是关于其中的线性回归算法中每一段的意思,以供自己以后参考学习。import numpy as np #引入numpy科学计算库
import matplotlib.pyplot as plt #引入绘图库
from sklearn.model_selection import train_test_split#从sk
转载
2023-11-19 18:34:42
168阅读
线性回归基本问题线性回归模型函数与损失函数问题 m个样本数据,每个样本对应n个特征及一个输出,针对样本输入,其输出预测如何计算?模型函数 其中.写成矩阵形式,、、形矩阵损失函数线性回归算法梯度下降最小二乘法判断回归效果 计算相关系数R:预测序列与真实值序列的匹配程度标准线性回归底层实现数据集:ex0.txtimport matplotlib.pyplot as plt
import numpy a
转载
2024-04-04 08:21:13
69阅读
一般做机器学习的小伙伴,应该用xgb比较多点,因为它比较透明易懂,且在sklearn库里的xgb损失函数是泰勒二阶展开的,而GBDT的损失函数只是一阶,从精准性来说用xgb模型会更好,前提是你也是用python的。都说了解一个模型原理的时候,了解它的参数是必备的。下面我们来说说xgb都有哪些参数,以及这些参数的作用等等。一、通用版参数1、 booster [default= gbtree ] 用于
转载
2024-03-31 22:38:54
264阅读
目录Regression Model 回归模型Loss Function 损失函数Gradient Descent 梯度下降实例问题:解决办法:另一个例子 Regression Model 回归模型回归模型用于得到输入数据到输出数据之间的一种映射关系,可以用 来简单表示。 其中w表示网络的权重,b表示偏置。x为网络输入,y为网络输出。Loss Function 损失函数损失函数用于评估模型预测(
转载
2024-04-23 10:07:27
100阅读
一、GBDT简介全称:Gradient Boosting Decison Tree别名:GBT(Gradient Boosting Tree), GTB(Gradient Tree Boosting ), GBRT(Gradient Boosting Regression Tree), MART(Multiple Additive Regression Tree)作者
转载
2024-05-13 14:26:01
214阅读
from sklearn.datasets import load_bostonfrom sklearn.model_selection import t
原创
2021-11-20 16:09:49
5530阅读