参数
参数 | 说明 |
boosting /boost/boosting_type | 用于指定弱学习器的类型,默认值为 ‘gbdt’,表示使用基于树的模型进行计算。还可以选择为 ‘gblinear’ 表示使用线性模型作为弱学习器。可选参数有: gbdt’,使用梯度提升树 rf’,使用随机森林 ‘goss’,使用单边梯度抽样算法,速度很快,但是可能欠拟合。 |
objective | 用于指定学习任务及相应的学习目标,常用的可选参数值如下: regression”,使用L2正则项的回归模型(默认值)。 “regression_l1”,使用L1正则项的回归模型。 “binary”,二分类。 multiclass”,多分类。 “mape”,平均绝对百分比误差。 |
num_class | 用于设置多分类问题的类别个数。 |
min_child_samples | 叶节点样本的最少数量,默认值20,用于防止过拟合。 |
learning_rate / eta | LightGBM 不完全信任每个弱学习器学到的残差值,为此需要给每个弱学习器拟合的残差值都乘上取值范围在(0, 1] 的 eta,设置较小的 eta 就可以多学习几个弱学习器来弥补不足的残差。推荐的候选值为:[0.01, 0.015, 0.025, 0.05, 0.1] |
max_depth | 指定树的最大深度,默认值为-1,表示不做限制,合理的设置可以防止过拟合。 |
num_leaves | 指定叶子的个数,默认值为31,此参数的数值应该小于 |
feature_fraction / colsample_bytree | 构建弱学习器时,对特征随机采样的比例,默认值为1。 |
bagging_fraction / subsample | 默认值1,指定采样出 subsample * n_samples 个样本用于训练弱学习器。注意这里的子采样和随机森林不一样,随机森林使用的是放回抽样,而这里是不放回抽样。 取值在(0, 1)之间,设置为1表示使用所有数据训练弱学习器。如果取值小于1,则只有一部分样本会去做GBDT的决策树拟合。选择小于1的比例可以减少方差,即防止过拟合,但是会增加样本拟合的偏差,因此取值不能太低。 注: bagging_freq 设置为非0值时才生效。 |
lambda_l1 | L1正则化权重项,增加此值将使模型更加保守。推荐的候选值为:[0, 0.01~0.1, 1] |
lambda_l2 | L2正则化权重项,增加此值将使模型更加保守。推荐的候选值为:[0, 0.1, 0.5, 1] |
min_gain_to_split / min_split_gain | 指定叶节点进行分支所需的损失减少的最小值,默认值为0。设置的值越大,模型就越保守。**推荐的候选值为:[0, 0.05 ~ 0.1, 0.3, 0.5, 0.7, 0.9, 1] ** |
min_sum_hessian_in_leaf / min_child_weight | 指定孩子节点中最小的样本权重和,如果一个叶子节点的样本权重和小于min_child_weight则拆分过程结束,默认值为1。推荐的候选值为:[1, 3, 5, 7] |
metric | 用于指定评估指标,可以传递各种评估方法组成的list。常用的评估指标如下: ‘mae’,用于回归任务,效果与 ‘mean_absolute_error’, ‘l1’ 相同。 ‘mse’,用于回归任务,效果与 ‘mean_squared_error’, ‘l2’ 相同。 ‘rmse’,用于回归任务,效果与 ‘root_mean_squared_error’, ‘l2_root’ 相同。 ‘auc’,用于二分类任务。 ‘binary’,用于二分类任务。 ‘binary_logloss’,用于二分类任务。 ‘binary_error’,用于二分类任务。 ‘multiclass’,用于多分类。 ‘multi_logloss’, 用于多分类。 ‘multi_error’, 用于多分类。 |
seed / random_state | 指定随机数种子。 |
以下为训练参数:
参数 | 说明 |
n_estimators/num_iterations/num_round/num_boost_round | 指定最大迭代次数,默认值为10 |
valid_sets | 列表类型,用于指定训练过程中用于评估的数据及数据的名称。例如:[train_data, valid_data] |
fobj | 可以指定二阶可导的自定义目标函数。 |
feval | 自定义评估函数。 |
categorical_feature | 指定哪些是类别特征。 |
early_stopping_rounds | 指定迭代多少次没有得到优化则停止训练,默认值为None,表示不提前停止训练。 |
verbose_eval | 可以是bool类型,也可以是整数类型。如果设置为整数,则每间隔verbose_eval次迭代就输出一次信息。 |
init_model | 加载之前训练好的 lgb 模型,用于增量训练。 |
基本使用
LGBMClassifier
(1)初始化模型
from lightgbm import LGBMClassifier
# 重要参数:
lgb_model = LGBMClassifier(
boosting_type='gbdt',
num_leaves=31,
max_depth=-1,
learning_rate=0.1,
n_estimators=100,
objective='binary', # 默认是二分类
min_split_gain=0.0,
min_child_samples=20,
subsample=1.0,
subsample_freq=0,
colsample_bytree=1.0,
reg_alpha=0.0,
reg_lambda=0.0,
random_state=None,
silent=True
)
(2)传入数据,开始训练
lgb_model.fit(
X, # array, DataFrame 类型
y, # array, Series 类型
eval_set=None, # 用于评估的数据集,例如:[(X_train, y_train), (X_test, y_test)]
eval_metric=None, # 评估函数,字符串类型,例如:'l2', 'logloss'
early_stopping_rounds=None,
verbose=True # 设置为正整数表示间隔多少次迭代输出一次信息
)
(3)预测
lgb_model.predict(data) # 返回预测值
lgb_model.predict_proba(data) # 返回各个样本属于各个类别的概率
实例
from lightgbm import LGBMClassifier
from sklearn.datasets import load_iris
from lightgbm import plot_importance
import matplotlib.pyplot as plt
from sklearn.model_selection import train_test_split
from sklearn.metrics import accuracy_score
# 加载样本数据集
iris = load_iris()
X,y = iris.data,iris.target
X_train,X_test,y_train,y_test = train_test_split(X,y,test_size=0.2,random_state=12343)
model = LGBMClassifier(
max_depth=3,
learning_rate=0.1,
n_estimators=200, # 使用多少个弱分类器
objective='multiclass',
num_class=3,
booster='gbtree',
min_child_weight=2,
subsample=0.8,
colsample_bytree=0.8,
reg_alpha=0,
reg_lambda=1,
seed=0 # 随机数种子
)
model.fit(X_train,y_train, eval_set=[(X_train, y_train), (X_test, y_test)],
verbose=100, early_stopping_rounds=50)
# 对测试集进行预测
y_pred = model.predict(X_test)
model.predict_proba
#计算准确率
accuracy = accuracy_score(y_test,y_pred)
print('accuracy:%3.f%%'%(accuracy*100))
# 显示重要特征
plot_importance(model)
plt.show()
结果如下:
LGBRegressor
from lightgbm import LGBMRegressor
from lightgbm import plot_importance
import matplotlib.pyplot as plt
from sklearn.model_selection import train_test_split
from sklearn.datasets import load_boston
from sklearn.metrics import mean_squared_error
# 导入数据集
boston = load_boston()
X ,y = boston.data,boston.target
X_train,X_test,y_train,y_test = train_test_split(X,y,test_size=0.2,random_state=0)
model = LGBMRegressor(
boosting_type='gbdt',
num_leaves=31,
max_depth=-1,
learning_rate=0.1,
n_estimators=100,
objective='regression', # 默认是二分类
min_split_gain=0.0,
min_child_samples=20,
subsample=1.0,
subsample_freq=0,
colsample_bytree=1.0,
reg_alpha=0.0,
reg_lambda=0.0,
random_state=None,
silent=True
)
model.fit(X_train,y_train, eval_set=[(X_train, y_train), (X_test, y_test)],
verbose=100, early_stopping_rounds=50)
# 对测试集进行预测
y_pred = model.predict(X_test)
mse = mean_squared_error(y_test,y_pred)
print('mse', mse)
# 显示重要特征
plot_importance(model)
plt.show()
调参
参考LightGBM 调参方法(具体操作)