Stacking：Catboost、Xgboost、LightGBM、Adaboost、RF etc

转载

datayx 2022-04-26 13:02:17

大数据挖掘DT机器学习公众号： datayx

任务：精品旅行服务成单预测

提供了5万多名用户在境外旅行APP（黄包车）中的浏览行为记录和历史订单记录（具体数据和字段如下五张表所示），其中用户在浏览APP之后有三种可能，购买精品旅游服务，或普通旅行服务，还有部分用户则不会下单。需要分析用户的个人信息、历史记录和浏览行为等，预测用户是否会在短期内购买精品旅游服务。

（训练集浏览记录一百三十三万条，测试集33万条）

Tab1 用户个人信息表（用户id、性别、省份、年龄段）
Tab2 用户浏览记录表（用户id、行为类型、发生时间）
Tab3 用户历史订单表（用户id、订单id、订单时间、订单类型、旅游城市、国家、大陆）
Tab4 待预测订单表（id、订单类型 1 精品 0普通）
Tab4 用户评论数据（用户id、订单id、评分、标签、评论内容）

比赛成绩

2018-02-08 AUC: 0.9764 B榜 Rank 2（Stacking：Catboost、Xgboost、LightGBM、Adaboost、RF etc.）
2018-02-07 AUC: 0.9589 A榜 Rank 3（Weight Average：0.65 * Catboost + 0.35 * XGBoost）
2018-01-21 AUC: 0.9733 半程冠军（Single model：Catboost）

代码获取：

关注微信公众号 datayx 然后回复旅游即可获取。

比赛方案

数据预处理：首先对数据进行清洗处理缺失值，浏览记录表中的1-4类无顺序，5-9类有顺序，一方面对567*9这种补齐8操作，另一方面发现订单历史记录中的下单时间戳和浏览记录的7操作时间一样，对于历史订单有订单但在浏览记录中对应时间点没有7操作的记录补齐7操作，还有基本信息缺失处理如性别的缺失处理等。
特征工程：特征设计主要从 （历史订单 + 浏览行为 + 时间特征 + 文本评论） 这几方面展开，并根据特征方差和特征与label的相关系数&绘图进行特征选择，具体特征在如下。
模型选择：由于其中包括浏览记录是属于类别特征，选用对类别特征直接支持且在泛化能力强不易过拟合的Catboost算法，和LightGBM算法。
模型融合：最后模型融合使用Stacking的方式，特征分三份：第一层使用（参数不一样）的10个Catboost、xgboost和lightGBM训练，第二层使用xgboost融合，最后三个stacking结果再次融合，融合方法采用概率大取更大、小取更小，通俗的理解是在表现效果 (AUC) 相差不大的多个模型中，去选取对该条样本预测更自信的模型作为最终结果。（全集特征+两份有重合不完全特征80%（根据特征相关性，强耦合的特征分开））单独Stacking：0.9746，三份stacking融合0.97640，单模型0.9735
由于部分用户浏览记录很少（只有几条），导致这些用户的很多特征维度为空，属于“冷启动”问题，单独建立在其历史特征和评论特征维度进行预测。