3数据增强在传统方法中,针对学生退课研究的数据的打标方法主要根据退费时间进行标记,即只标记退费学生的退费当天作为正样本(Positive),剩余的所有的样本被标记为负样本(Negative);但是使用这种标注方法会使数据产生样本不平衡(data imbalance)的问题,同时由于只使用退课学生退费当天的样本作为正样本,会使模型缺失我们想要的预知性特点,即只能检测退费当天的学生。为了解决上述问题,我们提出了一种基于重采样(over sampling)改进的数据增强方法,具体做法如下图所示。 首先我们选定一个 作为扩展区间,我们将样本的正例扩展到 至 的区间;同时出于对于一般学生的退课影响近期性假设(Recency Effect),即我们认为越接近学生的退课点,学生的退课确定性越强。因此,为了强调这些接近退课时间点的样本的重要性,我们除了对正样本进行扩展还对这些扩展样本进行非平均重采样,即每个样本在重采样过程中出现的概率与其距离学生退课时间点的距离成反比:离退课时间点越近其对应重采样概率越高。在我们的实验中,我们尝试了3种不同的函数对该反比函数进行模拟:
4模型训练在模型训练过程中我们使用5折交叉验证的方法对模型的参数进行选取,同时为了保证交叉训练过程中的准确性,我们在学生维度对训练数据进行划分,即属于某个学生的所有样本都将被整体划入训练或验证集,具体训练的详细流程如下:
5离线结果我们的实验共计使用了2018年8月至2019年2月期间在第三方K12线上1对1教学平台上进行学习的3922名学生的相关数据,其中634名学生选择了退课,平均每位学生的学习时间总长度为86天,因此在我们的数据集中共包含338428个观察样本作为我们最终的实验数据集。同时,为了同时验证模型的准确性与预见性,因此我们除了会对模型的预测结果进行当日预测结果检验,同时也会对模型在1~14天内的预测结果进行结果指标计算。在评价模型准确性的方面,我们使用AUC作为我们模型的比较指标,下面我们将逐项对模型结果进行分析: 我们分别从3个方面对模型的性能进行了分析:从图1看出我们提出的模型在1~14天的预测任务上与其他模型相比都能有更优结果;从图2看出我们的数据增强方法与不使用数据增强相比为模型带来了明显的提升,除此以外当我们将正例扩展区间定为7天时,其提升效果在1~14天的整体预测结果上最为明显;从图3我们可以看出,与linear与concave函数相比convex函数对应的数据增强方法对模型的提升更大;在下面的表格中,我们展示了不同特征对模型的性能的影响,从结果可以看出3个方面的特征都对模型有正面的作用,同时课外类特征>动态类特征>课内类特征; 6在线结果除了对离线数据进行实验,我们还将该预测模型部署于线上并于2019年2月至2019年4月期间对该模型进行在线测试。我们使用模型在每日早间6点对在线平台内的所有处于正常上课的学生进行退课概率预测,将退课概率最高的30%学生列为重点关注对象。在隔天的退课学生名单中,我们发现平均约70%的退课学生都出现在前一天被预测的重点关注对象列表中。参考文献:[1] L. Zhang and H. Rangwala. Early identificationof at-risk students using iterative logistic regression. In InternationalConference on Artificial Intelligence in Education, pages 613–626. Springer,2018.[2] F. D. Pereira, E. Oliveira, A. Cristea, D.Fernandes, L. Silva, G. Aguiar, A. Alamri, and M. Alshehri. Early dropoutprediction for programming courses supported by online judges. In InternationalConference on Artificial Intelligence in Education, pages 67–72. Springer,2019.[3] L. Wood, S. Kiperman, R. C. Esch, A. J. Leroux,and S. D. Truscott. Predicting dropout using student-and school-level factors:An ecological perspective. School Psychology Quarterly, 32(1):35, 2017.[4] W. Xing, X. Chen, J. Stein, and M.Marcinkowski. Temporal predication of dropouts in moocs: Reaching the lowhanging fruit through stacking generalization. Computers in Human Behavior,58:119–129, 2016.[5] D. Yang, T. Sinha, D. Adamson, and C. P. Rośe. Turn on, tune in, drop out: Anticipating student dropouts in massive openonline courses. In Proceedings of the 2013 NIPS Data-driven education workshop,volume 11, page 14, 2013.[6] J. A. Greene, C. A. Oswald, and J. Pomerantz.Predictors of retention and achievement in a massive open online course.American Educational Research Journal, 52(5):925–955, 2015.[7] S. Lee and J. Y. Chung. The machinelearning-based dropout early warning system for improving the performance of dropoutprediction. Applied Sciences, 9(15):3093, 2019.[8] M. Fei and D.-Y. Yeung. Temporal models forpredicting student dropout in massive open online courses. In 2015 IEEEInternational Conference on Data Mining Workshop (ICDMW), pages 256–263. IEEE,2015.[9] C. A. Coleman, D. T. Seaton, and I. Chuang.Probabilistic use cases: Discovering behavioral patterns for predictingcertification. In Proceedings of the Second (2015) ACM Conference on Learning@Scale, pages 141–148. ACM, 2015.[10] S. Crossley, L. Paquette, M. Dascalu, D. S.McNamara, and R. S. Baker. Combining click-stream data with nlp tools to betterunderstand mooc completion. In Proceedings of the Sixth InternationalConference on Learning Analytics & Knowledge, pages 6–14. ACM, 2016.