最近工作发生很诡异的事情 我的数据,在随机森林上的表现比梯度提升算法的表现要好 实在没整明白
组长建议我调参后在比较 但是这差得有点多捏
我应该re考虑一下报价的准确率定义。。这个是让自己定义 然后和客户对接的那种
好!
今天逛街的目标是 我要了解有:
1、哪些是用于商业评估回归模型的参数?参数的应用范围与参数自身是什么样的?
分类的结果可能是模糊的正确,而回归的结果可能会是精确的错误。从样本分布空间角度来说,回归是在试图描述样本满足怎样的分布,在样本空间中寻找函数,尽可能拟合所有样本。而分类是在样本空间寻找一个分界面,使得正负样本尽可能在分界面的两侧。显然寻找一个平面要比寻找一个函数要容易得多。
确实 之前那个选址建模的(问题他们定义的),我换成分类问题以后能把准确度提高到50以上
看来问题的定义 真的很重要!
2、常用于建模的回归模型算法有哪些?
RF 提升算法
3、优化思路应该怎么做?
特征工程处理:使样本更接近真实情况
样本数据能否很好的反应总体规律:
如果样本数据本身无法很好的反应总体规律,那建模的过程就算捕捉到了规律可能也无法适用于未知数据。举个极端的例子,在进行反欺诈检测时,如果要基于并未出现过欺诈案例的历史数据来进行建模,那模型就将面临无规律可捕捉的窘境,当然,确切的说,是无可用规律可捕捉;或者,当扰动项过大时,噪声也将一定程度上掩盖真实规律。
4、特征工程到底应该怎么样 才是合理的?
需要去掉特别的值 把数据转换为系统可以识别的数据 使得数据更加符合总体样本规律
具体分析处理需要根据具体场景处理
5、异常值处理
我感觉异常值对数据的影响应该也很大!
尝试去除异常值试试
首先先接使用describe()进行数据探索