特征工程概述
一、特征工程概述
1.1 特征工程主要内容
1.2 特征工程重要性
好数据>多数据>好算法 数据和特征决定了模型预测的上限,而算法只是逼这个上限而已 应用机器学习基本上就是特征工程
二、特征构造的常用方法
2.1 不同类型数据的特征提取方法
用户特征 RFM 行为特征提取:
在客户关系管理(CRM),有三个刻画用户的神奇指标 最近一次消费间隔时长(Recency) 消费频率(Frequency) 消费金额(Monetary)
代码演示: import matplotlib.pyplot as plt from IPython.core.interactiveshell import InteractiveShell InteractiveShell.ast_node_interactivity = 'all' trade = pd.read_csv(./data/transaction.txt) #导入交易数据类型 trad.info() trad.head() trade['Date'] = pd.to_datetime(trade['Date']) #把date数据转换成日期类型 trade.info() trade.head() RFM = trade.groupby('CardID').egg( #汇总生成 RFM 特征 {'Date':'max','CardID':'count','Amount':'sum'}) RFM.head()