用户画像:从海量的用户数据中,建模抽象出每个用户的属性标签体系,这些属性通常需要有一定的商业价值。
用户图像数据挖掘:
1.数据收集
公司自有数据、互联网抓取的公开数据、第三方数据等
2.特征计算
特征爬虫:给出数据样本后,自动扫描结构化的数据表,根据相关性指标找到和样本标签强相关的数据列,处理后加入特征库作为后续建模使用。
3.特征库维护
统一管理特征,方便新特征的生成和老特征的下线,保证特征质量,检测特征波动情况,有质量风险的时候提出预警。
4.机器学习模型
使用算法建模。
注意为了方便统一预测,会采用预测模型标记语言做模型表达,减少模型预测时大量的适配工作。
预测模型标记语言(Predictive Model Markup Language,PMML):是一种可以呈现预测分析模型的事实标准语言。标准东西的好处就是,各种开发语言都可以使用相应的包,把模型文件转成这种中间格式,而另外一种开发语言,可以使用相应的包导入该文件做线上预测。不过,当训练和预测使用同一种开发语言的时候,PMML 就没有必要使用了,因为任何中间格式都会牺牲掉独有的优化。
5.应用接口
标签的收录管理。
数据使用的两种模式:给定用户ID查询用户属性标签,给定用户属性组合(交并等)后圈定符合条件的一批用户。
6.画像应用
将用户画像标签应用到业务线
用户标识:userID、deviceID
自然人(NPI):一个用户会有多个ID(如userID,deviceID,qq,wechat等),但是ID之间相互关联,有关联的ID一起构成一个实际的用户,也就是自然人。来自同一用户的所有ID统一对应到一个唯一编号NPI。
通常的识别方法为:将数据表示为分布式的图,求解最大连通子图,每个连通子图表示一个自然人,给每一个自然人一个唯一的编号自然人ID。
如果一个参数化模型可以分解为的形式,则未标记样本实例的价值就体现在,它们能够更好的地估计模型参数从而提高模型性能。
推导过程:
假设所有数据服从于某个由个高斯分布混合而成的分布,即
其中,为混合系数,为参数。这样标记就可以视为一个由选定的混合成分和特征向量以概率决定的随机变量。
根据最大后验概率假设,最优分类公式如下:其中表示最终分类结果,表示类别,
这两项的第一项与类别标记有关,第二项并不依赖示例的标记,因此如果有大量未标记实例可用,则意味着能够用于估计第二项的示例显著增多,让第二项的估计更加准确从而让整体更加准确。
【待解决】(之前在实习中用到全自动automl算子时,readme的要求也是希望能够将无label的测试集和有label的训练集同时输入模型去训练,保证不会因为测试集数据的分布影响模型效果,是否是同一个道理之后去查一下)