1、保持推荐的多样性和聚焦性平衡。
2、推荐系统的未来方向:共享经济,共享单车的投放地点时间推荐。新零售:超市里每人都有自己的行走路线,都能看到自己个性化的广告。矿产勘探领域内,有运用推荐系统,可以写第一个工作经验。
3、Hive和Hbase的区别:Hive和Hbase是两种基于Hadoop的不同技术–Hive是一种类SQL的引擎,并且运行MapReduce任务,他批量处理任务,有延时性,多用于离线数据处理,运行不需要开启Zookeeper。Hbase是一种在Hadoop之上的NoSQL 的Key/vale数据库,数据其实是存放在HDFS中的,适用于实时数据处理,其运行必须要开启Zookeeper,非MapReduce任务。当然,这两种工具是可以同时使用的。就像用Google来搜索,用FaceBook进行社交一样,Hive可以用来进行统计查询,HBase可以用来进行实时查询,数据也可以从Hive写到Hbase,设置再从Hbase写回Hive。
4、为什么离线推荐趋向于用spark来代替mapreduce?
spark基于内存,mapreduce基于磁盘,速度不同
5、HDFS中数据不可变,只能追加,不能修改。Hbase表面上可以修改
6、R=召回率=查全率= 真正例/(真正例+假反例)
P=精度=真正例/(真正例+假正例)
准确率=(真正例+真反例)/所有样本
7、奥卡姆剃刀原理:尽量选择简单的模型开始尝试,简单的不行再用复杂的
8、集成方法:训练多个分类器、综合多个分类器的结果,作出预测
9、0.5<AUC<1,越大越好,说明预测越准确。详见5.06。
10、新用户冷启动问题:基于流行度推荐、人口统计学数据推荐、注册时让用户选择感兴趣标签。
11、物品冷启动:打标签
12、系统冷启动:a微信用qq的数据,b手机型号数据的采集,c向友商购买用户数据。
13、损失函数(Loss Function )是定义在单个样本上的,算的是一个样本的误差。
代价函数(Cost Function )是定义在整个训练集上的,是所有样本误差的平均,也就是损失函数的平均。
目标函数(Object Function)定义为:最终需要优化的函数。等于经验风险+结构风险(也就是Cost Function + 正则化项)。
14、解决过拟合问题:
1)减少变量的个数:舍弃一些变量,保留更为重要的变量。但是,如果每个特征变量都对预测产生影响。当舍弃一部分变量时,也就舍弃了一些信息。所以,希望保留所有的变量。
2)正则化:保留所有的变量,将一些不重要的特征的权值置为0或权值变小使得特征的参数矩阵变得稀疏,使每一个变量都对预测产生一点影响。[外链图片转存失败(img-qDbYMUSt-1563454181031)(/Volumes/茅草屋/网络下载的编程资料/屏幕快照 2019-05-05 下午1.04.36.png)]
[外链图片转存失败(img-1tGxX8eM-1563454181032)(/Volumes/茅草屋/网络下载的编程资料/屏幕快照 2019-05-05 下午1.05.19.png)]
15、偏差、方差、误差、噪声
偏差:预测值和真实值之间差距的值大小。
方差:预测值与真实值之间差距的波动程度。方差度量了同样大小训练集变动导致的性能变化。
噪声:无法通过算法解决的误差,数据本身的问题。噪声涉及问题本身的难度。
误差:口语中代表偏差和方差之和。
16、如何评价模型?
欠拟合:对训练集:偏差较大
对交叉验证集:偏差较大
过拟合:对训练集:偏差很小
对交叉验证集:偏差较大、方差较大
训练集和验证集误差相近:欠拟合,偏差问题。
验证集误差远大于训练集:过拟合,方差问题。
17、如何调优模型:
高方差问题:获得更多的训练集、减少特征的数量、增加正则化程度
高偏差问题:增加特征数量、增加多项式特征、减小正则化程度
18、算法与这些一样重要:数据的获取、误差分析、如何设定特征变量等。
19、如何理解随机森林里的随机:
a、数据随机。如果数据够大,可以直接把数据切分成n份,来随机训练模型。如果数据量不支持,可以采用BootStrap采样(重采样)方式随机数据:1、k折交叉验证。2、随机拿一个样本,然后放回,再随机拿,一共随机拿m个,这m个里可能重复,因为有放回。
b、决策树随机。如果每个样本的特征维度为M,随机地从M个特征中选取m(经验:logM=m)个特征子集,每次树分裂时,从这m个特征中选择最优的。
20、随机森林绝大部分是决策树组成的,也可由SVM、逻辑回归等组成,而决策树绝大部分都是由CART算法的。