文章目录一.简介1.1 集成学习1.2 随机森林二.集成学习—投票分类器2.1 概念2.2 代码实现三.集成学习—bagging和pasting3.1 简介3.2 Scikit-Learn中使用bagging和pasting3.3 包外评估3.4 随机补丁和随机子空间四.集成学习—随机森林4.1 简介4.2 API使用4.3 极端随机树4.4 特征重要性五.集成学习—提升法Boosting5.1
BAT机器学习面试1000题系列 BAT机器学习面试1000题系列1 请简要介绍下SVM,机器学习 ML模型 易SVM,全称是support vector machine,中文名叫支持向量机。SVM是一个面向数据的分类算法,它的目标是为确定一个分类超平面,从而将不同的数据分隔开。扩展:这里有篇文章详尽介绍了SVM的原理、推导,《支持向量机通俗导论(理解SVM的三层境界)》。此外,这里有个
转载 9月前
0阅读
期思考题及参考解析120.请对比下Sigmoid、Tanh、ReLu这三个激活函数  logistic函数,应用在Logistic回归中。<span style="color: rgb(51, 51, 51); font-family:;" new="" times="" 14px;"="">logistic回归的目的是从特征学习出一个0/1分类模型,而这个模型是将特性的线性组合作为自
原创 2021-03-27 10:57:56
119阅读
期思考题及参考解析125.为什么LSTM模型中既存在sigmoid又存在tanh两种激活函数?  为什么不是选择统一一种sigmoid或者tanh,而是混合使用呢?这样的目的是什么?   本题解析来源:https://www.zhihu.com/question/46197687  @beanfrog:二者目的不一样:sigmoid 用在了各种gate上,产生0~1之间的值,这个一般只有sigmo
原创 2021-03-27 10:56:34
226阅读
期思考题及参考解析110.标准化与归一化的区别?  简单来说,标准化是依照特征矩阵的列处理数据,其通过求z-score的方法,将样本的特征值转换到同一量纲下。归一化是依照特征矩阵的行处理数据,其目的在于样本向量在点乘运算或其他核函数计算相似性时,拥有统一的标准,也就是说都转化为“单位向量”。规则为l2的归一化公式如下:  特征向量的缺失值处理  1. 缺失值较多.直接将该特征舍弃掉,否则可能反倒会
原创 2021-03-27 10:59:53
196阅读
上期思考题及参考解析105.当机器学习性能遭遇瓶颈时,你会如何优化的?  可以从这4个方面进行尝试:、基于数据、借助算法、用算法调参、借助模型融合。当然能谈多细多深入就看你的经验心得了。这里有一份参考清单:机器学习性能改善备忘单(http://blog.csdn.net/han_xiaoyang/article/details/53453145)106.做过什么样的机器学习项目?比如如何从零构建一
原创 2021-03-27 11:00:54
247阅读
226.为什么很多做人脸的Paper会最后加入一个Local Connected Conv?  @许韩,来源:https://zhuanlan.zhihu.com/p/25005808  以FaceBook DeepFace 为例:  DeepFace 先进行了两次全卷积+一次池化,提取了低层次的边缘/纹理等特征。后接了3个Local-Conv层,这里是用Local-Conv的原因是,人脸在不同的
原创 2021-03-26 19:08:55
237阅读
1.解决隐马模型中预测问题的算法是?  A.前向算法  B.后向算法  C.Baum-Welch算法  D.维特比算法  正确答案:D  @刘炫320,本题题目及解析来源:http://blog.csdn.net/column/details/16442.html  A、B:前向、后向算法解决的是一个评估问题,即给定一个模型,求某特定观测序列的概率,用于评估该序列最匹配的模型。  C:Baum-W
原创 2021-03-26 19:09:54
321阅读
5.一监狱人脸识别准入系统用来识别待进入人员的身份,此系统一共包括识别4种不同的人员:狱警,小偷,送餐员,其他。下面哪种学习方法最适合此种应用需求:()。  A. 二分类问题  B. 多分类问题  C. 层次聚类问题  D. k-中心点聚类问题  E. 回归问题  F. 结构分析问题  正确答案:B  @刘炫320,本题题目及解析来源:http://blog.csdn.net/column/det
原创 2021-03-26 19:13:08
321阅读
5.机器学习中,有哪些特征选择的工程方法?  数据和特征决定了机器学习的上限,而模型和算法只是逼近这个上限而已  1. 计算每一个特征与响应变量的相关性:工程上常用的手段有计算皮尔逊系数和互信息系数,皮尔逊系数只能衡量线性相关性而互信息系数能够很好地度量各种相关性,但是计算相对复杂一些,好在很多toolkit里边都包含了这个工具(如sklearn的MINE),得到相关性之后就可以排序选择特征了; 
原创 2021-03-26 19:13:37
449阅读
期思考题及参考解析150.假设你需要调整参数来最小化代价函数(cost function),可以使用下列哪项技术?  A. 穷举搜索  B. 随机搜索  C. Bayesian优化  D. 以上任意一种  答案:(D)151.在下面哪种情况下,一阶梯度下降不一定正确工作(可能会卡住)?  答案:(B)  这是鞍点(Saddle Point)的梯度下降的经典例子。另,本题来源于:https://ww
原创 2021-03-27 10:51:09
338阅读
期思考题及参考解析140.梯度下降算法的正确步骤是什么?计算预测值和真实值之间的误差重复迭代,直至得到网络权重的最佳值把输入传入网络,得到输出值用随机值初始化权重和偏差对每一个产生误差的神经元,调整相应的(权重)值以减小误差答案:正确步骤排序是:4, 3, 1, 5, 2141.已知:  - 大脑是有很多个叫做神经元的东西构成,神经网络是对大脑的简单的数学表达。  - 每一个神经元都有输入、处理函
原创 2021-03-27 10:53:05
375阅读
上期思考题及参考解析135.简述神经网络的发展   MP模型+sgn—->单层感知机(只能线性)+sgn— Minsky 低谷 —>多层感知机+BP+sigmoid—- (低谷) —>深度学习+pre-training+ReLU/sigmoid136.深度学习常用方法  @SmallisBig,来源:http://blog.csdn.net/u010496169/article/
原创 2021-03-27 10:53:58
218阅读
36.回归模型中存在多重共线性, 你如何解决这个问题?1. 去除这两个共线性变量2. 我们可以先去除一个共线性变量3. 计算VIF(方差膨胀因子), 采取相应措施4. 为了避免损失信息, 我们可以使用一些正则化方法, 比如, 岭回归和lasso回归.以下哪些是对的:A. 1B. 2C. 2和3D. 2, 3和4答案: D解决多重公线性, 可以使用相关矩阵去去除相关性高于75%的变量 (有主观成分)
原创 2021-03-26 19:08:28
703阅读
6.以下哪个是常见的时间序列算法模型  A.RSI  B.MACD  C.ARMA  D.KDJ  正确答案:C  解析: 自回归滑动平均模型(ARMA) ,其建模思想可概括为:逐渐增加模型的阶数,拟合较高阶模型,直到再增加模型的阶数而剩余残差方差不再显著减小为止。  其他三项都不是一个层次的。   A.相对强弱指数 (RSI, Relative Strength Index) 是通过比较一段时期
原创 2021-03-26 19:10:52
355阅读
01.深度学习(CNN RNN Attention)解决大规模文本分类问题  https://zhuanlan.zhihu.com/p/25928551102.如何解决RNN梯度爆炸和弥散的问题的?  本题解析来源:http://blog.csdn.net/han_xiaoyang/article/details/51932536  为了解决梯度爆炸问题,Thomas Mikolov首先提出了一个
原创 2021-03-26 19:12:01
8203阅读
.在选择神经网络的深度时,下面那些参数需要考虑?  1 神经网络的类型(如MLP,CNN)  2 输入数据  3 计算能力(硬件和软件能力决定)  4 学习速率  5 映射的输出函数  A 1,2,4,5  B 2,3,4,5  C 都需要考虑  D 1,3,4,5  答案:(C)  所有上述因素对于选择神经网络模型的深度都是重要的。171.考虑某个具体问题时,你可能只有少量数据来解决这个问题。不
原创 2021-03-26 19:14:04
915阅读
0.假设我们已经在ImageNet数据集(物体识别)上训练好了一个卷积神经网络。然后给这张卷积神经网络输入一张全白的图片。对于这个输入的输出结果为任何种类的物体的可能性都是一样的,对吗?  A 对的  B 不知道  C 看情况  D 不对  答案:(D)  各个神经元的反应是不一样的161.当在卷积神经网络中加入池化层(pooling layer)时,变换的不变性会被保留,是吗?  A 不知道  
原创 2021-03-26 19:16:29
373阅读
5.下列哪个神经网络结构会发生权重共享?  A.卷积神经网络  B.循环神经网络  C.全连接神经网络  D.选项A和B  答案:(D)156.批规范化(Batch Normalization)的好处都有啥?  A.在将所有的输入传递到下一层之前对其进行归一化(更改)  B.它将权重的归一化平均值和标准差  C.它是一种非常有效的反向传播(BP)方法  D.这些均不是  答案:(A)157.在一个
原创 2021-03-26 19:17:42
1072阅读
上期思考题及参考解析145.在训练神经网络时,损失函数(loss)在最初的几个epochs时没有下降,可能的原因是?()  A 学习率(learning rate)太低  B 正则参数太高  C 陷入局部最小值  D 以上都有可能  答案:(A)146.下列哪项关于模型能力(model capacity)的描述是正确的?(指神经网络模型能拟合复杂函数的能力)  A 隐藏层层数增加,模型能力增加  
原创 2021-03-27 10:51:43
985阅读
  • 1
  • 2
  • 3
  • 4
  • 5